Синтаксисом называется раздел лингвистики, который имеет дело с сочетаемостью и линейным порядком слов внутри предложения. Теоретическую лингвистику больше интересуют сравнение грамматик естественных языков и синтаксические законы, применимые одновременно к большому количеству разных языков, то есть типология. Целью компьютерной лингвистики в области синтаксиса является построение автоматизированного анализатора отдельного языка. Этот анализатор должен уметь выделять простые предложения в составе сложного, устанавливать связи между словами и по возможности строить полное синтаксическое дерево предложения. Если теоретические исследования описывают как письменный язык, так и устную речь, то компьютерные программы имеют дело только с грамматикой письменного языка. С одной стороны, круг задач в компьютерной лингвистике значительно уже по сравнению с теоретической, но с другой - их решение требует значительно большей строгости и формальности описания.
Аналогию между системой языка и шахматами впервые предложил швейцарский лингвист Фердинанд де Соссюр. Как не меняются суть и правила игры в зависимости от размера доски или цвета фигур, так и сохраняют сходство грамматические структуры и законы внешне абсолютно разных языков. Белопольный слон никогда не займет черную клетку; каждое слово занимает только отведенное его роли место в структуре или линейном порядке предложения (например, в русском существительное не может стоять до предлога, от которого оно зависит). Любая удачная комбинация в партии есть продуманная последовательность ходов, где каждая фигура защищена другой, и если фигура удалена от «своих» и остается без защиты, она будет съедена или заперта фигурами противника, а партия проиграна. Грамматически верное и однозначное высказывание - результат хорошо построенной непрерывающейся структуры, где каждое слово имеет хозяина, и если слово не связано ни с одним из других слов в предложении, оно «выбивается» из контекста, искажая смысл всего высказывания.
«Большого охотник убил кролика хитрый». Такое предложение является грамматически неверным в русском языке, но правильно построенным в австралийском языке вальбири, где господствует свободный порядок слов. Один из главных критериев правильности синтаксической структуры - принцип проективности: структура проективна, если ни одна из стрелок не пересекает другую стрелку.
Проективность можно проиллюстрировать примером 1 (рис. 1).
В русской разговорной речи возможен свободный порядок слов, и пример из языка вальбири при определенной интонации может быть понятным и допустимым в устном русском. Большинство предложений письменного языка соблюдают закон проективности, поэтому программы синтаксического анализа включают в себя косвенно или в явном виде фильтр на непроективность. Требование проективности синтаксической структуры предложения универсально для большинства индоевропейских языков.
Степень свободы линейного порядка слов в предложении определяется сложностью морфологии языка. Так, русский перевод английской фразы «The farmer kills the duckling», то есть «Фермер убивает утенка», имеет 3! способа линейного расположения слов во фразе без ущерба принципу проективности («Утенка убивает фермер», «Утенка фермер убивает» и т. д.), в то время как любая перестановка слов в английском эквиваленте приводит либо к изменению смысла высказывания («The duckling kills the farmer» - «Утенок убивает фермера»), либо к грамматической неправильности («Kills the farmer the duckling»). Падежные окончания русских существительных позволяют свободно менять порядок слов во фразе, сохраняя смысл исходного высказывания (кто и кого убил).
В лингвистике существуют две основополагающие гипотезы о связи человеческого интеллекта и системы естественного языка. Гипотеза лингвистической относительности Сепира-Уорфа, согласно которой структура языка определяет структуру мышления и способ познания внешнего мира, и гипотеза о врожденности языковой способности, высказанная Хомским, согласно которой «форма языка, схема его грамматики в большой степени дана заранее». Каждая из этих теорий имеет своих сторонников и противников. Но достоверно можно утверждать только одно: абстрактная синтаксическая структура действительно отражает индивидуальные навыки мышления каждого человека и его способы выражения на родном языке знаний о внешнем мире. Ниже для сравнения приведены фрагменты автоматического синтаксического анализа текстов из произведений А. Чехова («Крыжовник») (рис. 3) 2 и В. Набокова («Сестры Вэйн») (рис. 4).
Структура Чехова - параллельная, Набокова - иерархическая.
Такие рассуждения роднят автоматическую обработку текста с задачами искусственного интеллекта. Как правило, синтаксические связи получают дальнейшую логическую и семантическую интерпретацию на последующих уровнях анализа.
Доказательством независимости правильной синтаксической структуры от смысла высказывания служат два самых известных в современной лингвистической традиции примера:
В примере (рис. 5) слова «глокая», «куздра» и др. не существуют в словаре, но успешно предсказываются их морфологические значения «прилагательное», «существительное» и т. д., которые и позволяют построить связанную синтаксическую структуру предложения, используя правила согласования и знания о линейном порядке слов. Хотя эта структура вряд ли сможет получить какую-либо смысловую интерпретацию, но, анализируя связи, можно сказать, что «глокая» является характеристикой «куздры», а «штеко», возможно, усиливает действие, выраженное глаголом «будлануть». Действительно, человек с богатым воображением сможет подробно объяснить значение и первой, и второй фразы.