语音合成技术和文本语音转换 - Synthetic voice and Text to Speech technology - Синтетический голос и технологии преобразования текста в речь
 
TTS книги  Проверялка  ФорумФорум  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  

Синтаксический разбор и разрешение омонимии

Предыдущая тема Следующая тема Перейти вниз
АвторСообщениеСинтаксический разбор и разрешение омонимии
mia
V.I.P.
mia


Сообщений : 184
Репутация : 7

Синтаксический разбор и разрешение омонимии WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 mia :: Чт Фев 19 2009, 14:06
Синтаксический разбор и разрешение омонимии FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Чт Фев 19 2009, 14:06

Синтаксический разбор и разрешение омонимии
Ермаков А.Е., Плешко В.В.
http://www.rco.ru

Целью синтаксического разбора является построение дерева синтаксических зависимостей между словами во фразе. В случае удачного разбора предложение сворачивается в полносвязное дерево с единственной корневой вершиной.
Поскольку одна словоформа может соответствовать нескольким грамматическим формам слова, в том числе формам различных слов, в ходе анализа необходимо производить свертку предложения для всех возможных вариантов грамматических форм. Те грамматические формы, которые обеспечивают максимальную свертку дерева (минимальное число висячих вершин), следует считать наиболее достоверными.

Как показала практика, для снятия большей части омонимии (около 90%) не требуется полный синтаксический анализ, обеспечивающий полную свертку дерева. Достаточным оказывается включение правил согласования слов в именных и глагольных группах, свертки однородных членов, согласования подлежащего и сказуемого, предложно-падежного управления и нескольких прочих - всего в пределах 20-ти правил, описываемых бесконтекстной грамматикой. Подробно ознакомиться со способами формального описания языка можно, например, в работе [7].
Порядок применения правил управляется алгоритмом разбора, который на каждом шаге проверяет возможность применения очередного правила к очередному фрагменту фразы (паре-тройке слов, знаков препинания и т.п.) и, если удается, сворачивает фрагмент. Свертка фрагмента обычно заключается в его замене одним главным словом - удалением подчиненных слов, после чего разбор продолжается. В случае невозможности дальнейшего применения правил на любом из шагов совершается откат - последний свернутый фрагмент восстанавливается и делается попытка применить другие правила. Окончательным вариантом разбора следует считать такую последовательность применения правил, которая порождает максимальную свертку фразы.

Так, в ходе разбора фразы "усталые гуси и утки стали снижаться", возникают следующие варианты:

( усталые -> ( гуси + утки ) ) ~> ( стали <- снижаться ),
( усталые -> гуси ) и ( утки ~> ( стали <- снижаться ) ),
( ( усталые -> гуси ) + ( утки <- стали ) ) снижаться,

и ряд других.
Здесь каждая пара скобок включает ряд слов, обработанных некоторым правилом на очередном шаге анализа. Прямая стрелка указывает отношение подчинения при свертке именных и глагольных групп, знак плюса - свертку равноправных однородных членов, а волнистая стрелка - связь подлежащего со сказуемым. Такое представление соответствует дереву зависимостей во фразе.
Очевидно, что только первый вариант соответствует полному разбору - полносвязному дереву с одной вершиной, представленной глагольной группой "стали снижаться". Второй вариант не полон, но все установленные синтаксические связи являются правильными и позволяют правильно разрешить омонимию у глагола "стать". В третьем варианте присутствует ошибка, вызванная наличием у существительного "сталь" формы "стали" в родительном падеже множественного числа - выделена именная группа "утки стали" (аналогично "полосы стали", "ковка стали").

Как видно, процессу разбора соответствует целое дерево вариантов свертки фразы, вследствие чего производительность алгоритма падает экспоненциально с ростом числа используемых правил и количества слов в предложении. Так, очень сложные предложения могут порождать десятки тысяч вариантов разбора. Эта вычислительная проблема является общей для всех синтаксических анализаторов, ввиду чего на практике целесообразно ограничивать допустимое число рассматриваемых вариантов, и выбирать из них субоптимальный вариант свертки.

Как показал опыт, влияние подобного ограничения сказывается лишь на разборе небольшого количества особенно сложных предложений. Однако для разрешения омонимии даже неполного разбора практически всегда оказывается достаточно.

Положительной стороной этого момента является то, что точность анализа и его скорость (обратно пропорциональная полноте) регулируются одним числовым параметром, определяющим соотношение между ними. Так, начиная с некоторого момента, повышение точности разбора на один процент требует двукратного снижения производительности. В нашей реализации этот предел соответствует скорости обработки около 50 Мбайт текста в час (P-II, 400Мгц), что приемлемо для прикладных систем.


Литература
  1. Ермаков А.Е. Тематический анализ текста с выявлением сверхфразовой структуры. // Информационные технологии. - 2000. - N 11.
  2. Ермаков А.Е., Плешко В.В. Ассоциативная модель порождения текста в задаче классификации. // Информационные технологии. - 2000. - N 12.
  3. Плешко В.В., Ермаков А.Е., Липинский Г.В. TopSOM: визуализация информационных массивов с применением самоорганизующихся тематических карт. // Информационные технологии. - 2001. - N 8.
  4. Ермаков А.Е. Проблемы полнотекстового поиска и их решение. // Мир ПК. - 2001. - N 5.
  5. Ермаков А.Е., Плешко В.В. Тематическая навигация в полнотекстовых базах данных. // Мир ПК. - 2001. - N 8.
  6. Мельчук И.А Опыт теории лингвистических моделей "Смысл-Текст". Семантика, синтаксис. - М.: Школа "Языки русской культуры", 1999.
  7. Гладкий А.В. Формальные грамматики и языки. - М.: Наука, 1973.
  8. Розенталь Д.Э. Управление в русском языке. Словарь-справочник. - М.: Книга, 1986.
  9. Зализняк А.А. Грамматический словарь русского языка. - М.: Русский язык, 1977.

Вернуться к началу Перейти вниз

Синтаксический разбор и разрешение омонимии

Предыдущая тема Следующая тема Вернуться к началу
Синтаксический разбор и разрешение омонимии
Страница 1 из 1Страница 1 из 1
      Форма быстрого ответа        Форма быстрого ответа  
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении
Создать форум | © phpBB | Бесплатный форум поддержки | Сообщить о нарушении | Последние обсуждения