语音合成技术和文本语音转换 - Synthetic voice and Text to Speech technology - Синтетический голос и технологии преобразования текста в речь
 
TTS книги  Проверялка  ФорумФорум  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  

Реальная омонимия по корпусным данным

Предыдущая тема Следующая тема Перейти вниз
АвторСообщениеРеальная омонимия по корпусным данным
mia
V.I.P.
mia


Сообщений : 184
Репутация : 7

Реальная омонимия по корпусным данным WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 mia :: Вс Дек 14 2008, 21:32
Реальная омонимия по корпусным данным FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вс Дек 14 2008, 21:32

Реальная омонимия по корпусным данным
О. В. Кукушкина

Под реальной омонимией мы понимаем ту омонимию, которая реализуется в тестах и дает представление о наборе омонимов, характерных для того или иного подъязыка. Данные о реальной омонимии важны как для решения практических задач (ср. составление эффективных алгоритмов автоматического анализа текста, совершенствование методик преподавания русского языка др.), так и для получения общего представления о закономерностях функционирования омонимов. Анализ размеченных корпусов текстов – это единственный путь, которым можно решить указанную задачу.

Результаты некоторых исследований реальной картины омонимии по данным «Компьютерного корпуса текстов русских газет конца XX-го века», созданного в ЛОКЛЛ филологического факультета МГУ. Объем используемого материала – более 1.300 млн. словоупотреблений.
3. Для описания объекта использовалась следующая система понятий и противопоставлений:
– омонимы – все одинаково пишущиеся единицы, в том числе и по-разному звучащие (т. н. омографы);
– словарные омонимы / текстовые омонимы: это противопоставление позволяет описать и оценить потенциальную и реализованную омонимию в корпусе, т. е. вы¬явить единицы корпуса, которые вообще способны выступать с омонимичными значениями (словарные омонимы), и такие единицы, которые в корпусе действительно выступают в омонимичных значениях (текстовые омонимы);
– лексические омонимы / грамматические омонимы (омоформы): эта оппозиция позволяет разграничить единицы типа кулак1 / кулак2, совпадающие во всех своих формах, и банк // банка, печь (сущ.) // печь (гл.) совпадающие только в одной или нескольких формах.;
– леммные // нелеммные грамматические омонимы »: у омонимов первого типа омонимична начальная форма, поэтому они затрудняют прежде всего операцию синтеза и поиска всех остальных форм слова (ср. леммные омонимы – расти, печь (гл.), стекло, банка); у омонимов второго типа в омонимичные отношения вступают неначальные формы и затруднен процесс автоматического вывода начальной формы – лемматизация: ср. нелеммные омонимы стечь: стекло (стечь / стекло), стекли (стечь / стеклить );
– абсолютное / ведущее / возможное омонимичное значение: это противопоставление используется для оценки статуса каждого из альтернативных значений омонимичного означающего. Если омонимичная единица всегда выступает в корпусе в значении Х, то такое значение называется абсолютным; если значение Х реализуется значительно чаще, чем значение Y, то оно называется ведущим; при незначительном расхождении в частотности или малом числе употреблений значения Х и Y рассматривается как возможные;
– системная // регулярная // нерегулярная грамматическая омонимия: в русском языке есть участки, где омонимия форм носит обязательный характер для всех единиц одной части речи (ср: совпадение форм ед. тв // мн. дат. у атрибутивных слов – новым, читающим и пр.); в нем также есть участки, где у значительного количества слов, обычно близких по формальному типу, имеется аналогичная омоформа (ср. совпадение форм 2 л. мн. числа форм пов. и изъявит. накл. у глаголов на -ить, типа: учите, звоните). Эти два типа омонимии – системная и регулярная – противопоставлены чисто лексически обусловленной, непредсказуемой омонимии, имеющей место только у одной / нескольких конкретных лексем (ср.: омонимию «инфинитив / пов. накл»: расти расти // растить).
– внутричастеречная / межчастеречная омонимия – данное противопоставление позволяет оценить, насколько широко представлена реальная омонимия форм и слов одной части речи, какие типы межчастеречных «пересечений» представлены в текстах и являются наиболее частотными и пр.
4. Процедуру составления картины реальной омонимии можно проиллюстрировать на примере исследования одного из ее участков – грамматической внутриглагольной омонимии. Результаты этого исследования представлены в следующей таблице:
Реальная омонимия по корпусным данным 71623769ys6

Из данной таблицы видно, что рассматриваемый тип омонимии представлен 5-ю случаями, наиболее важными и частотными из которых являются первые два (см. табл.). Можно говорить о том, что они носят регулярный характер.
Количественно эта зона омонимии представлена 381 словоформами – словарными омонимами. Однако в звучащей речи она сужается до 269 единиц (см. число омографов). Текстовыми омонимами при этом являются только 28 словоформ, для которых в корпусе действительно зафиксировано наличие разных значений. Таким образом, текстовая омонимия в этой зоне во много раз уже, чем словарная, потенциальная, что существенно облегчает возможность автоматического разрешения омонимии.
С точки зрения семантической центральным для этой зоны является совпадение форм повелительного наклонения с другими формами (см. 2, 4, 5). Однако большой процент омографов (100 словоформ из 166 ) показывает, что в звучащей речи зона омонимии повелительного наклонения намного меньше и что грамматическая роль ударения в выражении значения повелительного наклонения в русском языке действительно очень велика. Различение с помощью места ударения омоформ 2-го типа носит регулярный характер, т. к. представлено у 100 лексем одного и того же типа (глаголы на -ить). Эту регулярность, преобладание в текстах глаголов на -ить с подвижным ударением нельзя игнорировать, когда мы пытаемся объяснить ошибок типа «позвОните» вместо «позвонИте» при малейшей потере контроля за правильностью речи.
Для омоформ 1, 4, 5 типов на основе данных корпуса удается выделить значения, которые являются ведущими или абсолютными. Это означает, что именно эти значения могут автоматически приписываться данным единицам при частотном подходе к проблеме снятия омонимии словоформ в газетных текстах.

Вернуться к началу Перейти вниз

Реальная омонимия по корпусным данным

Предыдущая тема Следующая тема Вернуться к началу
Реальная омонимия по корпусным данным
Страница 1 из 1Страница 1 из 1
      Форма быстрого ответа        Форма быстрого ответа  
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении
Создать форум | © phpBB | Бесплатный форум поддержки | Сообщить о нарушении | Последние обсуждения