Искусственный голос и синтез речи - 语音合成
Вы хотите отреагировать на этот пост ? Создайте аккаунт всего в несколько кликов или войдите на форум.


语音合成技术和文本语音转换 - Synthetic voice and Text to Speech technology - Синтетический голос и технологии преобразования текста в речь
 
TTS книги  Проверялка  ФорумФорум  Последние изображенияПоследние изображения  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  

Реальная омонимия по корпусным данным

Предыдущая тема Следующая тема Перейти вниз
АвторСообщениеРеальная омонимия по корпусным данным
mia
V.I.P.
mia


Сообщений : 184
Репутация : 7

Реальная омонимия по корпусным данным WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 mia :: Вс Дек 14 2008, 21:32
Реальная омонимия по корпусным данным FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Вс Дек 14 2008, 21:32

Реальная омонимия по корпусным данным
О. В. Кукушкина

Под реальной омонимией мы понимаем ту омонимию, которая реализуется в тестах и дает представление о наборе омонимов, характерных для того или иного подъязыка. Данные о реальной омонимии важны как для решения практических задач (ср. составление эффективных алгоритмов автоматического анализа текста, совершенствование методик преподавания русского языка др.), так и для получения общего представления о закономерностях функционирования омонимов. Анализ размеченных корпусов текстов – это единственный путь, которым можно решить указанную задачу.

Результаты некоторых исследований реальной картины омонимии по данным «Компьютерного корпуса текстов русских газет конца XX-го века», созданного в ЛОКЛЛ филологического факультета МГУ. Объем используемого материала – более 1.300 млн. словоупотреблений.
3. Для описания объекта использовалась следующая система понятий и противопоставлений:
– омонимы – все одинаково пишущиеся единицы, в том числе и по-разному звучащие (т. н. омографы);
– словарные омонимы / текстовые омонимы: это противопоставление позволяет описать и оценить потенциальную и реализованную омонимию в корпусе, т. е. вы¬явить единицы корпуса, которые вообще способны выступать с омонимичными значениями (словарные омонимы), и такие единицы, которые в корпусе действительно выступают в омонимичных значениях (текстовые омонимы);
– лексические омонимы / грамматические омонимы (омоформы): эта оппозиция позволяет разграничить единицы типа кулак1 / кулак2, совпадающие во всех своих формах, и банк // банка, печь (сущ.) // печь (гл.) совпадающие только в одной или нескольких формах.;
– леммные // нелеммные грамматические омонимы »: у омонимов первого типа омонимична начальная форма, поэтому они затрудняют прежде всего операцию синтеза и поиска всех остальных форм слова (ср. леммные омонимы – расти, печь (гл.), стекло, банка); у омонимов второго типа в омонимичные отношения вступают неначальные формы и затруднен процесс автоматического вывода начальной формы – лемматизация: ср. нелеммные омонимы стечь: стекло (стечь / стекло), стекли (стечь / стеклить );
– абсолютное / ведущее / возможное омонимичное значение: это противопоставление используется для оценки статуса каждого из альтернативных значений омонимичного означающего. Если омонимичная единица всегда выступает в корпусе в значении Х, то такое значение называется абсолютным; если значение Х реализуется значительно чаще, чем значение Y, то оно называется ведущим; при незначительном расхождении в частотности или малом числе употреблений значения Х и Y рассматривается как возможные;
– системная // регулярная // нерегулярная грамматическая омонимия: в русском языке есть участки, где омонимия форм носит обязательный характер для всех единиц одной части речи (ср: совпадение форм ед. тв // мн. дат. у атрибутивных слов – новым, читающим и пр.); в нем также есть участки, где у значительного количества слов, обычно близких по формальному типу, имеется аналогичная омоформа (ср. совпадение форм 2 л. мн. числа форм пов. и изъявит. накл. у глаголов на -ить, типа: учите, звоните). Эти два типа омонимии – системная и регулярная – противопоставлены чисто лексически обусловленной, непредсказуемой омонимии, имеющей место только у одной / нескольких конкретных лексем (ср.: омонимию «инфинитив / пов. накл»: расти расти // растить).
– внутричастеречная / межчастеречная омонимия – данное противопоставление позволяет оценить, насколько широко представлена реальная омонимия форм и слов одной части речи, какие типы межчастеречных «пересечений» представлены в текстах и являются наиболее частотными и пр.
4. Процедуру составления картины реальной омонимии можно проиллюстрировать на примере исследования одного из ее участков – грамматической внутриглагольной омонимии. Результаты этого исследования представлены в следующей таблице:
Реальная омонимия по корпусным данным 71623769ys6

Из данной таблицы видно, что рассматриваемый тип омонимии представлен 5-ю случаями, наиболее важными и частотными из которых являются первые два (см. табл.). Можно говорить о том, что они носят регулярный характер.
Количественно эта зона омонимии представлена 381 словоформами – словарными омонимами. Однако в звучащей речи она сужается до 269 единиц (см. число омографов). Текстовыми омонимами при этом являются только 28 словоформ, для которых в корпусе действительно зафиксировано наличие разных значений. Таким образом, текстовая омонимия в этой зоне во много раз уже, чем словарная, потенциальная, что существенно облегчает возможность автоматического разрешения омонимии.
С точки зрения семантической центральным для этой зоны является совпадение форм повелительного наклонения с другими формами (см. 2, 4, 5). Однако большой процент омографов (100 словоформ из 166 ) показывает, что в звучащей речи зона омонимии повелительного наклонения намного меньше и что грамматическая роль ударения в выражении значения повелительного наклонения в русском языке действительно очень велика. Различение с помощью места ударения омоформ 2-го типа носит регулярный характер, т. к. представлено у 100 лексем одного и того же типа (глаголы на -ить). Эту регулярность, преобладание в текстах глаголов на -ить с подвижным ударением нельзя игнорировать, когда мы пытаемся объяснить ошибок типа «позвОните» вместо «позвонИте» при малейшей потере контроля за правильностью речи.
Для омоформ 1, 4, 5 типов на основе данных корпуса удается выделить значения, которые являются ведущими или абсолютными. Это означает, что именно эти значения могут автоматически приписываться данным единицам при частотном подходе к проблеме снятия омонимии словоформ в газетных текстах.

Вернуться к началу Перейти вниз

Реальная омонимия по корпусным данным

Предыдущая тема Следующая тема Вернуться к началу
Реальная омонимия по корпусным данным
Страница 1 из 1Страница 1 из 1
      Форма быстрого ответа        Форма быстрого ответа  
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении
Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении | Cookies | Последние обсуждения