Под реальной омонимией мы понимаем ту омонимию, которая реализуется в тестах и дает представление о наборе омонимов, характерных для того или иного подъязыка. Данные о реальной омонимии важны как для решения практических задач (ср. составление эффективных алгоритмов автоматического анализа текста, совершенствование методик преподавания русского языка др.), так и для получения общего представления о закономерностях функционирования омонимов. Анализ размеченных корпусов текстов – это единственный путь, которым можно решить указанную задачу.
Результаты некоторых исследований реальной картины омонимии по данным «Компьютерного корпуса текстов русских газет конца XX-го века», созданного в ЛОКЛЛ филологического факультета МГУ. Объем используемого материала – более 1.300 млн. словоупотреблений.
3. Для описания объекта использовалась следующая система понятий и противопоставлений:
– омонимы – все одинаково пишущиеся единицы, в том числе и по-разному звучащие (т. н. омографы);
– словарные омонимы / текстовые омонимы: это противопоставление позволяет описать и оценить потенциальную и реализованную омонимию в корпусе, т. е. вы¬явить единицы корпуса, которые вообще способны выступать с омонимичными значениями (словарные омонимы), и такие единицы, которые в корпусе действительно выступают в омонимичных значениях (текстовые омонимы);
– лексические омонимы / грамматические омонимы (омоформы): эта оппозиция позволяет разграничить единицы типа кулак1 / кулак2, совпадающие во всех своих формах, и банк // банка, печь (сущ.) // печь (гл.) совпадающие только в одной или нескольких формах.;
– леммные // нелеммные грамматические омонимы »: у омонимов первого типа омонимична начальная форма, поэтому они затрудняют прежде всего операцию синтеза и поиска всех остальных форм слова (ср. леммные омонимы – расти, печь (гл.), стекло, банка); у омонимов второго типа в омонимичные отношения вступают неначальные формы и затруднен процесс автоматического вывода начальной формы – лемматизация: ср. нелеммные омонимы стечь: стекло (стечь / стекло), стекли (стечь / стеклить );
– абсолютное / ведущее / возможное омонимичное значение: это противопоставление используется для оценки статуса каждого из альтернативных значений омонимичного означающего. Если омонимичная единица всегда выступает в корпусе в значении Х, то такое значение называется абсолютным; если значение Х реализуется значительно чаще, чем значение Y, то оно называется ведущим; при незначительном расхождении в частотности или малом числе употреблений значения Х и Y рассматривается как возможные;
– системная // регулярная // нерегулярная грамматическая омонимия: в русском языке есть участки, где омонимия форм носит обязательный характер для всех единиц одной части речи (ср: совпадение форм ед. тв // мн. дат. у атрибутивных слов – новым, читающим и пр.); в нем также есть участки, где у значительного количества слов, обычно близких по формальному типу, имеется аналогичная омоформа (ср. совпадение форм 2 л. мн. числа форм пов. и изъявит. накл. у глаголов на -ить, типа: учите, звоните). Эти два типа омонимии – системная и регулярная – противопоставлены чисто лексически обусловленной, непредсказуемой омонимии, имеющей место только у одной / нескольких конкретных лексем (ср.: омонимию «инфинитив / пов. накл»: расти расти // растить).
– внутричастеречная / межчастеречная омонимия – данное противопоставление позволяет оценить, насколько широко представлена реальная омонимия форм и слов одной части речи, какие типы межчастеречных «пересечений» представлены в текстах и являются наиболее частотными и пр.
4. Процедуру составления картины реальной омонимии можно проиллюстрировать на примере исследования одного из ее участков – грамматической внутриглагольной омонимии. Результаты этого исследования представлены в следующей таблице:
Из данной таблицы видно, что рассматриваемый тип омонимии представлен 5-ю случаями, наиболее важными и частотными из которых являются первые два (см. табл.). Можно говорить о том, что они носят регулярный характер.
Количественно эта зона омонимии представлена 381 словоформами – словарными омонимами. Однако в звучащей речи она сужается до 269 единиц (см. число омографов). Текстовыми омонимами при этом являются только 28 словоформ, для которых в корпусе действительно зафиксировано наличие разных значений. Таким образом, текстовая омонимия в этой зоне во много раз уже, чем словарная, потенциальная, что существенно облегчает возможность автоматического разрешения омонимии.
С точки зрения семантической центральным для этой зоны является совпадение форм повелительного наклонения с другими формами (см. 2, 4, 5). Однако большой процент омографов (100 словоформ из 166 ) показывает, что в звучащей речи зона омонимии повелительного наклонения намного меньше и что грамматическая роль ударения в выражении значения повелительного наклонения в русском языке действительно очень велика. Различение с помощью места ударения омоформ 2-го типа носит регулярный характер, т. к. представлено у 100 лексем одного и того же типа (глаголы на -ить). Эту регулярность, преобладание в текстах глаголов на -ить с подвижным ударением нельзя игнорировать, когда мы пытаемся объяснить ошибок типа «позвОните» вместо «позвонИте» при малейшей потере контроля за правильностью речи.
Для омоформ 1, 4, 5 типов на основе данных корпуса удается выделить значения, которые являются ведущими или абсолютными. Это означает, что именно эти значения могут автоматически приписываться данным единицам при частотном подходе к проблеме снятия омонимии словоформ в газетных текстах.