Важная проблема разделения омонимов в лексикографии и лексической семантике представляет значительные трудности. Было бы желательно получить полный список омонимов и полисемичных слов большого толкового сло¬варя (русского) языка или большого двуязычного (ан¬гло-русского) словаря.
Словари, как правило, содержат отдельные словарные статьи для слов-омонимов или указания на полисемию в одной словарной статье. Однако, вопрос о полноте списка омонимов и полисемичных слов, зафиксированных словарем, остается открытым. Сама грань между понятиями полисемии и омонимии размыта и толкуется в зависимости от вкусов исследователя.
Методы разделения омонимов на основе исследования текстов при точном их применении могут давать исчерпывающий результат, однако такие методы с трудом поддаются формализации, требуют привлечения высококвалифицированных лингвистов и несвободны от субъективизма последних.
Кроме того, подобные исследования вряд и позволят выявить все слова, имеющие омонимы в конкретном тексте и, тем более, во всем корпусе большого словаря.
Предлагаемый ниже метод может применяться для первоначального, грубого выделения и разделения омонимов и полисемичных слов для получения возможно более полного списка таких слов – кандидатов на последующее тщательное исследование с привлечением контекстов.
Сущность метода заключается в следующем:
(приводится для пары русский-английский язык, но применим для других пар языков с обширной словарной базой)
1. В русско-английском словаре выбирается произвольное русское слово R0.
2. Выписываются все английские эквиваленты E1, E2 … данного слова.
3. Из английского словаря синонимов (типа Тезауруса Роже) выписываются все синонимы для каждого из эквивалентов E1 deltaE11, E12 …; E2 deltaE21, E22 …; … En deltaEn1, En2… .
4. Выявляются пересечения в выписанных списках синонимов «Матрица смежности» [D] строится следующим образом:
где
deltaij delta0 если списки Ei deltaEi1, Ei2, … и Ej deltaEj1, Ej2, … имеют пустое пересечение
и deltaij delta1 в ином случае (т. е. если одно и то же слово присутствует в обоих списках синонимов для Ei и Ej). Очевидно, deltaij = deltaji.
Матрица [D] задает граф d, вершинами которого являются английские эквиваленты первоначального слова R0, а ветвями – (транзитивное) отношение синонимии между этими эквивалентами.
Если получен связный граф (т. е. существует путь из любой вершины в любую другую), то все английские эквиваленты связаны между собой отношением синонимии и, вероятно, первоначальное русское слово R0 не имеет омонимов (но возможна полисемия, связанная с различными значениями английских эквивалентов). Если, с другой стороны, граф d несвязный и состоит из нескольких связных компонент, можно предположить наличие нескольких омонимов R01, R02… Семантика каждого из них соответствует одной компоненте связности графа d. В таком случае целесообразно переходить к анализу текстов, содержащих R0 для выяснения наличия омонимов.