evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Пт Июн 04 2010, 16:44 | Пт Июн 04 2010, 16:44 | |
| | Частотный лексикон (для словаря замен) | Составители: mia, evilone, evmir
Частотный лексикон (для словаря замен) для автоматической разметки омографов в тексте с учетом их частоты встречаемости, составленный на основе Корпуса русского литературного языка объемом 1 млн словоупотреблений. Данный лексикон адаптирован к голосовому движку Acapela-Group Alyona (Алёна), и хотя его применение для других движков возможно, однако оно будет неполным.
Лексикон можно использовать совместно со всеми остальными словарями замен и лексиконами для Аленки. Он не мешает основной разметке текста и служит лишь для автоматической расстановки "пропущенных" при разметке омографов. Установка: подключить в Lexicon Manager'у после обычного лексикона омографов (для словаря замен) (ниже). Если в других лексиконах есть явно предопределенные омографы тогда самым последним (нижним) по списку. 27.01.14. Есть уверенность, что довольно много омографов в своём изначальном, текстовом варианте (без капслоков) могут произноситься неправильно. Напр. "души", или "стою" (звучит "стая"), а перед запятой становятся проблемными слова "цели" (звучит целя), "стороны" (ударение на "ро"), Нужно просто выбрать более частый вариант и всё нормализуется.
Как бы не редактировались/разделялись/пополнялись правила в словаре(рях) замен, никогда НЕ удастся охватить даже несколько процентов всех возможных словосочетаний! И в огромном количестве предложений будут присутствовать неизменённые омографы с непредсказуемым звучанием в зависимости от контекста, знака пунктуации или ещё чего. Поэтому рекомендуется подключить данный лексикон - он исправлен и основательно дополнен. Спасибо retigor за идею более активного использования лексикона. |
|
|
evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Сб Июн 05 2010, 15:52 | Сб Июн 05 2010, 15:52 | |
| обновился: добавилось с учетом частотности словаря замен
|
|
|
evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Пн Июн 07 2010, 00:24 | Пн Июн 07 2010, 00:24 | |
| - Цитата :
- Часто́тный слова́рь (или частотный список) — набор слов данного языка (или подъязыка) вместе с информацией о частоте их встречаемости. Словарь может быть отсортирован по частоте, по алфавиту (тогда для каждого слова будет указана его частота), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д. Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной лингвистики, исследований в области лингвистической типологии, и т. д.
За основу этого частотного лексикона для словаря замен был взят частотный словарь омографов составленный по заранее размеченному корпусу и правилам основного словаря замен (omograph_rules_mytts_.dic).
В лексикон включена группа наиболее частотных омоформ с учетом особенностей произношения самого голосового движка, а именно:- исходная форма слова содержащаяся в лексиконе не имеет разметки ударения (заглавной буквы) а также буквы "Ё";
- в дальнейшем в лексикон будут внесены все омоформы в своём "частотном" варианте;
|
|
|
Sylvia Участник «online словари»
Сообщений : 72
Репутация : 83
| Sylvia | :: Пн Июн 07 2010, 18:14 | Пн Июн 07 2010, 18:14 | |
| evilone_, спасибо за проделанную работу, очень нужен такой словарь! |
|
|
abs9 Новичок
Сообщений : 17
Репутация : 0
| abs9 | :: Пн Янв 07 2013, 23:15 | Пн Янв 07 2013, 23:15 | |
| нашёл, что искал. спасибо! |
|
|