|
|
Автор | Сообщение | Обсуждение словарей |
---|
king Новичок
Сообщений : 24
| king | :: Сб Дек 06 2008, 08:51 | Сб Дек 06 2008, 08:51 | |
| - evilone_ пишет:
-
- Цитата :
- Щёлкаем батфайл. и в 2.txt имеем
это интересно как? Это два раза щёлкаем мышкой по файлу, имеещему расширение .bat. Батник могу попробовать написать я. Возникают следующие вопросы: не удастся определить часть речи и везде будет писаться unknown; надо определить все правила произношения для всех букв, пока только определил правила смягчения согласных перед смягчающими гласными и перед мягким знаком, если есть хорошие ссылки или есть готовые правила произношения-в студию; скорость обработки будет невелика, 5-10 слов в секунду. |
|
|
| |
evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Сб Дек 06 2008, 15:03 | Сб Дек 06 2008, 15:03 | |
| сделай мне такой батник! нет, правда... только без птичек кавычек и прочей чепухи - словари для коли в другой ветке. все правила произношения есть в
части речи по лексикону:
что-то для поиска этого безобразия в тексте:
|
|
|
| |
king Новичок
Сообщений : 24
Репутация : 0
| king | :: Сб Дек 06 2008, 15:27 | Сб Дек 06 2008, 15:27 | |
| Батник это не программа, так что часть речи определить никак не удастся. А знак ударения надо будет все равно проставить, например *. мо*зга Лучше файлы выкладывать на still.ru |
|
|
| |
Николай Никол Наблюдатель
Сообщений : 2
Репутация : 0
| Николай Никол | :: Вс Дек 07 2008, 16:34 | Вс Дек 07 2008, 16:34 | |
| Уважаемые! В каком словаре (из 6-ти скачанных) нужно ввести коррекцию (и как), чтобы в словах: "разложите", "предложите", "подложите" из примера: "Разложите готовые домики. Предложите малышу расставлять фигуры. Подложите что-нибудь под стол." было бы при произношении одинаковое ударение ??? В обычным редакторе необходимо ввести все три слова (в файле "slsoch.dic") или можно как-то по-другому? (При попытке просмотра других файлов .dic вижу абракадабру). С уважением Николай Николаевич. |
|
|
| |
evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| |
| |
acadfan Новичок
Сообщений : 21
Репутация : 6
| acadfan | :: Вс Дек 07 2008, 18:01 | Вс Дек 07 2008, 18:01 | |
| С помощью KoobAudio получаю список имен и названий (с учетом частоты встречи в тексте). Затем вношу по одному слову из списка в Lexicon Manager, правлю фонетическую транскрипцию и получаю Лексикон имен и названий.
Мой вопрос: нет ли возможности внести весь список имен и названий сразу в Лексикон Менеджер одной командой, а затем уже править каждое слово? Это сильно облегчило бы подготовку текста. То есть нужна программа, которая допишет к каждому слову фонетическую транскрипцию. Тогда этот файл можно будет загрузить в Лексикон Менеджер, и останется только исправить ошибки в транскрипции. Может, кто-нибудь из программистов возьмется за такую задачу? |
|
|
| |
Николай Никол Наблюдатель
Сообщений : 2
Репутация : 0
| Николай Никол | :: Вс Дек 07 2008, 18:05 | Вс Дек 07 2008, 18:05 | |
| evilone_
Спасибо за ответ! Я делал проще: в словарь "slsoch.dic" вставлял только эти три слова ("разложите, предложите, подложите"): при этом все работает. Я предполагал, что существует ещё более простой вариант, например, так: вместо 3-х слов вставлять - "*ложите=ложИте" или ещё как-нибудь (в предыдущих топиках упоминалась транскрипция ...)
С уважением Николай Николаевич. |
|
|
| |
evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Вс Дек 07 2008, 18:35 | Вс Дек 07 2008, 18:35 | |
| так ведь это омографы можно и разложИте и разлОжите и если внести *ложите=ложИте то это не правильно пример: - Цитата :
- А где вы их разлОжите?
|
|
|
| |
king Новичок
Сообщений : 24
Репутация : 0
| king | :: Вс Дек 07 2008, 19:09 | Вс Дек 07 2008, 19:09 | |
| - acadfan пишет:
- нужна программа, которая допишет к каждому слову фонетическую транскрипцию. Тогда этот файл можно будет загрузить в Лексикон Менеджер, и останется только исправить ошибки в транскрипции.
Может, кто-нибудь из программистов возьмется за такую задачу? Так вот как раз несколькими постами выше я и хотел сделать это батником, думаю. часть речи не нужно особенно для правильного произношения. Вопрос. удастся ли в батник засунуть все правила произношения. Например, оглушение звонких согласных в конце слова мозг #m o1 s k Не надо мне париться! Ажажа написал уже и такую утилиту. http://ifolder.ru/9468038
Запускаем батником из той же папки , что и его другой батник dic.bat к его основной утилите поиска трудных слов, надеюсь все знают. trans.exe помещаем рядом с батником. Запускаем следующим батником
- Код:
-
@Echo Off chcp 1251 > nul set RML=%cd%\ SET ACATTS=J:\programs\speech\Acapela Group\Infovox Desktop 2.2\ trans.exe Alyona22k file_in.txt file_out.txt |
|
|
| |
ptoton Бывалый
Сообщений : 108
Репутация : 25
| ptoton | :: Пт Дек 12 2008, 13:50 | Пт Дек 12 2008, 13:50 | |
| В теме "Словари" просьба указать (и в последствии изменять) даты обновлений |
|
|
| |
acadfan Новичок
Сообщений : 21
Репутация : 6
| acadfan | :: Пн Дек 15 2008, 11:39 | Пн Дек 15 2008, 11:39 | |
| To King
Попробовал Ваш батник вместе с утилитой TRANS. Все получилось. К каждому слову дописывается фонетическая транскрипция. Спасибо за помощь! |
|
|
| |
Collega Новичок
Сообщений : 13
Репутация : 1
| Collega | :: Сб Дек 20 2008, 12:36 | Сб Дек 20 2008, 12:36 | |
| Выложите пожалуйста файл Russian.pdf, а то у меня почему-то такой файл отсутствует. |
|
|
| |
evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Сб Дек 20 2008, 17:41 | Сб Дек 20 2008, 17:41 | |
| Collega |
|
|
| |
Collega Новичок
Сообщений : 13
Репутация : 1
| Collega | :: Сб Дек 20 2008, 22:46 | Сб Дек 20 2008, 22:46 | |
| Спасибо evilone_. Я вообще то думал, что документ будет на русском языке. |
|
|
| |
evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Сб Дек 20 2008, 23:47 | Сб Дек 20 2008, 23:47 | |
| а ты зайди по такой ссылке:
|
|
|
| |
Collega Новичок
Сообщений : 13
Репутация : 1
| Collega | :: Вс Дек 21 2008, 08:51 | Вс Дек 21 2008, 08:51 | |
| evilone_, еще раз спасибо.
В редакторе лексикона можно выбрать к какой части речи относится редактируемое слово. Это обязательно делать? И некоторые определения там мне непонятны: conjunction - конъюнкция cardinal - кардинал, основной quantifier - квантор contraction - сжатие |
|
|
| |
mia V.I.P.
Сообщений : 184
Репутация : 7
| mia | :: Вс Дек 21 2008, 12:39 | Вс Дек 21 2008, 12:39 | |
| Collega - Цитата :
- В редакторе лексикона можно выбрать к какой части речи относится редактируемое слово. Это обязательно делать?
Если ты хочешь чтобы нормально читались омоформы\конверсии и пр. была нормальная синтагматика текста то да. Парадигма для лексикона по-моему не поддерживается и каждую словоформу все-равно нужно вносить ручками. |
|
|
| |
kakadupa Наблюдатель
Сообщений : 3
Репутация : 0
| kakadupa | :: Ср Дек 31 2008, 01:03 | Ср Дек 31 2008, 01:03 | |
| Непонятно следующее: Слово "девятеры'х" .
Неправильное произн-е: #d' $ v' $ t' $ r I x Правильное : #d' $ v' $ t' $ r I x 2 Но выдает ошибку при сохранении лексикона.Что-то можно сделать с этим?Как прописать?
Спасибо за ответ.
Зы. То Mia Хорошо написано.Мне, как "студенту кулинарного техникума("бывшему")"все очень хорошо непонятно |
|
|
| |
muk79 Участник «online словари»
Сообщений : 102
Репутация : 29
| muk79 | :: Ср Дек 31 2008, 04:00 | Ср Дек 31 2008, 04:00 | |
| А почему - Цитата :
- #d' $ v' $ t' $ r I x
не правильно? Очень даже не плохо звучит в тексте :search: |
|
|
| |
Vzx Новичок
Сообщений : 11
Репутация : 0
| Vzx | :: Чт Янв 08 2009, 18:25 | Чт Янв 08 2009, 18:25 | |
| В текущем словаре (от 6 декабря 2008) «Словарь замены ударений» есть небольшая ошибка: - Код:
-
*ои руки=*ои рУки Нужно убрать звёздочку из правой части. И ещё раз спасибо составителям словарей! |
|
|
| |
Vzx Новичок
Сообщений : 11
Репутация : 0
| Vzx | :: Чт Янв 08 2009, 22:50 | Чт Янв 08 2009, 22:50 | |
| Пожалуйста, скажите, а можно ли где-то скачать лексикон-словарь, соответствующий словарю замен для Ё-фикации текста (от 19 декабря 2008)? Потому как иначе после подключения этого словаря замен часть Ё-фицированных выражений некорректно произносятся Алёнкой ввиду их отсутствия в лексиконе. |
|
|
| |
evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Пт Янв 09 2009, 10:30 | Пт Янв 09 2009, 10:30 | |
| Vzx этот лексикон есть но пока еще не вычитан, так что пока скорее нет чем есть |
|
|
| |
Vzx Новичок
Сообщений : 11
Репутация : 0
| Vzx | :: Пт Янв 09 2009, 14:23 | Пт Янв 09 2009, 14:23 | |
| Evilone_, спасибо! Тогда будем ждать. Пока же незнакомые Ё-фицированные слова буду добавлять во временный лексикон. |
|
|
| |
evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Пт Янв 09 2009, 21:55 | Пт Янв 09 2009, 21:55 | |
| - Цитата :
- буду добавлять во временный лексикон
зачем делать лишнюю работу? если есть желание я могу дать ссылку на лексикон прямо в нем можешь править |
|
|
| |
Vzx Новичок
Сообщений : 11
Репутация : 0
| Vzx | :: Пт Янв 09 2009, 23:01 | Пт Янв 09 2009, 23:01 | |
| - evilone_ пишет:
- зачем делать лишнюю работу? если есть желание я могу дать ссылку на лексикон прямо в нем можешь править
Да, но если я буду править ваш лексикон, то потом придётся как-то отслеживать/синхронизировать правки, внесённые мной, вами и другими интересующимися форумчанами Наверное, изменения стоит либо вносить в отдельные файлы лексикона (а потом уже их сверять, если это технически возможно), либо отмечать ошибки в теме форума, как сейчас. В любом случае, было бы неплохо регулярно обновлять версии словарей, выложенные на сайте, чтобы сокращать объём работ.
Evilone_, желание есть, книги тоже есть, так что присылайте смело. Только расскажите, по какой схеме работать, чтобы это было на пользу. |
|
|
| |
BuraschChe Наблюдатель
Сообщений : 3
Репутация : 0
| BuraschChe | :: Пн Янв 19 2009, 19:13 | Пн Янв 19 2009, 19:13 | |
| Пол дня разбирался с наиболее простыми, с одной стороны, и наиболее качественными вариантами работы с ударениями через лексикон и словарь замен (Lexicon Manager Алёны Словарь замен Балаболки).
И зашел в тупик.
Простота однозначно на стороне словаря замен (в первую очередь благодаря наличию * звездочки для замены частей слов и испольозованию обычных букв), но качества никакого - только с омографами можно работать, с обычными словами с неправильной транскрипцией чаще всего происходит неудача.
Качество однозначно на стороне Lexicon Manager - любая транскрипция возможна. Но простоты никакой - особенно из-за отсутствия * звездочки приходится прописывать вручную все словоформы.
Не нашел выхода.
Далее наблюдения, на которых я основывался и вопросы к вам:
Некоторые слова категорически не хотят нормально произноситься при установки ударения в Балаболки, какие-то вообще неправильно произносятся (заглатывание букв, к примеру, не исправляется).
Как пример: замершие - не меняет ударение при установке [замершие=зАмершие] упорно читает замЕршие. Нашел выход в форме: [замершие=зАмер шие]. Ударение ставиться, но есть ненужный акцент на [шие]. Также не получилось ударение в словах [фолиАнтами] и [кОлбами]. Пришлось написать [фоли Антами] и [кОлба ми] Получилось с правильными ударениями но дурацкой интонацией. Помимо этого, не получается указать правильное произношение буквы Е ударной, где она читается как Э. К примеру, [кортеж=кортЭж] упорно читает как кОртэж
Начал разбираться с Lexicon Manager - сумаел сделать правильную транскрипцию ко всем словам, но пришлось каждый падеж прописывать по отдельности!!!!!!
Что получилось: - Код:
-
замершая #z A1 m' $ r S @ $ ADVERB замершего #z A1 m' $ r S I v @ ADVERB замершей #z A1 m' $ r S I j ADVERB замершему #z A1 m' $ r S I m U ADVERB замершие #z A1 m' $ r S I $ ADVERB замерший #z A1 m' $ r S I j NOUN замершую #z A1 m' $ r S U Y ADVERB колбами #k o1 l b @ m' $ NOUN кортеж #k V r t E1 S NOUN Сантьяга #s A n t' j {1 g @ NOUN фолиантами #f @ l' A1 n t @ m' $ NOUN
ТЕПЕРЬ НАКОПИВШИЕСЯ ВОПРОСЫ:
1. Можно ли в Lexicon Manager прописывать вариативность (т.е. * - звездочкой - отмечать разные варианты окончания или начала или как-то иначе)?
2. Я так понял, что по логике связка лексикон+словарь замен нужна только для определения в тексте омографов и расстановки ударения в них. И работает так: в Lexicon Manager прописывается что, к примеру, [стоИт = #s t V i1 t ] и [стОит = #s t o1 $ t], а в балаболке соответственно идет замена стоит на стоИт или стОит. Если так, то получается славарь автозамен НЕ ПРЕДНАЗНАЧЕН для прописывания правильной транскрипции, а только для определения нужного омографа по словосочетаниям или даже фразам.
Потому что из пяти НЕ ОМОГРАФОВ, транскрипцию которых я пытался ввести в словарь замен, три не стали правильно произноситься - пришлось менять их непосредственно в Lexicon Manager.
Я верно понял назначение этой связки лексикон+словарь?
Но если нужно пользоваться Lexicon Manager для транскрипции слов НЕ омографов, у него нет нужных инструментов - хотя бы звездочки (*) для замены частей слов - и пользоваться им выходит просто нереально нудно.
3. Если действительно транскрипцию неомографов грамотно нужно прописывать именно в Lexicon Manager и если в нем действительно нет * звёздочки, то как можно обойти её отсутствие - чтобы не записывать каждое слово во всех падежах вручную, как в выше приведенном примере?
Очень рассчитываю на вашу помощь. |
|
|
| |
BuraschChe Наблюдатель
Сообщений : 3
Репутация : 0
| BuraschChe | :: Пн Янв 19 2009, 19:23 | Пн Янв 19 2009, 19:23 | |
| В догонку, как подтвержение, что Lexicon Manager несовершенен:
Зайдите в балаболку и забейте:
- Код:
-
авиамехАника
авиамеханики
авиамеханик
С правильным ударением будут прочитаны только вторые два варианта, где мы его не отмечали - потому что в Lexicon Manager в словаре на данный момент присутствуют только они, а первого нет ни в одном виде (ни с прописной ударной, ни с заглавной).
Получается, пока в Lexicon Manager не забить все словоформы с ударениями поштучно, Алёна не будет правильно читать???? |
|
|
| |
Sylvia Участник «online словари»
Сообщений : 72
Репутация : 83
| Sylvia | :: Пн Янв 19 2009, 20:58 | Пн Янв 19 2009, 20:58 | |
| BuraschChe Вы все правильно поняли. 1. нельзя. Нужно прописывать все падежи 2. - Цитата :
- Если так, то получается славарь автозамен НЕ ПРЕДНАЗНАЧЕН для прописывания правильной транскрипции, а только для определения нужного омографа по словосочетаниям или даже фразам.
Именно. Алена реагирует только на Lexicon Manager, и если омограф с прописными буквами не занесен в Lexicon Manager, то Алена произнесет его, "как ей вздумается". 3. Звездочки нет, приходится каждое слово во всех падежах писать вручную. - Цитата :
- Получается, пока в Lexicon Manager не забить все словоформы с ударениями поштучно, Алёна не будет правильно читать????
так и есть. |
|
|
| |
mia V.I.P.
Сообщений : 184
Репутация : 7
| mia | :: Вт Янв 20 2009, 00:13 | Вт Янв 20 2009, 00:13 | |
| Автоматизировать можно приблизительно так: 1 - Добавляешь основную форму слова в лексикон например "километровый" 2 - с помощью этого строишь список по падежам в столбик 3 - с помощью этого строишь список транскрипций и импортируешь их в лексикон
Если не сильно "хитрое" слово до получается довольно быстро. |
|
|
| |
BuraschChe Наблюдатель
Сообщений : 3
Репутация : 0
| BuraschChe | :: Вт Янв 20 2009, 16:23 | Вт Янв 20 2009, 16:23 | |
| - Sylvia пишет:
- BuraschChe
Вы все правильно поняли. 1. нельзя. Нужно прописывать все падежи 2. ... Спасибо, за поддержку!
- mia пишет:
- Автоматизировать можно приблизительно так:
1 - Добавляешь основную форму слова в лексикон например "километровый" 2 - с помощью этого строишь список по падежам в столбик 3 - с помощью этого строишь список транскрипций и импортируешь их в лексикон
Если не сильно "хитрое" слово до получается довольно быстро. Особенно спасибо за третью ссылку (программку). А словарь я нашел чуть удобнее: morphology.ru Он показывает список всех вариантов в одну колонку, но не повторяет их (пока только на слове "замершая" проверил).
Остался вопрос6 нужно ли все-таки прописывать части речи - и зачем, если все равно это пока не можем использовать? |
|
|
| |
Frans Наблюдатель
Сообщений : 1
Репутация : 0
| Frans | :: Пн Фев 02 2009, 19:45 | Пн Фев 02 2009, 19:45 | |
| Заметил, что Алёна часто проглатывает отдельно стоящую букву "и" . Добавил букву "и" в словарь omograph.dic через Lexicon Manager как # _ i1 , тексты стали звучать определённо лучше.
з.ы. спасибо за вашу работу. |
|
|
| |
king Новичок
Сообщений : 24
Репутация : 0
| king | :: Вт Фев 03 2009, 21:38 | Вт Фев 03 2009, 21:38 | |
| Также батничком можно автоматически и все словоформы заданного слова прописывать. Типа пишешь в файл слова:
замершая колбами ...
на выходе:
замершая #z A1 m' $ r S @ $ ADVERB замершего #z A1 m' $ r S I v @ ADVERB замершей #z A1 m' $ r S I j ADVERB замершему #z A1 m' $ r S I m U ADVERB замершие #z A1 m' $ r S I $ ADVERB замерший #z A1 m' $ r S I j NOUN замершую #z A1 m' $ r S U Y ADVERB ... колбами #k o1 l b @ m' $ NOUN ...
Работает с АОТом. Он уже у многих есть. Только имет ли смысл? |
|
|
| |
grimripper8698698 Новичок
Сообщений : 13
Репутация : 0
| grimripper8698698 | :: Вт Фев 10 2009, 10:32 | Вт Фев 10 2009, 10:32 | |
| - Цитата :
- Заметил, что Алёна часто проглатывает отдельно стоящую букву "и" .
Добавил букву "и" в словарь omograph.dic через Lexicon Manager как # _ i1 , тексты стали звучать определённо лучше.
Вот так вроде ещё лучше - "# ? i" |
|
|
| |
grimripper8698698 Новичок
Сообщений : 13
Репутация : 0
| grimripper8698698 | :: Вт Фев 10 2009, 11:14 | Вт Фев 10 2009, 11:14 | |
| Скажите кто-то пытался сравнивать sz_bukvayo.dic и omograph.dic вроде много повторений... (Около 3000) Могу попробовать понаходить, только последовательность действий надо будет изобрести... в Balablke вроде есть програмка для этого... Решил посоветоваться, что-бы не делать двойную работу...
И еще...
Вещи вроде: "селезне*=селезнё*" "отягощенн*=отягощённ*" Тоже, кажется, надобы поправить, а то она же и в тексте "*" (Звёздочки) потавит...
И это тоже: "шелкокомбинат=шёлкокомбинат" "шелкокомбината=шёлкокомбината" "шелкокомбинатам=шёлкокомбинатам" А тут наоборот "*" (Звёздочки) добавить что-бы падеж не прописывать. "шелкокомбинат*=шёлкокомбинат" Это же не Lexicon Manager.
Третье: "алешинского?=алёшинского?" "алешинском?=алёшинском?" (Фамилии некоторые с большой буквы (и без знака "$" вначале), а некоторые с маленькой.
Обьясните, если не трудно, действительно ли нужны 1. формы с маленькой буквы? 2. Знаки Вопроса ("...нского?") на конце? 3. И всё то же прописывание падежей..? А так же оптимальный путь с этим бороться...
Я не силён в теории Русского языка, не знаю всех этих конъюнкция, квантор, но хотел бы помочь или что-то полезное сделать...
Есть свои словари... в добавок к вашим... Около 200 записей... и Лексиконы |
|
|
| |
grimripper8698698 Новичок
Сообщений : 13
Репутация : 0
| grimripper8698698 | :: Вт Фев 10 2009, 12:23 | Вт Фев 10 2009, 12:23 | |
| omograph.dic вроде почистил от совпадений с sz_bukvayo.dic. Полегчал на 100кб... Теперь надо что-то сделать с последним...
Вообще непрлохо бы, Все Фамилии и Расшифровку годов, в общем всякие Цифры навроде ("до 1957 г=до тысяча девятсОт пятьдесят седьмого года") определить в отдельные словари...
Поясню... Читать техническую и научную литературу Алёнку научить не успеем(ете) (выйдет новый движок и все труды на смарку), а для художественных (кои, ИМХО, по большей части и читаются Голосовыми Движками) книг подобные вещи не критичны... Только утяжеляют словари... Если у кого Историческая Книга, подключаешь словарь, а в нём уже можно подробно все эти вещи (Года, Цифры, Фамилии) расписать от и до...
А, да еще одно...
Фразы типа: "рука об руку", "с ноги на ногу", "по добру по здорову"...
Я начал создавать отдельный словарь (не знаю как эти вещи првильно называются)... Например: "рука об руку=рука ОбРуку" - в пользовательском словаре, плюс соответствующая ("ОбРуку"="#o1 b r U k U") запись в Лекиконе...
Надо -- не надо; может кто уже создал..? Ваши суждения... Будь Ласка :-) |
|
|
| |
evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Вт Фев 10 2009, 18:20 | Вт Фев 10 2009, 18:20 | |
| - Цитата :
- Скажите кто-то пытался сравнивать sz_bukvayo.dic и omograph.dic
вроде много повторений... (Около 3000) там действительно много пересечений но пока их не искали - Цитата :
- Тоже, кажется, надо бы поправить, а то она же и в тексте "*" (Звёздочки) поставит...
поправили, спасибо - Цитата :
- А тут наоборот "*" (Звёздочки) добавить что-бы падеж не прописывать.
замену * вместо падежей пока не прописывали потому что сильно уж это много времени займет но если есть какой-то более менее адекватный автоматический вариант то конечно лучше заменить, кто-то по-моему уже рвался делать лексиконы с буквой Ё но чет где-то пропал и не слышно совсем наверно после того как увидел объемы работы - Цитата :
- Обьясните, если не трудно, действительно ли нужны
1. формы с маленькой буквы? 2. Знаки Вопроса ("...нского?") на конце? 3. И всё то же прописывание падежей..? А так же оптимальный путь с этим бороться... 1. если явно не указано "$" то без разницы с большой или маленькой буквы 2. знаки вопроса скорее всего нет, это остатки от старого словаря их можно убрать наверно 3. если вручную то "овчинка выделки не стоит" а если есть вариант автоматизировать то лучше убрать быстрее будет заменять - Цитата :
- Есть свои словари... в добавок к вашим... Около 200 записей... и Лексиконы
конечно все надо куда-то закиньте и мне ссылку в пм или через формочку поглядим - Цитата :
- Фразы типа: "рука об руку", "с ноги на ногу", "по добру по здорову"...
нет такого точно пока нету, если есть база таких словосочетаний то конечно можно добавить, иногда такие словечки попадаются.
- Цитата :
- Года, Цифры, Фамилии
Фамилии наверно все не угадаешь и это уже сугубо индивидуально лучше оставить а вот про Года, Цифры если все будет хорошо то скоро в этих словарях потребность отпадет совсем. |
|
|
| |
grimripper8698698 Новичок
Сообщений : 13
Репутация : 0
| grimripper8698698 | :: Ср Фев 11 2009, 13:46 | Ср Фев 11 2009, 13:46 | |
| ПРОДЕЛАННАЯ РАБОТА 1. В словарях omograph.dic и sz_bukvayo.dic найдено 3900, с чем-то, эдентичных Записей. Эти Общие Записи разделены на Чистую Ё-фикацию и Ё-фикацию с Амографией (незнаю существуют ли такие термины). Соответственно Записи чистой Ё-фикации оставлены в sz_bukvayo.dic, а Ё-фикаця с Амографией оставлена в omograph.dic. 2. Выяснено зачение Знаков "?" вопроса в словаре sz_bukvayo.dic. Им (Знаком) обозначены слова со спорным произношением и неимеющимися (на данный момент у сотавителя словаря) словосочитаниями для просяснения их ниписания. 3. Из словаря sz_bukvayo.dic в отдельные словари убраны Все Фамилии и Слова со спорным произношением (из п.2). Которые в любом случае (из-за знака "?" на конце) не использовались при работе словаря. [Весь алгоритм могу расписать - если есть желание проверить на предмет ошибки с моей стороны] 3.1 Слова со "*" не убрал (либо сам потом уберу, либо вам придётся снова это сделать :-(.
Для выбора путей дальнейшей оптимизации ответьте на такой вопрос: Каким образом вы планируете организовать работу со словарями в долговременной перспективе..? Дело в том, что при использовании двух словарей (omograph.dic и sz_bukvayo.dic) одновременно Движок не выполняет все правила описанные в этих словарях - не знает что за чем изменять... теряется качество чтения... Плюс на ноутбуках Движок начинает немного запинатся (как мне сказали) из-за нехватки ресурсов компьютера...
Оптимальным вариантом на мой взгляд будет: Сначала проводить Полную Ё-фикацию текта (по словам и словосочитаниям) А словарь Амографов затачивать под текст с "Ё" (т.е. писать сразу "огонь её свечи=огонь её свечИ", не дублируя "огонь ее свечи=огонь её свечИ" в Амографах) Тогда их, видимо, можно будет подключать вместе, не опасаясь конфликтов... А в текстах с "ё" просто отключать словарь Ё-фикации. Недостатки - изменения нужно вносить в 2 словаря и отслеживать повторы - словарь для "Ё" будет бытро разрастаться за счет словосочитаний - люди создающие Личные словари и присылающие их на сайт врядле будут вникать в такие тонкости.
2-й вариант. В словарь Ё-фикации вносить только слова, которые не употребляются и не имеют смысла без "ё", а Ё-фикацию по словосичитаниям проводить одновременно с добавлением амографа. Недостатки - словарь Амографов станет гиганским, а словарь для "ё" в скором времени достигнет своего максимума (если уже не дотиг).
Есть конечно и 3-й вариант... Оставить всё как есть и вносить изменения куда попало, затем, кто-то ОДИН отлавливает совпадения из обоих словарей. Выкидывая в интернет Обновления с какой-либо индексацией...(Версия Такая-то... От такого-то числа...) Способ несомненно более гибкий и не такой трудоёмкий... Недостатки - Бардак. - Может оказатся так, что словарем Амографов мы будем корректировать ошибки словаря Ё-фикации и наоборот -- замкнутый круг...
И ещё... 1.Тому ОДНОМУ, кто будет отлавливать совпадения и размещать на сайте Обновления, неплохобы завести eMail на который каждый желающий мог-бы спокойно слить СВОИ словари, а не раскидывать их по интернету на файлообменники и проч. (тот же Бардак). 2. Плюс разработать Систему отсылки словарей (указание версии словаря использованного для создания Отсылаемого (Личного), Переодичность обновления и т.д.) 3. Дать чёткие указания по созданию Личных словарей, используемых версий. 4. Делать упор именно на Словари, не на Лексику (смена движка, может пустить работу на смарку), а словари останутся в любом случае...
З.Ы. Похоже слишком много пишу и командую... Прошу прощения. |
|
|
| |
evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Ср Фев 11 2009, 16:21 | Ср Фев 11 2009, 16:21 | |
| - Цитата :
- Похоже слишком много пишу и командую... Прошу прощения.
да ниче уже привыкли но в целом подход правильный хотя изначально словарь Ё думался как дополнительный и большого смысла в нем нету разве что только для омографов и омофонов с Ё остальное сделать можно более проще - Цитата :
- sz_bukvayo.dic----->ATTS-------->A
sz_bukvayo.dic----->ACATTS------->B A-B=C и затем "С" просто внести в лексикон и проверить. все больше не нужно ничего делать, даже больше, уже эти лексиконы есть и что-то даже начинали "вычитывать" на предмет правильного произношения и т.д. если есть желание могу переслать их.
а в omograph.dic кроме омографов и омофонов больше ничего и не нужно (для Аленки) это лишний никому не нужный труд.
- Цитата :
- Обновления, неплохо бы завести eMail на который каждый желающий мог-бы спокойно слить СВОИ словари, а не раскидывать их по интернету на файлообменники и проч. (тот же Бардак). Плюс разработать Систему отсылки словарей (указание версии словаря использованного для создания Отсылаемого (Личного), Периодичность обновления и т.д.)
почему бардак есть специальная форма для отправки слов, есть ПМ, есть даже спец. подфорум для обсуждения всего этого безобразия и каждый желающий, который умеет этим заниматься, может подключиться к общему процессу. |
|
|
| |
grimripper8698698 Новичок
Сообщений : 13
Репутация : 0
| grimripper8698698 | :: Ср Фев 11 2009, 23:33 | Ср Фев 11 2009, 23:33 | |
| - Цитата :
сделать можно более проще - Цитата :
- sz_bukvayo.dic----->ATTS-------->A
sz_bukvayo.dic----->ACATTS------->B A-B=C Не совсем понятно что это, ну да ладно...
- Цитата :
omograph.dic кроме омографов и омофонов больше ничего и не нужно (для Аленки) это лишний никому не нужный труд.
Я имел ввиду вещи вроде: "берет свое начало=берёт своё начАло" Должно быть в каком словаре; в "Омограф" или в "Ё-шный"..? (Например слово "Вселённая")
. . .
Вобщем - ясно, будем делать как скажете в "форму", так в форму. Свои Лексиконы и Словари вышлю через нее.
По поводу словаря с заменами типа "рука ОбрУку", он у меня пока не большой - 10-15 Записей, могу выслать для примера... (Словарь Замен и Лексикон к нему)
Еще есть словарь, который корректирует ошибки после обработки текста словарями omograph.dic и sz_bukvayo.dic. Каким образом его выслать?
З.Ы Нужны ли вам те Словари (omograph.dic и sz_bukvayo.dic), что я "почистил"? ...Или мне Самому ими Наслаждаться |
|
|
| |
evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Чт Фев 12 2009, 03:34 | Чт Фев 12 2009, 03:34 | |
| - Цитата :
- Не совсем понятно что это, ну да ладно...
ACATTS ATTS
- Цитата :
- Я имел ввиду вещи вроде:
"берет свое начало=берёт своё начАло" Должно быть в каком словаре; в "Омограф" или в "Ё-шный"..? (Например слово "Вселённая") берет свое начало=берёт своё начАло - это в omograph.dic а Вселённая в sz_bukvayo.dic
- Цитата :
- корректирует ошибки после обработки текста
что за ошибки?
- Цитата :
- Нужны ли вам те Словари (omograph.dic и sz_bukvayo.dic), что я "почистил"?
нужны конечно, присылайте поглядим |
|
|
| |
grimripper8698698 Новичок
Сообщений : 13
Репутация : 0
| grimripper8698698 | :: Чт Фев 12 2009, 10:59 | Чт Фев 12 2009, 10:59 | |
| Ха... Да, Моя ошибка.
- Цитата :
- (Например слово "Вселённая")
Это я дописывал протом (попало не в то место) -- оно отноится к ... - Цитата :
- [GrimRipper]корректирует ошибки после обработки текста
- Цитата :
- [evilone_]что за ошибки?
Имел Ввиду, что (скорее всего) по причине поставленных "*" в словаре sz_bukvayo.dic и omograph.dic некоторые слова приобретают не правильные ударения и буквы "ё" без необходимости. Я в Balabolke сначала "прохожу" текст словарями, а потом читаю и исправляю ошибки, так они виднее и не Алёнка не запинается... Список того что есть: проблёски=проблески говорить не о чём= говорить нЕ о чем арбалёт*=арбалет блажёнство=блаженство всё они=все _ они выточённым=выточенным жёлтоватого=желтоватого жёлчью=желчью Королёвство=Королевство нижнем бельё=нижнем белье они же мёртвы=они же мертвЫ проблёски=проблески примёты=приметы нАчала подниматься=началА подниматься отсутствие ветрА=отсутствие вЕтра всё так называемые=все так называемые глубине их дУши=глубине их душИ конвёрты=конверты безоружён=безоружен и всё мы=и все мы на землИ=на зЕмли и всё принялись=и все принялись шатёнку=шатенку мёртвы=мертвЫ всё остальные=все остальные по мОему мнению=по моему мнению весельём=весельем во всЕ века=во все векА
Размещаю всё здесь, а то через "форму" может будет не ясно, что это за странные исправления (не знаю принципа работы этой "формы"). Я бы сам всё исправил в sz_bukvayo.dic и omograph.dic, но это не имеет смысла -- всё равно вам потом переделывать...
Вот, к стати, Ещё словечко на тему "рука ОбрУку"(это "рука об руку" уже становится нарицательным :-)) по мОему,=пОмОему, по моему,=пОмОему, В Лексиконе что я отправил, оно должно быть -- это для словаря исправлений.
З.Ы. Можно ли в "форме" добавлять какие-либо коментарии для пояснения? |
|
|
| |
nikstomin Наблюдатель
Сообщений : 3
Репутация : 0
| nikstomin | :: Ср Фев 18 2009, 20:09 | Ср Фев 18 2009, 20:09 | |
| Кто-нибудь знает, в чем может быть дело: после установки лексикона трудночитаемых слов и подключения лексикона для словаря замен, словарь замены ударений к Аленке не подключается, пишет что-то вроде "этот лексикон не подходит, выберите другой лексикон либо иной речевой движок". Аленка последней версии. Ни у кого не наблюдалось подобной проблемы? |
|
|
| |
grimripper8698698 Новичок
Сообщений : 13
Репутация : 0
| grimripper8698698 | :: Ср Фев 18 2009, 22:31 | Ср Фев 18 2009, 22:31 | |
| - nikstomin пишет:
- "этот лексикон не подходит, выберите другой лексикон либо иной речевой движок"
Перезапусти Лексикон или перезагрузись... |
|
|
| |
nikstomin Наблюдатель
Сообщений : 3
Репутация : 0
| nikstomin | :: Ср Фев 18 2009, 23:48 | Ср Фев 18 2009, 23:48 | |
| - Цитата :
- Перезапусти Лексикон или перезагрузись...
Ну если бы всё было так просто... Пробовал, конечно. Увы, не промогает |
|
|
| |
evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Чт Фев 19 2009, 09:20 | Чт Фев 19 2009, 09:20 | |
| nikstomin словарь замены ударений это не лексикон он подключается к балаболке, неужели так трудно прочитать абзац текста? |
|
|
| |
grimripper8698698 Новичок
Сообщений : 13
Репутация : 0
| grimripper8698698 | :: Чт Фев 19 2009, 13:20 | Чт Фев 19 2009, 13:20 | |
| - nikstomin пишет:
-
- Цитата :
- Перезапусти Лексикон или перезагрузись...
Ну если бы всё было так просто... Пробовал, конечно. Увы, не промогает Если файл Бинарный (т.е. НЕ открывается в Блокноте), то подключаеш к Лексикону (в той последовательности в которой указано на сайте), если обычный - к Балаболке...
Посмотри внимательно, какие файлы ты скачал, раздели их на 2 эти группы, размести в указанных местах, и подключай. |
|
|
| |
nikstomin Наблюдатель
Сообщений : 3
Репутация : 0
| nikstomin | :: Чт Фев 19 2009, 16:26 | Чт Фев 19 2009, 16:26 | |
| grimripper8698698
Спасибо, все понял! |
|
|
| |
box440 Наблюдатель
Сообщений : 2
Репутация : 0
| box440 | :: Вт Мар 10 2009, 22:24 | Вт Мар 10 2009, 22:24 | |
| Добрый день.
Скачал такое редми:
Устанавливаем «балаболка», скачиваем словари замен и копируем их в папку «мои документы\balabolka».
Качаем лексикон трудночитаемых слов и копируем его поверх старого C:\Documents and Settings\%username%\Application Data\Acapela Group\HW2L\UserLexicons\Alyona22k.dic.
Качаем лексикон для словаря замен и подключаем его (не импортируем) так чтобы он стоял верхним по приоритету (тот что верхний тот приоритетнее от основного лексикона). Основной лексикон находится по адресу C:\Documents and Settings\%username%\Application Data\Acapela Group\HW2L\UserLexicons\Alyona22k.dic его можно подключить вторым для уверенности.
Запускаем «балаболка» подключаем словарь тот, что мы скопировали в папку мои документы\balabolka и переделываем текст. Копируем, вставляем и читаем(записываем). Читать такой замененный текст можно в любой программе для чтения, не обязательно в «балаболка».
Сама программа «балаболка» нужна только для простановки замен ударений.
Потянуло от этого писания дуркой времен советских. Качественной такой. Неужели нельзя сказать нормально? Если с заменой лексикона Alyona22k.dic. Еще можно справиться авторы зачем-то указали путь и имя файла, то остальное шифровали качественно.
Нет в балаболке такого меню. Ну что делать не подключить дабы галочки не ставятся, а может это не нужно вовсе?
Пробую заменить фразу в файле с расширением ini Файл принимает изменения. Но движок на него не обращает внимания. Тоже самое с фалами с расширением dic. Если правило не работает, зачем оно нужно? Может оно работает по-другому?
Объясните пожалуйста. |
|
|
| |
muk79 Участник «online словари»
Сообщений : 102
Репутация : 29
| muk79 | :: Вт Мар 10 2009, 23:17 | Вт Мар 10 2009, 23:17 | |
| box440По-моему написано вполне внятно и при желании прочитав пару раз можно запросто во всем разобраться самому.
- box440 пишет:
- Нет в балаболке такого меню.
Какого меню нету в балаболке?
- box440 пишет:
- Пробую заменить фразу в файле с расширением ini Файл принимает изменения. Но движок на него не обращает внимания.
А зачем вообще что-то менять да еще и в файле с расширением ini? :p9: |
|
|
| |
box440 Наблюдатель
Сообщений : 2
Репутация : 0
| box440 | :: Ср Мар 11 2009, 08:01 | Ср Мар 11 2009, 08:01 | |
| Предполагалось, что напротив файла omograph.dic можно поставить галочку и тем самым подключить его. Так же в скрине виден файл Alenka.hmg Как я показал, я не могу поставить галку напротив файла не активно поле. Кнопка редактировать тоже пассивна.
В скаченных архивах нет Alenka.hmg |
|
|
| |
muk79 Участник «online словари»
Сообщений : 102
Репутация : 29
| muk79 | :: Ср Мар 11 2009, 14:25 | Ср Мар 11 2009, 14:25 | |
| box440 Ты посмотри внимательно какие архивы и куда распаковывать нужно. Alenka.hmg есть в теме со словарями. |
|
|
| |
|
Обсуждение словарей |
---|