TTS книги  Проверялка  ФорумФорум  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  



Обсуждение словарей

Предыдущая тема Следующая тема Перейти вниз
На страницу : Предыдущий  1, 2, 3, 4, 5, 6, 7, 8, 9  Следующий
АвторСообщениеОбсуждение словарей
king
Новичок


Сообщений : 24

 king :: Сб Дек 06 2008, 08:51
Сб Дек 06 2008, 08:51

evilone_ пишет:
Цитата :
Щёлкаем батфайл. и в 2.txt имеем
это интересно как? Smile
Это два раза щёлкаем мышкой по файлу, имеещему расширение .bat. Батник могу попробовать написать я. Возникают следующие вопросы:
не удастся определить часть речи и везде будет писаться unknown;
надо определить все правила произношения для всех букв, пока только определил правила смягчения согласных перед смягчающими гласными и перед мягким знаком, если есть хорошие ссылки или есть готовые правила произношения-в студию;
скорость обработки будет невелика, 5-10 слов в секунду.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Сб Дек 06 2008, 15:03
Сб Дек 06 2008, 15:03

сделай мне такой батник! Smile нет, правда...
только без птичек кавычек и прочей чепухи - словари для коли в другой ветке.
все правила произношения есть в

части речи по лексикону:

что-то для поиска этого безобразия в тексте:

Вернуться к началу Перейти вниз
king
Новичок


Сообщений : 24
Репутация : 0

 king :: Сб Дек 06 2008, 15:27
Сб Дек 06 2008, 15:27

Батник это не программа, так что часть речи определить никак не удастся. А знак ударения надо будет все равно проставить, например *.
мо*зга
Лучше файлы выкладывать на still.ru

Вернуться к началу Перейти вниз
Николай Никол
Наблюдатель


Сообщений : 2
Репутация : 0

 Николай Никол :: Вс Дек 07 2008, 16:34
Вс Дек 07 2008, 16:34

Уважаемые!
В каком словаре (из 6-ти скачанных) нужно ввести коррекцию (и как),
чтобы в словах:
"разложите", "предложите", "подложите" из примера:
"Разложите готовые домики.
Предложите малышу расставлять фигуры.
Подложите что-нибудь под стол."
было бы при произношении одинаковое ударение ???
В обычным редакторе необходимо ввести все три слова (в файле
"slsoch.dic") или можно как-то по-другому?
(При попытке просмотра других файлов .dic вижу абракадабру).

С уважением
Николай Николаевич.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Вс Дек 07 2008, 16:54
Вс Дек 07 2008, 16:54

если все сделали и правильно подключили правильно то просто дописать в slsoch строки
Код:
разложите готовые домики=разложИте готовые домики
предложите малышу расставлять=предложИте малышу расставлять
подложите что-нибудь под=подложИте что-нибудь под
и хотя это не совсем правильно но для Вашего случая подойдет Wink

Вернуться к началу Перейти вниз
acadfan
Посетитель
avatar


Сообщений : 25
Репутация : 6

 acadfan :: Вс Дек 07 2008, 18:01
Вс Дек 07 2008, 18:01

С помощью KoobAudio получаю список имен и названий (с учетом частоты встречи в тексте). Затем вношу по одному слову из списка в Lexicon Manager, правлю фонетическую транскрипцию и получаю Лексикон имен и названий.

Мой вопрос: нет ли возможности внести весь список имен и названий сразу
в Лексикон Менеджер одной командой, а затем уже править каждое слово? Это сильно облегчило бы подготовку текста. То есть нужна программа, которая допишет к каждому слову фонетическую транскрипцию. Тогда этот файл можно будет загрузить в Лексикон Менеджер, и останется только исправить ошибки в транскрипции.
Может, кто-нибудь из программистов возьмется за такую задачу?

Вернуться к началу Перейти вниз
Николай Никол
Наблюдатель


Сообщений : 2
Репутация : 0

 Николай Никол :: Вс Дек 07 2008, 18:05
Вс Дек 07 2008, 18:05

evilone_

Спасибо за ответ!
Я делал проще: в словарь "slsoch.dic" вставлял только эти три слова ("разложите,
предложите, подложите"): при этом все работает.
Я предполагал, что существует ещё более простой вариант, например, так:
вместо 3-х слов вставлять - "*ложите=ложИте" или ещё как-нибудь (в предыдущих
топиках упоминалась транскрипция ...)

С уважением
Николай Николаевич.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Вс Дек 07 2008, 18:35
Вс Дек 07 2008, 18:35

так ведь это омографы можно и разложИте и разлОжите
и если внести *ложите=ложИте то это не правильно
пример:
Цитата :
А где вы их разлОжите?

Вернуться к началу Перейти вниз
king
Новичок


Сообщений : 24
Репутация : 0

 king :: Вс Дек 07 2008, 19:09
Вс Дек 07 2008, 19:09

acadfan пишет:
нужна программа, которая допишет к каждому слову фонетическую транскрипцию. Тогда этот файл можно будет загрузить в Лексикон Менеджер, и останется только исправить ошибки в транскрипции.
Может, кто-нибудь из программистов возьмется за такую задачу?
Так вот как раз несколькими постами выше я и хотел сделать это батником, думаю. часть речи не нужно особенно для правильного произношения. Вопрос. удастся ли в батник засунуть все правила произношения. Например, оглушение звонких согласных в конце слова
мозг #m o1 s k
Не надо мне париться! Ажажа написал уже и такую утилиту.
http://ifolder.ru/9468038

Запускаем батником из той же папки , что и его другой батник dic.bat к его основной утилите поиска трудных слов, надеюсь все знают. trans.exe помещаем рядом с батником. Запускаем следующим батником

Код:
@Echo Off
chcp 1251 > nul
set RML=%cd%\
SET ACATTS=J:\programs\speech\Acapela Group\Infovox Desktop 2.2\
trans.exe Alyona22k file_in.txt file_out.txt

Вернуться к началу Перейти вниз
ptoton
Бывалый
avatar


Сообщений : 108
Репутация : 25

 ptoton :: Пт Дек 12 2008, 13:50
Пт Дек 12 2008, 13:50

В теме "Словари" просьба указать (и в последствии изменять) даты обновлений

Вернуться к началу Перейти вниз
acadfan
Посетитель
avatar


Сообщений : 25
Репутация : 6

 acadfan :: Пн Дек 15 2008, 11:39
Пн Дек 15 2008, 11:39

To King

Попробовал Ваш батник вместе с утилитой TRANS. Все получилось. К каждому слову дописывается фонетическая транскрипция.
Спасибо за помощь!

Вернуться к началу Перейти вниз
Collega
Новичок


Сообщений : 13
Репутация : 1

 Collega :: Сб Дек 20 2008, 12:36
Сб Дек 20 2008, 12:36

Выложите пожалуйста файл Russian.pdf, а то у меня почему-то такой файл отсутствует.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Сб Дек 20 2008, 17:41
Сб Дек 20 2008, 17:41

Collega

Вернуться к началу Перейти вниз
Collega
Новичок


Сообщений : 13
Репутация : 1

 Collega :: Сб Дек 20 2008, 22:46
Сб Дек 20 2008, 22:46

Спасибо evilone_.
Я вообще то думал, что документ будет на русском языке.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Сб Дек 20 2008, 23:47
Сб Дек 20 2008, 23:47

а ты зайди по такой ссылке:

Вернуться к началу Перейти вниз
Collega
Новичок


Сообщений : 13
Репутация : 1

 Collega :: Вс Дек 21 2008, 08:51
Вс Дек 21 2008, 08:51

evilone_, еще раз спасибо.

В редакторе лексикона можно выбрать к какой части речи относится редактируемое слово. Это обязательно делать?
И некоторые определения там мне непонятны:
conjunction - конъюнкция
cardinal - кардинал, основной
quantifier - квантор
contraction - сжатие

Вернуться к началу Перейти вниз
mia
V.I.P.
avatar


Сообщений : 184
Репутация : 7

 mia :: Вс Дек 21 2008, 12:39
Вс Дек 21 2008, 12:39

Collega
Цитата :
В редакторе лексикона можно выбрать к какой части речи относится редактируемое слово. Это обязательно делать?
Если ты хочешь чтобы нормально читались омоформы\конверсии и пр. была нормальная синтагматика текста то да. Парадигма для лексикона по-моему не поддерживается и каждую словоформу все-равно нужно вносить ручками.

Вернуться к началу Перейти вниз
kakadupa
Наблюдатель
avatar


Сообщений : 3
Репутация : 0

 kakadupa :: Ср Дек 31 2008, 01:03
Ср Дек 31 2008, 01:03

Непонятно следующее:
Слово "девятеры'х" .

Неправильное произн-е: #d' $ v' $ t' $ r I x
Правильное : #d' $ v' $ t' $ r I x 2

Но выдает ошибку при сохранении лексикона.Что-то можно сделать с этим?Как прописать?

Спасибо за ответ.

Зы. То Mia
Хорошо написано.Мне, как "студенту кулинарного техникума("бывшему")"все очень хорошо непонятно clown

Вернуться к началу Перейти вниз
muk79
Участник «online словари»


Сообщений : 103
Репутация : 29

 muk79 :: Ср Дек 31 2008, 04:00
Ср Дек 31 2008, 04:00

А почему
Цитата :
#d' $ v' $ t' $ r I x
не правильно? Очень даже не плохо звучит в тексте :search:

Вернуться к началу Перейти вниз
Vzx
Новичок


Сообщений : 11
Репутация : 0

 Vzx :: Чт Янв 08 2009, 18:25
Чт Янв 08 2009, 18:25

В текущем словаре (от 6 декабря 2008) «Словарь замены ударений» есть небольшая ошибка:
Код:
*ои руки=*ои рУки
Нужно убрать звёздочку из правой части.
И ещё раз спасибо составителям словарей!

Вернуться к началу Перейти вниз
Vzx
Новичок


Сообщений : 11
Репутация : 0

 Vzx :: Чт Янв 08 2009, 22:50
Чт Янв 08 2009, 22:50

Пожалуйста, скажите, а можно ли где-то скачать лексикон-словарь, соответствующий словарю замен для Ё-фикации текста (от 19 декабря 2008)? Потому как иначе после подключения этого словаря замен часть Ё-фицированных выражений некорректно произносятся Алёнкой ввиду их отсутствия в лексиконе. Sad

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Пт Янв 09 2009, 10:30
Пт Янв 09 2009, 10:30

Vzx этот лексикон есть но пока еще не вычитан, так что пока скорее нет чем есть Smile

Вернуться к началу Перейти вниз
Vzx
Новичок


Сообщений : 11
Репутация : 0

 Vzx :: Пт Янв 09 2009, 14:23
Пт Янв 09 2009, 14:23

Evilone_, спасибо! Тогда будем ждать. Smile Пока же незнакомые Ё-фицированные слова буду добавлять во временный лексикон. Smile

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Пт Янв 09 2009, 21:55
Пт Янв 09 2009, 21:55

Цитата :
буду добавлять во временный лексикон
зачем делать лишнюю работу? если есть желание я могу дать ссылку на лексикон прямо в нем можешь править

Вернуться к началу Перейти вниз
Vzx
Новичок


Сообщений : 11
Репутация : 0

 Vzx :: Пт Янв 09 2009, 23:01
Пт Янв 09 2009, 23:01

evilone_ пишет:
зачем делать лишнюю работу? если есть желание я могу дать ссылку на лексикон прямо в нем можешь править
Да, но если я буду править ваш лексикон, то потом придётся как-то отслеживать/синхронизировать правки, внесённые мной, вами и другими интересующимися форумчанами Question Наверное, изменения стоит либо вносить в отдельные файлы лексикона (а потом уже их сверять, если это технически возможно), либо отмечать ошибки в теме форума, как сейчас. В любом случае, было бы неплохо регулярно обновлять версии словарей, выложенные на сайте, чтобы сокращать объём работ.

Evilone_, желание есть, книги тоже есть, так что присылайте смело. Smile Только расскажите, по какой схеме работать, чтобы это было на пользу.

Вернуться к началу Перейти вниз
BuraschChe
Наблюдатель


Сообщений : 3
Репутация : 0

 BuraschChe :: Пн Янв 19 2009, 19:13
Пн Янв 19 2009, 19:13

Пол дня разбирался с наиболее простыми, с одной стороны, и наиболее качественными вариантами работы с ударениями через лексикон и словарь замен (Lexicon Manager Алёны Словарь замен Балаболки).

И зашел в тупик.

Простота однозначно на стороне словаря замен (в первую очередь благодаря наличию * звездочки для замены частей слов и испольозованию обычных букв), но качества никакого - только с омографами можно работать, с обычными словами с неправильной транскрипцией чаще всего происходит неудача.

Качество однозначно на стороне Lexicon Manager - любая транскрипция возможна. Но простоты никакой - особенно из-за отсутствия * звездочки приходится прописывать вручную все словоформы.

Не нашел выхода.


Далее наблюдения, на которых я основывался и вопросы к вам:

Некоторые слова категорически не хотят нормально произноситься при установки ударения в Балаболки, какие-то вообще неправильно произносятся (заглатывание букв, к примеру, не исправляется).

Как пример: замершие - не меняет ударение при установке [замершие=зАмершие] упорно читает замЕршие.
Нашел выход в форме: [замершие=зАмер шие]. Ударение ставиться, но есть ненужный акцент на [шие].

Также не получилось ударение в словах [фолиАнтами] и [кОлбами]. Пришлось написать [фоли Антами] и [кОлба ми]
Получилось с правильными ударениями но дурацкой интонацией.
Помимо этого, не получается указать правильное произношение буквы Е ударной, где она читается как Э. К примеру, [кортеж=кортЭж] упорно читает как кОртэж

Начал разбираться с Lexicon Manager - сумаел сделать правильную транскрипцию ко всем словам, но пришлось каждый падеж прописывать по отдельности!!!!!!

Что получилось:
Код:

замершая   #z A1 m' $ r S @ $   ADVERB
замершего   #z A1 m' $ r S I v @   ADVERB
замершей   #z A1 m' $ r S I j   ADVERB
замершему   #z A1 m' $ r S I m U   ADVERB
замершие   #z A1 m' $ r S I $   ADVERB
замерший   #z A1 m' $ r S I j   NOUN
замершую   #z A1 m' $ r S U Y   ADVERB
колбами   #k o1 l b @ m' $   NOUN
кортеж   #k V r t E1 S   NOUN
Сантьяга   #s A n t' j {1 g @   NOUN
фолиантами   #f @ l' A1 n t @ m' $   NOUN


ТЕПЕРЬ НАКОПИВШИЕСЯ ВОПРОСЫ:

1. Можно ли в Lexicon Manager прописывать вариативность (т.е. * - звездочкой - отмечать разные варианты окончания или начала или как-то иначе)?

2. Я так понял, что по логике связка лексикон+словарь замен нужна только для определения в тексте омографов и расстановки ударения в них. И работает так: в Lexicon Manager прописывается что, к примеру, [стоИт = #s t V i1 t ] и [стОит = #s t o1 $ t], а в балаболке соответственно идет замена стоит на стоИт или стОит.
Если так, то получается славарь автозамен НЕ ПРЕДНАЗНАЧЕН для прописывания правильной транскрипции, а только для определения нужного омографа по словосочетаниям или даже фразам.

Потому что из пяти НЕ ОМОГРАФОВ, транскрипцию которых я пытался ввести в словарь замен, три не стали правильно произноситься - пришлось менять их непосредственно в Lexicon Manager.

Я верно понял назначение этой связки лексикон+словарь?

Но если нужно пользоваться Lexicon Manager для транскрипции слов НЕ омографов, у него нет нужных инструментов - хотя бы звездочки (*) для замены частей слов - и пользоваться им выходит просто нереально нудно.

3. Если действительно транскрипцию неомографов грамотно нужно прописывать именно в Lexicon Manager и если в нем действительно нет * звёздочки, то как можно обойти её отсутствие - чтобы не записывать каждое слово во всех падежах вручную, как в выше приведенном примере?

Очень рассчитываю на вашу помощь.

Вернуться к началу Перейти вниз
BuraschChe
Наблюдатель


Сообщений : 3
Репутация : 0

 BuraschChe :: Пн Янв 19 2009, 19:23
Пн Янв 19 2009, 19:23

В догонку, как подтвержение, что Lexicon Manager несовершенен:

Зайдите в балаболку и забейте:

Код:
авиамехАника

авиамеханики

авиамеханик

С правильным ударением будут прочитаны только вторые два варианта, где мы его не отмечали - потому что в Lexicon Manager в словаре на данный момент присутствуют только они, а первого нет ни в одном виде (ни с прописной ударной, ни с заглавной).


Получается, пока в Lexicon Manager не забить все словоформы с ударениями поштучно, Алёна не будет правильно читать????

Вернуться к началу Перейти вниз
Sylvia
Участник «online словари»
avatar


Сообщений : 72
Репутация : 83

 Sylvia :: Пн Янв 19 2009, 20:58
Пн Янв 19 2009, 20:58

BuraschChe
Вы все правильно поняли.
1. нельзя. Нужно прописывать все падежи
2.
Цитата :
Если так, то получается славарь автозамен НЕ ПРЕДНАЗНАЧЕН для прописывания правильной транскрипции, а только для определения нужного омографа по словосочетаниям или даже фразам.
Именно. Алена реагирует только на Lexicon Manager, и если омограф с прописными буквами не занесен в Lexicon Manager, то Алена произнесет его, "как ей вздумается".
3. Звездочки нет, приходится каждое слово во всех падежах писать вручную.
Цитата :
Получается, пока в Lexicon Manager не забить все словоформы с ударениями поштучно, Алёна не будет правильно читать????
так и есть.

Вернуться к началу Перейти вниз
mia
V.I.P.
avatar


Сообщений : 184
Репутация : 7

 mia :: Вт Янв 20 2009, 00:13
Вт Янв 20 2009, 00:13

Автоматизировать можно приблизительно так:
1 - Добавляешь основную форму слова в лексикон например "километровый"
2 - с помощью этого строишь список по падежам в столбик
3 - с помощью этого строишь список транскрипций и импортируешь их в лексикон

Если не сильно "хитрое" слово до получается довольно быстро.

Вернуться к началу Перейти вниз
BuraschChe
Наблюдатель


Сообщений : 3
Репутация : 0

 BuraschChe :: Вт Янв 20 2009, 16:23
Вт Янв 20 2009, 16:23

Sylvia пишет:
BuraschChe
Вы все правильно поняли.
1. нельзя. Нужно прописывать все падежи
2. ...

Спасибо, за поддержку!

mia пишет:
Автоматизировать можно приблизительно так:
1 - Добавляешь основную форму слова в лексикон например "километровый"
2 - с помощью этого строишь список по падежам в столбик
3 - с помощью этого строишь список транскрипций и импортируешь их в лексикон

Если не сильно "хитрое" слово до получается довольно быстро.

Особенно спасибо за третью ссылку (программку).
А словарь я нашел чуть удобнее: morphology.ru
Он показывает список всех вариантов в одну колонку, но не повторяет их (пока только на слове "замершая" проверил).

Остался вопрос6 нужно ли все-таки прописывать части речи - и зачем, если все равно это пока не можем использовать?

Вернуться к началу Перейти вниз
Frans
Наблюдатель


Сообщений : 1
Репутация : 0

 Frans :: Пн Фев 02 2009, 19:45
Пн Фев 02 2009, 19:45

Заметил, что Алёна часто проглатывает отдельно стоящую букву "и" .
Добавил букву "и" в словарь omograph.dic через Lexicon Manager
как # _ i1 , тексты стали звучать определённо лучше.

з.ы. спасибо за вашу работу.

Вернуться к началу Перейти вниз
king
Новичок


Сообщений : 24
Репутация : 0

 king :: Вт Фев 03 2009, 21:38
Вт Фев 03 2009, 21:38

Также батничком можно автоматически и все словоформы заданного слова прописывать. Типа пишешь в файл слова:

замершая
колбами
...

на выходе:

замершая #z A1 m' $ r S @ $ ADVERB
замершего #z A1 m' $ r S I v @ ADVERB
замершей #z A1 m' $ r S I j ADVERB
замершему #z A1 m' $ r S I m U ADVERB
замершие #z A1 m' $ r S I $ ADVERB
замерший #z A1 m' $ r S I j NOUN
замершую #z A1 m' $ r S U Y ADVERB
...
колбами #k o1 l b @ m' $ NOUN
...

Работает с АОТом. Он уже у многих есть. Только имет ли смысл?

Вернуться к началу Перейти вниз
grimripper8698698
Новичок
avatar


Сообщений : 13
Репутация : 0

 grimripper8698698 :: Вт Фев 10 2009, 10:32
Вт Фев 10 2009, 10:32

Цитата :
Заметил, что Алёна часто проглатывает отдельно стоящую букву "и" .
Добавил букву "и" в словарь omograph.dic через Lexicon Manager
как # _ i1 , тексты стали звучать определённо лучше.
Вот так вроде ещё лучше - "# ? i"

Вернуться к началу Перейти вниз
grimripper8698698
Новичок
avatar


Сообщений : 13
Репутация : 0

 grimripper8698698 :: Вт Фев 10 2009, 11:14
Вт Фев 10 2009, 11:14

Скажите кто-то пытался сравнивать sz_bukvayo.dic и omograph.dic
вроде много повторений... (Около 3000)
Могу попробовать понаходить, только последовательность действий надо будет изобрести... в Balablke вроде есть програмка для этого...
Решил посоветоваться, что-бы не делать двойную работу...

И еще...

Вещи вроде:
"селезне*=селезнё*"
"отягощенн*=отягощённ*"
Тоже, кажется, надобы поправить, а то она же и в тексте "*" (Звёздочки) потавит...

И это тоже:
"шелкокомбинат=шёлкокомбинат"
"шелкокомбината=шёлкокомбината"
"шелкокомбинатам=шёлкокомбинатам"
А тут наоборот "*" (Звёздочки) добавить что-бы падеж не прописывать.
"шелкокомбинат*=шёлкокомбинат"
Это же не Lexicon Manager.

Третье:
"алешинского?=алёшинского?"
"алешинском?=алёшинском?"
(Фамилии некоторые с большой буквы (и без знака "$" вначале), а некоторые с маленькой.

Обьясните, если не трудно, действительно ли нужны
1. формы с маленькой буквы?
2. Знаки Вопроса ("...нского?") на конце?
3. И всё то же прописывание падежей..?
А так же оптимальный путь с этим бороться...

Я не силён в теории Русского языка, не знаю всех этих конъюнкция, квантор, но хотел бы помочь или что-то полезное сделать...

Есть свои словари... в добавок к вашим... Около 200 записей... и Лексиконы

Вернуться к началу Перейти вниз
grimripper8698698
Новичок
avatar


Сообщений : 13
Репутация : 0

 grimripper8698698 :: Вт Фев 10 2009, 12:23
Вт Фев 10 2009, 12:23

omograph.dic вроде почистил от совпадений с sz_bukvayo.dic.
Полегчал на 100кб...
Теперь надо что-то сделать с последним...

Вообще непрлохо бы,
Все
Фамилии
и
Расшифровку годов, в общем всякие Цифры
навроде ("до 1957 г=до тысяча девятсОт пятьдесят седьмого года")
определить в отдельные словари...

Поясню... Читать техническую и научную литературу Алёнку научить не успеем(ете) (выйдет новый движок и все труды на смарку), а для художественных (кои, ИМХО, по большей части и читаются Голосовыми Движками) книг подобные вещи не критичны... Только утяжеляют словари...
Если у кого Историческая Книга, подключаешь словарь, а в нём уже можно подробно все эти вещи (Года, Цифры, Фамилии) расписать от и до...

А, да еще одно...

Фразы типа: "рука об руку", "с ноги на ногу", "по добру по здорову"...

Я начал создавать отдельный словарь (не знаю как эти вещи првильно называются)...
Например:
"рука об руку=рука ОбРуку" - в пользовательском словаре, плюс соответствующая ("ОбРуку"="#o1 b r U k U") запись в Лекиконе...

Надо -- не надо; может кто уже создал..? Ваши суждения... Будь Ласка :-)

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Вт Фев 10 2009, 18:20
Вт Фев 10 2009, 18:20

Цитата :
Скажите кто-то пытался сравнивать sz_bukvayo.dic и omograph.dic
вроде много повторений... (Около 3000)
там действительно много пересечений но пока их не искали
Цитата :
Тоже, кажется, надо бы поправить, а то она же и в тексте "*" (Звёздочки) поставит...
поправили, спасибо
Цитата :
А тут наоборот "*" (Звёздочки) добавить что-бы падеж не прописывать.
замену * вместо падежей пока не прописывали потому что сильно уж это много времени займет но если есть какой-то более менее адекватный автоматический вариант то конечно лучше заменить, кто-то по-моему уже рвался делать лексиконы с буквой Ё но чет где-то пропал и не слышно совсем наверно после того как увидел объемы работы Smile
Цитата :
Обьясните, если не трудно, действительно ли нужны
1. формы с маленькой буквы?
2. Знаки Вопроса ("...нского?") на конце?
3. И всё то же прописывание падежей..?
А так же оптимальный путь с этим бороться...
1. если явно не указано "$" то без разницы с большой или маленькой буквы
2. знаки вопроса скорее всего нет, это остатки от старого словаря их можно убрать наверно
3. если вручную то "овчинка выделки не стоит" а если есть вариант автоматизировать то лучше убрать быстрее будет заменять
Цитата :
Есть свои словари... в добавок к вашим... Около 200 записей... и Лексиконы
конечно все надо Smile куда-то закиньте и мне ссылку в пм или через формочку поглядим
Цитата :
Фразы типа: "рука об руку", "с ноги на ногу", "по добру по здорову"...
нет такого точно пока нету, если есть база таких словосочетаний то конечно можно добавить, иногда такие словечки попадаются.

Цитата :
Года, Цифры, Фамилии
Фамилии наверно все не угадаешь и это уже сугубо индивидуально лучше оставить а вот про Года, Цифры если все будет хорошо то скоро в этих словарях потребность отпадет совсем.

Вернуться к началу Перейти вниз
grimripper8698698
Новичок
avatar


Сообщений : 13
Репутация : 0

 grimripper8698698 :: Ср Фев 11 2009, 13:46
Ср Фев 11 2009, 13:46

ПРОДЕЛАННАЯ РАБОТА
1. В словарях omograph.dic и sz_bukvayo.dic найдено 3900, с чем-то, эдентичных Записей. Эти Общие Записи разделены на Чистую Ё-фикацию и Ё-фикацию с Амографией (незнаю существуют ли такие термины). Соответственно Записи чистой Ё-фикации оставлены в sz_bukvayo.dic, а Ё-фикаця с Амографией оставлена в omograph.dic.
2. Выяснено зачение Знаков "?" вопроса в словаре sz_bukvayo.dic. Им (Знаком) обозначены слова со спорным произношением и неимеющимися (на данный момент у сотавителя словаря) словосочитаниями для просяснения их ниписания.
3. Из словаря sz_bukvayo.dic в отдельные словари убраны
Все Фамилии и Слова со спорным произношением (из п.2).
Которые в любом случае (из-за знака "?" на конце) не использовались при работе словаря.
[Весь алгоритм могу расписать - если есть желание проверить на предмет ошибки с моей стороны]
3.1 Слова со "*" не убрал (либо сам потом уберу, либо вам придётся снова это сделать :-(.

Для выбора путей дальнейшей оптимизации ответьте на такой вопрос:
Каким образом вы планируете организовать работу со словарями в долговременной перспективе..?
Дело в том, что при использовании двух словарей (omograph.dic и sz_bukvayo.dic) одновременно Движок не выполняет все правила описанные в этих словарях - не знает что за чем изменять... теряется качество чтения... Плюс на ноутбуках Движок начинает немного запинатся (как мне сказали) из-за нехватки ресурсов компьютера...

Оптимальным вариантом на мой взгляд будет:
Сначала проводить Полную Ё-фикацию текта
(по словам и словосочитаниям)
А словарь Амографов затачивать под текст с "Ё"
(т.е. писать сразу "огонь её свечи=огонь её свечИ", не дублируя "огонь ее свечи=огонь её свечИ" в Амографах)
Тогда их, видимо, можно будет подключать вместе, не опасаясь конфликтов... А в текстах с "ё" просто отключать словарь Ё-фикации.
Недостатки
- изменения нужно вносить в 2 словаря и отслеживать повторы
- словарь для "Ё" будет бытро разрастаться за счет словосочитаний
- люди создающие Личные словари и присылающие их на сайт врядле будут вникать в такие тонкости.

2-й вариант. В словарь Ё-фикации вносить только слова, которые не употребляются и не имеют смысла без "ё", а Ё-фикацию по словосичитаниям проводить одновременно с добавлением амографа.
Недостатки
- словарь Амографов станет гиганским, а словарь для "ё" в скором времени достигнет своего максимума (если уже не дотиг).

Есть конечно и 3-й вариант... Оставить всё как есть и вносить изменения куда попало, затем, кто-то ОДИН отлавливает совпадения из обоих словарей. Выкидывая в интернет Обновления с какой-либо индексацией...(Версия Такая-то... От такого-то числа...) Способ несомненно более гибкий и не такой трудоёмкий...
Недостатки
- Бардак.
- Может оказатся так, что словарем Амографов мы будем корректировать ошибки словаря Ё-фикации и наоборот -- замкнутый круг...

И ещё...
1.Тому ОДНОМУ, кто будет отлавливать совпадения и размещать на сайте Обновления, неплохобы завести eMail на который каждый желающий мог-бы спокойно слить СВОИ словари, а не раскидывать их по интернету на файлообменники и проч. (тот же Бардак).
2. Плюс разработать Систему отсылки словарей (указание версии словаря использованного для создания Отсылаемого (Личного), Переодичность обновления и т.д.)
3. Дать чёткие указания по созданию Личных словарей, используемых версий.
4. Делать упор именно на Словари, не на Лексику (смена движка, может пустить работу на смарку), а словари останутся в любом случае...

З.Ы.
Похоже слишком много пишу и командую... Прошу прощения.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Ср Фев 11 2009, 16:21
Ср Фев 11 2009, 16:21

Цитата :
Похоже слишком много пишу и командую... Прошу прощения.
да ниче уже привыкли Smile
но в целом подход правильный
хотя изначально словарь Ё думался как дополнительный и большого смысла в нем нету разве что только для омографов и омофонов с Ё остальное сделать можно более проще
Цитата :
sz_bukvayo.dic----->ATTS-------->A
sz_bukvayo.dic----->ACATTS------->B
A-B=C
и затем "С" просто внести в лексикон и проверить. все больше не нужно ничего делать, даже больше, уже эти лексиконы есть и что-то даже начинали "вычитывать" на предмет правильного произношения и т.д. если есть желание могу переслать их.

а в omograph.dic кроме омографов и омофонов больше ничего и не нужно (для Аленки) это лишний никому не нужный труд.

Цитата :
Обновления, неплохо бы завести eMail на который каждый желающий мог-бы спокойно слить СВОИ словари, а не раскидывать их по интернету на файлообменники и проч. (тот же Бардак). Плюс разработать Систему отсылки словарей (указание версии словаря использованного для создания Отсылаемого (Личного), Периодичность обновления и т.д.)

почему бардак есть специальная форма для отправки слов, есть ПМ, есть даже спец. подфорум для обсуждения всего этого безобразия и каждый желающий, который умеет этим заниматься, может подключиться к общему процессу.

Вернуться к началу Перейти вниз
grimripper8698698
Новичок
avatar


Сообщений : 13
Репутация : 0

 grimripper8698698 :: Ср Фев 11 2009, 23:33
Ср Фев 11 2009, 23:33

Цитата :

сделать можно более проще
Цитата :
sz_bukvayo.dic----->ATTS-------->A
sz_bukvayo.dic----->ACATTS------->B
A-B=C
Не совсем понятно что это, ну да ладно...

Цитата :

omograph.dic кроме омографов и омофонов больше ничего и не нужно (для Аленки) это лишний никому не нужный труд.
Я имел ввиду вещи вроде:
"берет свое начало=берёт своё начАло"
Должно быть в каком словаре; в "Омограф" или в "Ё-шный"..? (Например слово "Вселённая")

. . .

Вобщем - ясно, будем делать как скажете в "форму", так в форму.
Свои Лексиконы и Словари вышлю через нее.

По поводу словаря с заменами типа "рука ОбрУку", он у меня пока не большой - 10-15 Записей, могу выслать для примера...
(Словарь Замен и Лексикон к нему)

Еще есть словарь, который корректирует ошибки после обработки текста словарями omograph.dic и sz_bukvayo.dic. Каким образом его выслать?


З.Ы
Нужны ли вам те Словари (omograph.dic и sz_bukvayo.dic), что я "почистил"?
...Или мне Самому ими Наслаждаться Smile

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Чт Фев 12 2009, 03:34
Чт Фев 12 2009, 03:34

Цитата :
Не совсем понятно что это, ну да ладно...
ACATTS
ATTS

Цитата :
Я имел ввиду вещи вроде:
"берет свое начало=берёт своё начАло"
Должно быть в каком словаре; в "Омограф" или в "Ё-шный"..? (Например слово "Вселённая")

берет свое начало=берёт своё начАло - это в omograph.dic
а Вселённая в sz_bukvayo.dic

Цитата :
корректирует ошибки после обработки текста
что за ошибки?

Цитата :
Нужны ли вам те Словари (omograph.dic и sz_bukvayo.dic), что я "почистил"?
нужны конечно, присылайте поглядим

Вернуться к началу Перейти вниз
grimripper8698698
Новичок
avatar


Сообщений : 13
Репутация : 0

 grimripper8698698 :: Чт Фев 12 2009, 10:59
Чт Фев 12 2009, 10:59

Ха... Да, Моя ошибка.

Цитата :
(Например слово "Вселённая")
Это я дописывал протом (попало не в то место) -- оно отноится к ...
Цитата :
[GrimRipper]корректирует ошибки после обработки текста
Цитата :
[evilone_]что за ошибки?

Имел Ввиду, что (скорее всего) по причине поставленных "*" в словаре sz_bukvayo.dic и omograph.dic некоторые слова приобретают не правильные ударения и буквы "ё" без необходимости.
Я в Balabolke сначала "прохожу" текст словарями, а потом читаю и исправляю ошибки, так они виднее и не Алёнка не запинается...
Список того что есть:
проблёски=проблески
говорить не о чём= говорить нЕ о чем
арбалёт*=арбалет
блажёнство=блаженство
всё они=все _ они
выточённым=выточенным
жёлтоватого=желтоватого
жёлчью=желчью
Королёвство=Королевство
нижнем бельё=нижнем белье
они же мёртвы=они же мертвЫ
проблёски=проблески
примёты=приметы
нАчала подниматься=началА подниматься
отсутствие ветрА=отсутствие вЕтра
всё так называемые=все так называемые
глубине их дУши=глубине их душИ
конвёрты=конверты
безоружён=безоружен
и всё мы=и все мы
на землИ=на зЕмли
и всё принялись=и все принялись
шатёнку=шатенку
мёртвы=мертвЫ
всё остальные=все остальные
по мОему мнению=по моему мнению
весельём=весельем
во всЕ века=во все векА


Размещаю всё здесь, а то через "форму" может будет не ясно, что это за странные исправления (не знаю принципа работы этой "формы").
Я бы сам всё исправил в sz_bukvayo.dic и omograph.dic, но это не имеет смысла -- всё равно вам потом переделывать...

Вот, к стати, Ещё словечко на тему "рука ОбрУку"(это "рука об руку" уже становится нарицательным :-))
по мОему,=пОмОему,
по моему,=пОмОему,
В Лексиконе что я отправил, оно должно быть -- это для словаря исправлений.

З.Ы.
Можно ли в "форме" добавлять какие-либо коментарии для пояснения?

Вернуться к началу Перейти вниз
nikstomin
Наблюдатель


Сообщений : 3
Репутация : 0

 nikstomin :: Ср Фев 18 2009, 20:09
Ср Фев 18 2009, 20:09

Кто-нибудь знает, в чем может быть дело: после установки лексикона трудночитаемых слов и подключения лексикона для словаря замен, словарь замены ударений к Аленке не подключается, пишет что-то вроде "этот лексикон не подходит, выберите другой лексикон либо иной речевой движок". Аленка последней версии. Ни у кого не наблюдалось подобной проблемы?

Вернуться к началу Перейти вниз
grimripper8698698
Новичок
avatar


Сообщений : 13
Репутация : 0

 grimripper8698698 :: Ср Фев 18 2009, 22:31
Ср Фев 18 2009, 22:31

nikstomin пишет:
"этот лексикон не подходит, выберите другой лексикон либо иной речевой движок"

Перезапусти Лексикон или перезагрузись...

Вернуться к началу Перейти вниз
nikstomin
Наблюдатель


Сообщений : 3
Репутация : 0

 nikstomin :: Ср Фев 18 2009, 23:48
Ср Фев 18 2009, 23:48

Цитата :
Перезапусти Лексикон или перезагрузись...

Ну если бы всё было так просто... Пробовал, конечно. Увы, не промогаетSad

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Чт Фев 19 2009, 09:20
Чт Фев 19 2009, 09:20

nikstomin словарь замены ударений это не лексикон он подключается к балаболке, неужели так трудно прочитать абзац текста?

Вернуться к началу Перейти вниз
grimripper8698698
Новичок
avatar


Сообщений : 13
Репутация : 0

 grimripper8698698 :: Чт Фев 19 2009, 13:20
Чт Фев 19 2009, 13:20

nikstomin пишет:
Цитата :
Перезапусти Лексикон или перезагрузись...

Ну если бы всё было так просто... Пробовал, конечно. Увы, не промогаетSad

Если файл Бинарный (т.е. НЕ открывается в Блокноте), то подключаеш к Лексикону (в той последовательности в которой указано на сайте), если обычный - к Балаболке...

Посмотри внимательно, какие файлы ты скачал, раздели их на 2 эти группы, размести в указанных местах, и подключай.

Вернуться к началу Перейти вниз
nikstomin
Наблюдатель


Сообщений : 3
Репутация : 0

 nikstomin :: Чт Фев 19 2009, 16:26
Чт Фев 19 2009, 16:26

grimripper8698698

Спасибо, все понял!

Вернуться к началу Перейти вниз
box440
Наблюдатель


Сообщений : 2
Репутация : 0

 box440 :: Вт Мар 10 2009, 22:24
Вт Мар 10 2009, 22:24

Добрый день.

Скачал такое редми:

Устанавливаем «балаболка», скачиваем словари замен и копируем их в папку «мои документы\balabolka».

Качаем лексикон трудночитаемых слов и копируем его поверх старого C:\Documents and Settings\%username%\Application Data\Acapela Group\HW2L\UserLexicons\Alyona22k.dic.

Качаем лексикон для словаря замен и подключаем его (не импортируем) так чтобы он стоял верхним по приоритету (тот что верхний тот приоритетнее от основного лексикона). Основной лексикон находится по адресу C:\Documents and Settings\%username%\Application Data\Acapela Group\HW2L\UserLexicons\Alyona22k.dic его можно подключить вторым для уверенности.

Запускаем «балаболка» подключаем словарь тот, что мы скопировали в папку мои документы\balabolka и переделываем текст. Копируем, вставляем и читаем(записываем). Читать такой замененный текст можно в любой программе для чтения, не обязательно в «балаболка».

Сама программа «балаболка» нужна только для простановки замен ударений.

Потянуло от этого писания дуркой времен советских. Качественной такой.
Неужели нельзя сказать нормально?
Если с заменой лексикона Alyona22k.dic. Еще можно справиться авторы зачем-то указали путь и имя файла, то остальное шифровали качественно.

Нет в балаболке такого меню. Ну что делать не подключить дабы галочки не ставятся, а может это не нужно вовсе?

Пробую заменить фразу в файле с расширением ini
Файл принимает изменения. Но движок на него не обращает внимания. Тоже самое с фалами с расширением dic. Если правило не работает, зачем оно нужно? Может оно работает по-другому?

Объясните пожалуйста.

Вернуться к началу Перейти вниз
muk79
Участник «online словари»


Сообщений : 103
Репутация : 29

 muk79 :: Вт Мар 10 2009, 23:17
Вт Мар 10 2009, 23:17

box440По-моему написано вполне внятно и при желании прочитав пару раз можно запросто во всем разобраться самому.

box440 пишет:
Нет в балаболке такого меню.
Какого меню нету в балаболке?

box440 пишет:
Пробую заменить фразу в файле с расширением ini Файл принимает изменения. Но движок на него не обращает внимания.
А зачем вообще что-то менять да еще и в файле с расширением ini? :p9:

Вернуться к началу Перейти вниз
box440
Наблюдатель


Сообщений : 2
Репутация : 0

 box440 :: Ср Мар 11 2009, 08:01
Ср Мар 11 2009, 08:01

Предполагалось, что напротив файла omograph.dic можно поставить галочку и тем самым подключить его. Так же в скрине виден файл Alenka.hmg
Как я показал, я не могу поставить галку напротив файла не активно поле. Кнопка редактировать тоже пассивна.

В скаченных архивах нет Alenka.hmg

Вернуться к началу Перейти вниз
muk79
Участник «online словари»


Сообщений : 103
Репутация : 29

 muk79 :: Ср Мар 11 2009, 14:25
Ср Мар 11 2009, 14:25

box440 Ты посмотри внимательно какие архивы и куда распаковывать нужно. Alenka.hmg есть в теме со словарями.

Вернуться к началу Перейти вниз
Спонсируемый контент




 Спонсируемый контент ::


Вернуться к началу Перейти вниз

Обсуждение словарей

Предыдущая тема Следующая тема Вернуться к началу
Обсуждение словарей
Страница 2 из 9Страница 2 из 9На страницу : Предыдущий  1, 2, 3, 4, 5, 6, 7, 8, 9  Следующий
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении