|
|
Автор | Сообщение | Обсуждение словарей |
---|
Sir Новичок
Сообщений : 11
Репутация : 0
| Sir | :: Ср Ноя 19 2008, 01:22 | Ср Ноя 19 2008, 01:22 | |
| В бесплатной программе KooBAudio , при работе со словарём Николая, есть возможность подключить список слов, которые произносятся правильно, чтобы исключить перебор лишних и правильно произносимых слов. Наверно будет полезно и его сюда помаленьку выкладывать наравне с находкой омографов. Так же полезно будет указать, какую книгу участник обрабатывал этой програмкой когда дополнял словарь |
|
|
| |
mia V.I.P.
Сообщений : 184
Репутация : 7
| mia | :: Ср Ноя 19 2008, 02:20 | Ср Ноя 19 2008, 02:20 | |
| В KooBAudio можно подключать словарь и вести поиск новых слов которые прогоняя через словарь отлавливает KooBAudio и таким образом можно дополнять уже готовый словарь. Думаю лучше создать отдельный топик где каждый сможет выложить свой словарь новых слов к кольке и стиль в каком были эти слова использованы по аналогии того что есть сейчас для аленки, там фантастика фэнтези и т.д. Или лучше даже формочку как на ттс-е чобы просто пполнялся один файлик и ссылку на него в шапку. Только нужно составить список-тем словаря какие лучше всего осавить фантастика, фэнтези, историческая и т.д. все возможные варианты и при добавлении добавлялись автор дата слова и тематика из выпадающего списка, название книги. |
|
|
| |
evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Ср Ноя 19 2008, 04:23 | Ср Ноя 19 2008, 04:23 | |
| - mia пишет:
Думаю лучше создать отдельный топик где каждый сможет выложить свой словарь новых слов к кольке и стиль в каком были эти слова использованы по аналогии того что есть сейчас для аленки, там фантастика фэнтези и т.д. Или лучше даже формочку как на ттс-е чобы просто пполнялся один файлик и ссылку на него в шапку. Только нужно составить список-тем словаря какие лучше всего осавить фантастика, фэнтези, историческая и т.д. все возможные варианты и при добавлении добавлялись автор дата слова и тематика из выпадающего списка, название книги. запросто, только нужен кто-то кто будет следить за всем этим безобразием, редактировать словарь проверять слова, модератор группы. доступ к редактированию может быть у всей группы а через вэб-форму для простоты добавлять можно будет дать всем
и да...мне нужен список разделов или жанров для списка все возможные варианты и список полей которые должны быть на форме. :20: :20: |
|
|
| |
Sir Новичок
Сообщений : 11
Репутация : 0
| Sir | :: Ср Ноя 19 2008, 16:39 | Ср Ноя 19 2008, 16:39 | |
| - evilone_ пишет:
- нужен кто-то кто будет следить за всем этим безобразием, редактировать словарь проверять слова, :
Да тут смысл невелик. Просто непонятно как из 5- 6 мегабайт текста Николая вычистить помехи . Все должно развиваться в процессе пользования словарём Николая. Каждый участник может выкладывать ошибки помаленьку. А нагружать кого-то дополнительной работой бесперспективно . |
|
|
| |
Sir Новичок
Сообщений : 11
Репутация : 0
| Sir | :: Ср Ноя 19 2008, 17:44 | Ср Ноя 19 2008, 17:44 | |
| Словарь для Николая. Почистил ошибки, добавил слов. Теперь в нём 217643 позиций Ссылка на файлы http://files.mail.ru/PMFLJP http://depositfiles.com/files/udsuzutrf Файлы будут храниться до 19 декабря 2008 года\ |
|
|
| |
evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Ср Ноя 19 2008, 22:30 | Ср Ноя 19 2008, 22:30 | |
| Sir сделали зеркало и формочку для удобства. пользуйтесь |
|
|
| |
Sir Новичок
Сообщений : 11
Репутация : 0
| Sir | :: Чт Ноя 20 2008, 00:12 | Чт Ноя 20 2008, 00:12 | |
| - evilone_ пишет:
- Sir сделали зеркало и формочку для удобства.
У меня расширение дик не получается. Пользуюсь KooBAudio. Он сам сортирует и прибавляет слова туда куда нужно. А ошибки в прошлой версии словаря были чисто технические. Кто-то неправильно поставил ударение в слове "апреля" и какой-то редактор искорежил около 300 слов, лишними и рвущими текст вставками типа \\ I. Будем дальше рыть и чистить, как умеем) |
|
|
| |
unknown V.I.P.
Сообщений : 73
Репутация : 11
| unknown | :: Чт Ноя 20 2008, 01:16 | Чт Ноя 20 2008, 01:16 | |
| - Sir пишет:
- Кто-то неправильно поставил ударение в слове "апреля"
Кто-то, это - я(очепятался).Спасибо,у себя тоже исправил. |
|
|
| |
muk79 Участник «online словари»
Сообщений : 102
Репутация : 29
| muk79 | :: Чт Ноя 20 2008, 02:13 | Чт Ноя 20 2008, 02:13 | |
| Прогнал ради интереса этот словарь через atts а на выходе получил всего 40 слов Не показатель конешно но все таки. Неужели Николя так читает что ему нужен словарь на 200к слов? |
|
|
| |
unknown V.I.P.
Сообщений : 73
Репутация : 11
| unknown | :: Чт Ноя 20 2008, 11:46 | Чт Ноя 20 2008, 11:46 | |
| - muk79 пишет:
- Прогнал ради интереса этот словарь через atts а на выходе получил всего 40 слов Не показатель конешно но все таки. Неужели Николя так читает что ему нужен словарь на 200к слов?
Alyona22k.vco - 131 мб nicolai16.dat - 10,4 мб
Ещё вопросы? |
|
|
| |
Sir Новичок
Сообщений : 11
Репутация : 0
| Sir | :: Чт Ноя 20 2008, 15:45 | Чт Ноя 20 2008, 15:45 | |
| - slag пишет:
Ещё вопросы? А сами вы дополняете словарь Николая или перешли на другие голоса? Если да , то не поделитесь ли своей версией словаря? |
|
|
| |
evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Чт Ноя 20 2008, 16:14 | Чт Ноя 20 2008, 16:14 | |
| с поиском новых понятно а ударения в этих новых вы вручную для каждого слова ставите? |
|
|
| |
Sir Новичок
Сообщений : 11
Репутация : 0
| Sir | :: Чт Ноя 20 2008, 16:26 | Чт Ноя 20 2008, 16:26 | |
| - evilone_ пишет:
- с поиском новых понятно а ударения в этих новых вы вручную для каждого слова ставите?
Вы мне? Да вручную. |
|
|
| |
evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Чт Ноя 20 2008, 17:01 | Чт Ноя 20 2008, 17:01 | |
| Sir ну я к тому что думали может есть уже какая-то утилитка которая автоматически это делает а то вручную это вешалка по-мему :34: |
|
|
| |
Sir Новичок
Сообщений : 11
Репутация : 0
| Sir | :: Чт Ноя 20 2008, 17:05 | Чт Ноя 20 2008, 17:05 | |
| - evilone_ пишет:
- Sir ну я к тому что думали может есть уже какая-то утилитка которая автоматически это делает а то вручную это вешалка по-мему :34:
Можно наверно написать утилитку которая из дик делает тхт. В принципе , для скорости работы Николая размер словаря не имеет значения. |
|
|
| |
unknown V.I.P.
Сообщений : 73
Репутация : 11
| unknown | :: Чт Ноя 20 2008, 18:18 | Чт Ноя 20 2008, 18:18 | |
| - Sir пишет:
- ...то не поделитесь ли своей версией словаря?
Sir, У нас с вами совершенно разные подходы к работе с говорилками.Вы работаете с Николаем(sapi5) в KooBAudio, и используете только основной словарь движка exc_rus.txt Я же Николай(sapi4),c Балаболкой, и доп.словари .dic,и причем всё это привязано к функции работы с омографами. К тому же я добавлял в ваш словарь ё-фикацию,и даты. Ещё в моём словаре отсуствуют словосочетания,сокращения, иностанные слова,компьютерные и интернет термины и т.д.,они в .dic словарях(которые подключаются по мере необходимости). И например .dic словарь словоcочетаний,тоже сильно завязан,на омографах. В общем,страсть,как всё запутано.Шутка,конечно,всё очень и очень просто. Поэтому,ничего экстра-нового, вы там не найдёте,я уверен,что 99,9% есть у вас в словаре,а может наоборот - 99,9% вашего есть у меня. Я уже озабочен не как таковым,наполнением словаря,новыми словами,а в большей мере,поиском оптимальных возможностей, автоматизации работы с омографами.
А зачем из .dic делать .txt,переименуйте его в .txt,а я так и не переименовывая работаю,все редакторы текстовые его открывают,и excel тоже. Да и незачем,сейчас,что-то специальное делать,для Коли.Есть KooBAudio,есть Балаболка есть проги для работы с текстом,хватит и этого. |
|
|
| |
Sir Новичок
Сообщений : 11
Репутация : 0
| Sir | :: Чт Ноя 20 2008, 18:44 | Чт Ноя 20 2008, 18:44 | |
| - slag пишет:
и excel тоже.
Пока конвертировать дик в тхт умеет только эксель Там проблема. Всего 63000 записей. Головная боль с делением на части итп. |
|
|
| |
unknown V.I.P.
Сообщений : 73
Репутация : 11
| unknown | :: Чт Ноя 20 2008, 20:49 | Чт Ноя 20 2008, 20:49 | |
| - Sir пишет:
Головная боль с делением на части итп. Может это вам как-то поможет |
|
|
| |
Sir Новичок
Сообщений : 11
Репутация : 0
| Sir | :: Пт Ноя 21 2008, 11:54 | Пт Ноя 21 2008, 11:54 | |
| - slag пишет:
- Может это вам как-то поможет
Спасибо попробую разобраться)
По поводу основного словаря exc_rus.txt. Наличие в нем избыточных слов, в принципе не сказывается на скорости работы, если у вас оперативная память больше, чем размер словаря. Сегодня комп меньше 512 мБ оперативки встретить трудно. Учитывая, что словарь Николая 5-10 мБ , его можно накачивать и накачивать, не боясь перегрузки. Или вы замечали конфликты exc_rus.txt с доп.словарями .dic ? П.С. Slag! Куда можно вам отправить письмо? |
|
|
| |
sm151058 Новичок
Сообщений : 19
Репутация : 2
| sm151058 | :: Сб Ноя 22 2008, 22:42 | Сб Ноя 22 2008, 22:42 | |
| [quote="slag"] - Sir пишет:
- ...то не поделитесь ли своей версией словаря?
Sir, У нас с вами совершенно разные подходы к работе с говорилками.Вы работаете с Николаем(sapi5) в KooBAudio, и используете только основной словарь движка exc_rus.txt quote] Я начинаю путаться. Так что, это словарь нельзя использовать с Балаболкой и sapi4? Вроде, работает. |
|
|
| |
Sir Новичок
Сообщений : 11
Репутация : 0
| Sir | :: Вс Ноя 23 2008, 01:33 | Вс Ноя 23 2008, 01:33 | |
| - sm151058 пишет:
- Так что, это словарь нельзя использовать с Балаболкой и sapi4? Вроде, работает.
Если у вас версия движка Николая от 2005 года, то смело пользуйтесь этим коллективным словарём. Правда там будут мелкие "блохи" попадаться. Их полезно вылавливать и писать сюда найденные ошибки. |
|
|
| |
Stroodder V.I.P.
Сообщений : 97
Репутация : 7
| Stroodder | :: Пн Дек 08 2008, 18:38 | Пн Дек 08 2008, 18:38 | |
| Я вот все-таки одного понять не могу. В проект "Народный словарь" вложено много сил и времени, но почему же там отсутвуют даты, имена, если он все время позиционируется как практически академический незаменимый сборник всех времен и народов? Не подкалываю, просто не вижу глобальной пользы в отсутствии простейших и первым делом напрашивающихся вещах, м/б все, что я перечислил заносится в какие-то другие словари? |
|
|
| |
SergeiSP Новичок
Сообщений : 19
Репутация : 0
| |
| |
vetandr Интересующийся
Сообщений : 7
Репутация : 2
| vetandr | :: Чт Янв 06 2011, 21:08 | Чт Янв 06 2011, 21:08 | |
| В начале файла exc_rus.txt закомментированы условные обозначения, поправьте, может неверно перевёл. Описания этих кодов я не нашёл.
// Формат: // : конец маски слова // [] фонетический код // <> орфографический код // ## граница слова // /i игнорировать регистр // // комментарий // () слова тега
Так вот, для чего служит код ##, ведь в словаре используются и пробелы? Например: 23е апреля : <двадцать##третье##апре<ля> /i 23е декабря : <два<дцать тре<тье декабря<> /i
Далее, код /i позволяет применять маску слова к слову в любом регистре, верно? То есть конструкция "23е апреля : <двадцать##третье##апре<ля> /i" должно одинаково примениться к фразе "23е АПРЕЛЯ" и к "23е апреля"?
Если кто ни будь любезно пояснит (или укажет где порыться) назначение остальных кодов, как их можно использовать в словаре - буду очень признателен.
|
|
|
| |
flegont V.I.P.
Сообщений : 355
Репутация : 476
| flegont | :: Пт Янв 07 2011, 10:33 | Пт Янв 07 2011, 10:33 | |
| Все верно .
А ## официально называется "пробел в области произношения" Символ : это разделитель области исключения и области произношения Область исключения - то что слева от :, т.е. то, что надо заменить. Так вот, разработчики движка озаботились изобретением специального обозначения для пробела в области произношения (##). Зачем? Это их спросить надо, наверное были у какие-то резоны. Получается, что в области исключения мы используем обыкновенейший пробел, как привыкли; а в области произношения для пробела уже свое специальное обозначение.
Фонетические коды, используемые движком, описаны в англоязычном труде от фирмы Acapela - "Russian TTS" в формате Pdf (можно отыскать в Инете) - это подробный хелп к движку Николай. Эта же таблица кодов приведена в справке к проге Demagog - http://aloys.narod.ru/DemagogCHM.zip
|
|
|
| |
SlavikSG Интересующийся
Сообщений : 5
Репутация : 0
| SlavikSG | :: Чт Окт 20 2011, 10:45 | Чт Окт 20 2011, 10:45 | |
| Скажите пожалуйста, занимается сейчас кто-нибудь основным словарем Николая exc_rus.txt? Так, чтобы глобально...
А то я в него свои личные слова добавляю, но хотелось этими добавочными словами поделиться и с другими. Куда писать, к кому обратиться? |
|
|
| |
evilone_ Участник «online словари»
Сообщений : 859
Репутация : 317
| evilone_ | :: Сб Окт 22 2011, 17:35 | Сб Окт 22 2011, 17:35 | |
| SlavikSG, есть такой проект "народный словарь", организованный автором программы mp3book2005, в рамках которого планировалось редактировать словарь ударений голосового движка николай. но насколько он еще актуальный неизвестно, там по-моему необходимо наличие самой программы.
|
|
|
| |
SlavikSG Интересующийся
Сообщений : 5
Репутация : 0
| SlavikSG | :: Пн Окт 24 2011, 10:32 | Пн Окт 24 2011, 10:32 | |
| - evilone_ пишет:
- есть такой проект "народный словарь", организованный автором программы mp3book2005
Ага. Спасибо! Как раз про это дело я в курсе.
Насколько я понял, он там выкладывает новый словарь только с новой версией программы. Но учитывая, что сама программа выходит очень и очень не часто, то, соответственно, и новый словарь можно поиметь очень и очень не часто. Но это не страшно. Потому, как словарь уже настолько большой, что ошибок Николай уже практически не делает. В этом я сам лично убеждаюсь, чем дальше, тем больше.
Ну, а пока там зреют новые версии словаря, я потихоньку набиваю свой личный словарь. Получается еще совсем немного. Меньше 100 слов. Опять же, повторюсь, только из-за того, что Николай, с тем словарем, что уже есть, читает очень даже хорошо. |
|
|
| |
basist Гость
| |
| |
|
Обсуждение словарей |
---|