TTS книги  Проверялка  ФорумФорум  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  



Обсуждение словарей

Предыдущая тема Следующая тема Перейти вниз
АвторСообщениеОбсуждение словарей
Sir
Новичок


Сообщений : 11
Репутация : 0

 Sir :: Ср Ноя 19 2008, 01:22
Ср Ноя 19 2008, 01:22

В бесплатной программе KooBAudio , при работе со словарём Николая, есть возможность подключить список слов, которые произносятся правильно, чтобы исключить перебор лишних и правильно произносимых слов.
Наверно будет полезно и его сюда помаленьку выкладывать наравне с находкой омографов.
Так же полезно будет указать, какую книгу участник обрабатывал этой програмкой когда дополнял словарь

Вернуться к началу Перейти вниз
mia
V.I.P.
avatar


Сообщений : 184
Репутация : 7

 mia :: Ср Ноя 19 2008, 02:20
Ср Ноя 19 2008, 02:20

В KooBAudio можно подключать словарь и вести поиск новых слов которые прогоняя через словарь отлавливает KooBAudio и таким образом можно дополнять уже готовый словарь.
Думаю лучше создать отдельный топик где каждый сможет выложить свой словарь новых слов к кольке и стиль в каком были эти слова использованы по аналогии того что есть сейчас для аленки, там фантастика фэнтези и т.д.
Или лучше даже формочку как на ттс-е чобы просто пполнялся один файлик и ссылку на него в шапку. Только нужно составить список-тем словаря какие лучше всего осавить фантастика, фэнтези, историческая и т.д. все возможные варианты и при добавлении добавлялись автор дата слова и тематика из выпадающего списка, название книги.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Ср Ноя 19 2008, 04:23
Ср Ноя 19 2008, 04:23

mia пишет:

Думаю лучше создать отдельный топик где каждый сможет выложить свой словарь новых слов к кольке и стиль в каком были эти слова использованы по аналогии того что есть сейчас для аленки, там фантастика фэнтези и т.д.
Или лучше даже формочку как на ттс-е чобы просто пполнялся один файлик и ссылку на него в шапку. Только нужно составить список-тем словаря какие лучше всего осавить фантастика, фэнтези, историческая и т.д. все возможные варианты и при добавлении добавлялись автор дата слова и тематика из выпадающего списка, название книги.
запросто, только нужен кто-то кто будет следить за всем этим безобразием, редактировать словарь проверять слова, модератор группы. доступ к редактированию может быть у всей группы а через вэб-форму для простоты добавлять можно будет дать всем

и да...мне нужен список разделов или жанров для списка все возможные варианты и список полей которые должны быть на форме. :20: fish :20:

Вернуться к началу Перейти вниз
Sir
Новичок


Сообщений : 11
Репутация : 0

 Sir :: Ср Ноя 19 2008, 16:39
Ср Ноя 19 2008, 16:39

evilone_ пишет:
нужен кто-то кто будет следить за всем этим безобразием, редактировать словарь проверять слова, :
Да тут смысл невелик.
Просто непонятно как из 5- 6 мегабайт текста Николая вычистить помехи .
Все должно развиваться в процессе пользования словарём Николая.
Каждый участник может выкладывать ошибки помаленьку.
А нагружать кого-то дополнительной работой бесперспективно .

Вернуться к началу Перейти вниз
Sir
Новичок


Сообщений : 11
Репутация : 0

 Sir :: Ср Ноя 19 2008, 17:44
Ср Ноя 19 2008, 17:44

Словарь для Николая.
Почистил ошибки, добавил слов.
Теперь в нём 217643 позиций

Ссылка на файлы
http://files.mail.ru/PMFLJP
depositfiles.com udsuzutrf
Файлы будут храниться до 19 декабря 2008 года\

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Ср Ноя 19 2008, 22:30
Ср Ноя 19 2008, 22:30

Sir сделали зеркало и формочку для удобства.
пользуйтесь

Вернуться к началу Перейти вниз
Sir
Новичок


Сообщений : 11
Репутация : 0

 Sir :: Чт Ноя 20 2008, 00:12
Чт Ноя 20 2008, 00:12

evilone_ пишет:
Sir сделали зеркало и формочку для удобства.
У меня расширение дик не получается.
Пользуюсь KooBAudio.
Он сам сортирует и прибавляет слова туда куда нужно.
А ошибки в прошлой версии словаря были чисто технические.
Кто-то неправильно поставил ударение в слове "апреля" и какой-то редактор искорежил около 300 слов, лишними и рвущими текст вставками типа \\ I.
Будем дальше рыть и чистить, как умеем)

Вернуться к началу Перейти вниз
unknown
V.I.P.


Сообщений : 73
Репутация : 11

 unknown :: Чт Ноя 20 2008, 01:16
Чт Ноя 20 2008, 01:16

Sir пишет:
Кто-то неправильно поставил ударение в слове "апреля"


Кто-то, это - я(очепятался).Спасибо,у себя тоже исправил.

Вернуться к началу Перейти вниз
muk79
Участник «online словари»


Сообщений : 103
Репутация : 29

 muk79 :: Чт Ноя 20 2008, 02:13
Чт Ноя 20 2008, 02:13

Прогнал ради интереса этот словарь через atts а на выходе получил всего 40 слов Smile Не показатель конешно но все таки. Неужели Николя так читает что ему нужен словарь на 200к слов?

Вернуться к началу Перейти вниз
unknown
V.I.P.


Сообщений : 73
Репутация : 11

 unknown :: Чт Ноя 20 2008, 11:46
Чт Ноя 20 2008, 11:46

muk79 пишет:
Прогнал ради интереса этот словарь через atts а на выходе получил всего 40 слов Smile Не показатель конешно но все таки. Неужели Николя так читает что ему нужен словарь на 200к слов?

Alyona22k.vco - 131 мб
nicolai16.dat - 10,4 мб

Ещё вопросы?

Вернуться к началу Перейти вниз
Sir
Новичок


Сообщений : 11
Репутация : 0

 Sir :: Чт Ноя 20 2008, 15:45
Чт Ноя 20 2008, 15:45

slag пишет:


Ещё вопросы?
А сами вы дополняете словарь Николая или перешли на другие голоса?
Если да , то не поделитесь ли своей версией словаря?

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Чт Ноя 20 2008, 16:14
Чт Ноя 20 2008, 16:14

с поиском новых понятно а ударения в этих новых вы вручную для каждого слова ставите?

Вернуться к началу Перейти вниз
Sir
Новичок


Сообщений : 11
Репутация : 0

 Sir :: Чт Ноя 20 2008, 16:26
Чт Ноя 20 2008, 16:26

evilone_ пишет:
с поиском новых понятно а ударения в этих новых вы вручную для каждого слова ставите?
Вы мне?
Да вручную.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Чт Ноя 20 2008, 17:01
Чт Ноя 20 2008, 17:01

Sir ну я к тому что думали может есть уже какая-то утилитка которая автоматически это делает а то вручную это вешалка по-мему :34:

Вернуться к началу Перейти вниз
Sir
Новичок


Сообщений : 11
Репутация : 0

 Sir :: Чт Ноя 20 2008, 17:05
Чт Ноя 20 2008, 17:05

evilone_ пишет:
Sir ну я к тому что думали может есть уже какая-то утилитка которая автоматически это делает а то вручную это вешалка по-мему :34:
Можно наверно написать утилитку которая из дик делает тхт.
В принципе , для скорости работы Николая размер словаря не имеет значения.

Вернуться к началу Перейти вниз
unknown
V.I.P.


Сообщений : 73
Репутация : 11

 unknown :: Чт Ноя 20 2008, 18:18
Чт Ноя 20 2008, 18:18

Sir пишет:
...то не поделитесь ли своей версией словаря?
Sir,
У нас с вами совершенно разные подходы к работе с
говорилками.Вы работаете с Николаем(sapi5) в KooBAudio,
и используете только основной словарь движка exc_rus.txt
Я же Николай(sapi4),c Балаболкой, и доп.словари .dic,и
причем всё это привязано к функции работы с омографами.
К тому же я добавлял в ваш словарь ё-фикацию,и даты.
Ещё в моём словаре отсуствуют словосочетания,сокращения,
иностанные слова,компьютерные и интернет термины и т.д.,они
в .dic словарях(которые подключаются по мере необходимости).
И например .dic словарь словоcочетаний,тоже сильно завязан,на
омографах.
В общем,страсть,как всё запутано.Шутка,конечно,всё очень и очень
просто.
Поэтому,ничего экстра-нового, вы там не найдёте,я уверен,что 99,9%
есть у вас в словаре,а может наоборот - 99,9% вашего есть у меня.
Я уже озабочен не как таковым,наполнением словаря,новыми
словами,а в большей мере,поиском оптимальных возможностей,
автоматизации работы с омографами.

А зачем из .dic делать .txt,переименуйте его в .txt,а я так и не переименовывая работаю,все редакторы текстовые его открывают,и excel тоже.
Да и незачем,сейчас,что-то специальное делать,для Коли.Есть KooBAudio,есть Балаболка есть проги для работы с текстом,хватит и этого.

Вернуться к началу Перейти вниз
Sir
Новичок


Сообщений : 11
Репутация : 0

 Sir :: Чт Ноя 20 2008, 18:44
Чт Ноя 20 2008, 18:44

slag пишет:

и excel тоже.
Пока конвертировать дик в тхт умеет только эксель
Там проблема.
Всего 63000 записей.
Головная боль с делением на части итп.

Вернуться к началу Перейти вниз
unknown
V.I.P.


Сообщений : 73
Репутация : 11

 unknown :: Чт Ноя 20 2008, 20:49
Чт Ноя 20 2008, 20:49

Sir пишет:

Головная боль с делением на части итп.
Может это вам как-то поможет

Вернуться к началу Перейти вниз
Sir
Новичок


Сообщений : 11
Репутация : 0

 Sir :: Пт Ноя 21 2008, 11:54
Пт Ноя 21 2008, 11:54

slag пишет:
Может это вам как-то поможет
Спасибо попробую разобраться)

По поводу основного словаря exc_rus.txt.
Наличие в нем избыточных слов, в принципе не сказывается на скорости работы, если у вас оперативная память больше, чем размер словаря.
Сегодня комп меньше 512 мБ оперативки встретить трудно.
Учитывая, что словарь Николая 5-10 мБ , его можно накачивать и накачивать, не боясь перегрузки.
Или вы замечали конфликты exc_rus.txt с доп.словарями .dic ?
П.С.
Slag! Куда можно вам отправить письмо?

Вернуться к началу Перейти вниз
sm151058
Новичок
avatar


Сообщений : 19
Репутация : 2

 sm151058 :: Сб Ноя 22 2008, 22:42
Сб Ноя 22 2008, 22:42

[quote="slag"]
Sir пишет:
...то не поделитесь ли своей версией словаря?
Sir,
У нас с вами совершенно разные подходы к работе с
говорилками.Вы работаете с Николаем(sapi5) в KooBAudio,
и используете только основной словарь движка exc_rus.txt
quote]
Я начинаю путаться. Так что, это словарь нельзя использовать с Балаболкой и sapi4? Вроде, работает.

Вернуться к началу Перейти вниз
Sir
Новичок


Сообщений : 11
Репутация : 0

 Sir :: Вс Ноя 23 2008, 01:33
Вс Ноя 23 2008, 01:33

sm151058 пишет:
Так что, это словарь нельзя использовать с Балаболкой и sapi4? Вроде, работает.
Если у вас версия движка Николая от 2005 года, то смело пользуйтесь этим коллективным словарём.
Правда там будут мелкие "блохи" попадаться.
Их полезно вылавливать и писать сюда найденные ошибки.

Вернуться к началу Перейти вниз
Stroodder
V.I.P.


Сообщений : 98
Репутация : 7

 Stroodder :: Пн Дек 08 2008, 18:38
Пн Дек 08 2008, 18:38

Я вот все-таки одного понять не могу. В проект "Народный словарь" вложено много сил и времени, но почему же там отсутвуют даты, имена, если он все время позиционируется как практически академический незаменимый сборник всех времен и народов? Не подкалываю, просто не вижу глобальной пользы в отсутствии простейших и первым делом напрашивающихся вещах, м/б все, что я перечислил заносится в какие-то другие словари?

Вернуться к началу Перейти вниз
SergeiSP
Новичок


Сообщений : 19
Репутация : 0

 SergeiSP :: Чт Дек 25 2008, 17:19
Чт Дек 25 2008, 17:19

Мда, на странице http://mytts.forum2x2.ru/forum-f14/tema-t14.htm выложено несколько словарей. Так все-таки какой из них лучше использовать, чтоб максимально верно ударения ставилось?

Вернуться к началу Перейти вниз
vetandr
Интересующийся


Сообщений : 7
Репутация : 2

 vetandr :: Чт Янв 06 2011, 21:08
Чт Янв 06 2011, 21:08

В начале файла exc_rus.txt закомментированы условные обозначения, поправьте, может неверно перевёл. Описания этих кодов я не нашёл.

// Формат:
// : конец маски слова
// [] фонетический код
// <> орфографический код
// ## граница слова
// /i игнорировать регистр
// // комментарий
// () слова тега

Так вот, для чего служит код ##, ведь в словаре используются и пробелы?
Например:
23е апреля : <двадцать##третье##апре<ля> /i
23е декабря : <два<дцать тре<тье декабря<> /i

Далее, код /i позволяет применять маску слова к слову в любом регистре, верно? То есть конструкция "23е апреля : <двадцать##третье##апре<ля> /i" должно одинаково примениться к фразе "23е АПРЕЛЯ" и к "23е апреля"?

Если кто ни будь любезно пояснит (или укажет где порыться) назначение остальных кодов, как их можно использовать в словаре - буду очень признателен.

Вернуться к началу Перейти вниз
flegont
V.I.P.
avatar


Сообщений : 355
Репутация : 475

 flegont :: Пт Янв 07 2011, 10:33
Пт Янв 07 2011, 10:33

Все верно Smile.

А ## официально называется "пробел в области произношения"
Символ : это разделитель области исключения и области произношения
Область исключения - то что слева от :, т.е. то, что надо заменить.
Так вот, разработчики движка озаботились изобретением специального обозначения для пробела в области произношения (##). Зачем? Это их спросить надо, наверное были у какие-то резоны. Получается, что в области исключения мы используем обыкновенейший пробел, как привыкли; а в области произношения для пробела уже свое специальное обозначение.

Фонетические коды, используемые движком, описаны в англоязычном труде от фирмы Acapela - "Russian TTS" в формате Pdf (можно отыскать в Инете) - это подробный хелп к движку Николай.
Эта же таблица кодов приведена в справке к проге Demagog -
http://aloys.narod.ru/DemagogCHM.zip

Вернуться к началу Перейти вниз
SlavikSG
Интересующийся


Сообщений : 6
Репутация : 0

 SlavikSG :: Чт Окт 20 2011, 10:45
Чт Окт 20 2011, 10:45

Скажите пожалуйста, занимается сейчас кто-нибудь основным словарем Николая exc_rus.txt? Так, чтобы глобально...

А то я в него свои личные слова добавляю, но хотелось этими добавочными словами поделиться и с другими. Куда писать, к кому обратиться?

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Сб Окт 22 2011, 17:35
Сб Окт 22 2011, 17:35

SlavikSG, есть такой проект "народный словарь", организованный автором программы mp3book2005, в рамках которого планировалось редактировать словарь ударений голосового движка николай.
но насколько он еще актуальный неизвестно, там по-моему необходимо наличие самой программы.

Вернуться к началу Перейти вниз
SlavikSG
Интересующийся


Сообщений : 6
Репутация : 0

 SlavikSG :: Пн Окт 24 2011, 10:32
Пн Окт 24 2011, 10:32

evilone_ пишет:
есть такой проект "народный словарь", организованный автором программы mp3book2005
Ага. Спасибо! Как раз про это дело я в курсе.

Насколько я понял, он там выкладывает новый словарь только с новой версией программы. Но учитывая, что сама программа выходит очень и очень не часто, то, соответственно, и новый словарь можно поиметь очень и очень не часто. Но это не страшно. Потому, как словарь уже настолько большой, что ошибок Николай уже практически не делает. В этом я сам лично убеждаюсь, чем дальше, тем больше.

Ну, а пока там зреют новые версии словаря, я потихоньку набиваю свой личный словарь. Получается еще совсем немного. Меньше 100 слов. Опять же, повторюсь, только из-за того, что Николай, с тем словарем, что уже есть, читает очень даже хорошо.

Вернуться к началу Перейти вниз
basist
Гость
avatar



 basist :: Вс Янв 19 2014, 18:53
Вс Янв 19 2014, 18:53

Пришла пора поделиться новым словарём, рискуя навлечь недовольство ревнителей чистоты движка.Rolling Eyes
Спойлер:
 

Словарь замен

Вернуться к началу Перейти вниз
Спонсируемый контент




 Спонсируемый контент ::


Вернуться к началу Перейти вниз

Обсуждение словарей

Предыдущая тема Следующая тема Вернуться к началу
Обсуждение словарей
Страница 1 из 1Страница 1 из 1
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении