TTS книги  Проверялка  ФорумФорум  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  



Обсуждение словарей

Предыдущая тема Следующая тема Перейти вниз
На страницу : Предыдущий  1, 2, 3, 4, 5, 6, 7, 8, 9  Следующий
АвторСообщениеОбсуждение словарей
lev55
Участник «online словари»


Сообщений : 384

 lev55 :: Ср Мар 31 2010, 20:38
Ср Мар 31 2010, 20:38

av161955
Маленький нюанс.
В O+lga.dic есть такие правила:
*е+е*=е' ^'йе
*и+е*=и' ^'йе
*ю+е*=ю' ^'йе
*я+е*=я' ^'йе
Они актуальны только для Ольги.
Для Алёны, я бы убрал.

Вернуться к началу Перейти вниз
av161955
Посетитель


Сообщений : 45
Репутация : 6

 av161955 :: Ср Мар 31 2010, 20:56
Ср Мар 31 2010, 20:56

Lev55
И ещё раз спасибо!

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Ср Мар 31 2010, 21:21
Ср Мар 31 2010, 21:21

Цитата :
Устанавливаем Балаболку 388.
устанавливать лучше самую последнюю версию программы всегда, для чего ее тогда вообще обновляли? там же очень много всего добавлено было за последнее время, просто словари ольги, если я правильно понимаю, сейчас нуждаются в небольшой правке, и программа тут абсолютно ни при чем, нужно будет потом их доделать.

сейчас абсолютно все аленкины словари отлично работают с последней версией программы

Вернуться к началу Перейти вниз
av161955
Посетитель


Сообщений : 45
Репутация : 6

 av161955 :: Ср Мар 31 2010, 22:44
Ср Мар 31 2010, 22:44

evilone_
Знаю, что Вы - эксперт по Аленке.
Так какие же по вашему мнению надо подключать словари к последней балаболке.
Хочу взять небольшой текст и прогнать его по 2 вариантам и послушать разницу

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Чт Апр 01 2010, 02:24
Чт Апр 01 2010, 02:24

av161955 вот тут все написано и какие словари и куда и как и еще много чего интересного, нет правда Smile
и туда же потом допишем, если будет все хорошо, как использовать словари от ольки для аленки

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 627
Репутация : 208

 evmir_troll-hunter :: Сб Апр 03 2010, 10:10
Сб Апр 03 2010, 10:10

evilone_ пишет:
av161955 вот тут все написано и какие словари и куда ... туда же потом допишем, если будет все хорошо, как использовать словари от ольки для аленки
Замечательно!!! Не нужно будет искать по всему форуму Smile
С нетерпением буду ждать.

Вернуться к началу Перейти вниз
av161955
Посетитель


Сообщений : 45
Репутация : 6

 av161955 :: Сб Апр 03 2010, 22:13
Сб Апр 03 2010, 22:13

Обязательно попробую в разных вариантах обработать один и тот жже текст и выложу для вашей оценки. Сразу после праздников.

Вернуться к началу Перейти вниз
av161955
Посетитель


Сообщений : 45
Репутация : 6

 av161955 :: Пн Апр 05 2010, 20:36
Пн Апр 05 2010, 20:36

Как и обещал, проделал небольшой эксперимент:
Взял маленький детектив (5 страничек) "Жемчужное колье", который обработал в Балаболке_443 с помощью словарей для Аленки:
omograf.dic, corrector.ini, 2ye.dic.
Получил текстовый файл Аленка, который без дальнейшей обработки перевел в звуковой файл.
Далее установил Балаболку_338 и обработал в ней текст по методе Lev55, со словарями для Ольги с последующей обработкой словарем Ольга_Алена.
Получил текст Ольга, который нельзя перевести в звук, т.к. там содержится множество символов ^
Раньше, когда я обрабатывал текст подобным образом в Балаболке_443, подобного не было.
Все упомянутые файлы выложил на http://multi-up.com/249899

Вернуться к началу Перейти вниз
av161955
Посетитель


Сообщений : 45
Репутация : 6

 av161955 :: Пн Апр 05 2010, 23:42
Пн Апр 05 2010, 23:42

После любезного ответа уважаемого Lev55 и использования новых словарей с новым алгоритмом их использования
http://mytts.forum2x2.ru/forum-f12/tema-t165.htm
получился текст Ольга и соответствующий звуковой файл.
Всё выложено на http://multi-up.com/250008
и каждый может составить свою собственное мнение.
Мне кажется, что при рбработке по методу Льва ударения расставляются по-лучше и даже даже правильно ставятся в
иностранных именах.
Есть маленькие недочеты (например в тексте появилось несколько +), но это можно поправить, зато ударяет правильней Smile

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 627
Репутация : 208

 evmir_troll-hunter :: Вт Апр 13 2010, 02:43
Вт Апр 13 2010, 02:43

av161955 пишет:
Всё выложено на http://multi-up.com/250008
и каждый может составить свою собственное мнение.
Да хорошо получилось, и все же предобработка текста словарями для Ольги эффективнее.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Вт Апр 13 2010, 18:38
Вт Апр 13 2010, 18:38

av161955
я не знаю с помощью каких "словарей для Аленки" и как вы обработали этот текст но у меня получились совсем другие результаты Suspect

для Ольки:
Спойлер:
 

Для Аленки:
Спойлер:
 
комментарии я думаю лишние

теперь по поводу использования словарей...
говоря "словари ольки" нужно иметь в виду что для аленки можно использовать всего один словарь а именно 0omograph.dic который является основным словарем для коррекции омографов

словарь Ё-фикации для аленки и ольги один и тот же и ссылка на него одна и та же была всегда, которая, правда, сейчас уже не работает, потому что некоторые взрослые люди любят вести себя как маленькие и капризные дети @

использование остальных словарей просто бесполезная трата времени потому что то ударение которое поставится в тексте движком просто не воспримется если транскрипции этого слова нету в лексиконе, а ее 100% там нет

поэтому давайте пока не будем вводить людей в заблуждение всеми этими "экспериментами" Wink

если другие словари можно будет использовать для аленки ссылки на них и их описание появятся в теме про словари, все остальное, как говорится, на свой страх и риск Rolling Eyes

Вернуться к началу Перейти вниз
welton
Интересующийся


Сообщений : 6
Репутация : 0

 welton :: Вт Апр 13 2010, 19:45
Вт Апр 13 2010, 19:45

взрослым дядькам хорошо в вот где ссылку на Ё- замены найти который бы работал а?
не кто не подскажет?

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Вт Апр 13 2010, 21:40
Вт Апр 13 2010, 21:40

welton
в тематических словаря откуда оно все и бралось есть исходный словарь Список русских слов, содержащих букву ё

Ссылки на старый словарь пока не будет, потому что так решил его составитель. Чуть позже сделаем свой, с блэкджеком и... в общем новый pig

Вернуться к началу Перейти вниз
Soyer
Интересующийся


Сообщений : 5
Репутация : 1

 Soyer :: Пт Апр 16 2010, 19:17
Пт Апр 16 2010, 19:17

Несколько вопросов:

1. В предложениях "площадь ямы то" и "выкопал в земле ямку и", слова ямы и ямку произносит как юмы и юмку. Отдельно слова произносятся правильно. Как исправлять такие ошибки?

2. По поводу интонации в предложениях. Заметил, если в конце стоит "?", то ударение падает (возможно не всегда) на последнее слово, н-р:
Удалось кого-нибудь найти?. Звучит не правильно. Должно быть:
Удалось кого-нибудь найти?
Попробовал переместить "?" и поставить после слова Удалось.
Интонация стала правильней, но слишком велика пауза после Удалось.
Вопрос: Можно ли уменьшить паузу для "?". Где вообще прописывается длительность паузы для "?". Или может есть получше способ исправлять интонацию?

3. Пытался разобраться со словарями *.ini, но по хелпу Балаболки ничего не понял. Может это где то обсуждается, подробно, на русских примерах-тыкните носом, а то сам не нашёл.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Пт Апр 16 2010, 21:31
Пт Апр 16 2010, 21:31

Цитата :
В предложениях слова ямы и ямку произносит как юмы и юмку
ага, исправили, обновите словарь коррекции текста, спасибо

Цитата :
По поводу интонации в предложениях.
тут все не просто, мне например нравится когда в фразе "Удалось кого-нибудь найти?" логическое ударение ставится на "найти", тут "правильно" и "неправильно" каждый решает сам для себя.

Цитата :
Можно ли уменьшить паузу для "?". Где вообще прописывается длительность паузы для "?".
да, настройки паузы для знаков препинания настраиваются в voice manager'е в разделе pauses

Цитата :
Пытался разобраться со словарями *.ini, но по хелпу Балаболки ничего не понял. Может это где то обсуждается, подробно, на русских примерах-тыкните носом, а то сам не нашёл.
эти правила строятся на основе регулярных выражений (regexp), в интернете есть полно книг и примеров как правильно с ними работать, для примера можете посмотреть как записаны правила в аленкиных ini-словарях
на самом деле если разобраться там все очень просто, хотя и не для блондинок :16:

Вернуться к началу Перейти вниз
Soyer
Интересующийся


Сообщений : 5
Репутация : 1

 Soyer :: Чт Апр 22 2010, 22:36
Чт Апр 22 2010, 22:36

Как правильно поступить с все/всё?
В alenka.hmg сидит строчка все=всЕ,всё. В omograph.dic и
2yo.dic-целая куча правил с этим словом.
Если оставить в омографах все=всЕ,всё- тогда зачем вся эта
куча в словарях замен, если всё равно придётся все все/всё
перебирать вручную?
Если убрать эту строчку из омографов- возникнут проблемы с фразами,
типа: абсолютно всЕ/абсолютно всё. А это уже не добавишь ни в словари
замен (слишком много вариантов), ни в словарь амографов (туда ведь
можно добавить только слово, а не фразу) ???

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 627
Репутация : 208

 evmir_troll-hunter :: Пт Апр 23 2010, 00:39
Пт Апр 23 2010, 00:39

Не надо никуда ничего убирать! В словаре замен слишком много вариантов, как раз для того, чтобы всё правильно работало Smile Конечно, есть ошибки, но это же не смертельно - можно легко подправить. Просто добавьте в omograph.dic свою фразу-замену.

Вернуться к началу Перейти вниз
e_v_g
Наблюдатель


Сообщений : 2
Репутация : 0

 e_v_g :: Чт Июн 17 2010, 16:37
Чт Июн 17 2010, 16:37

Добрый день всем!
Подскажите, пожалуйста, я никак не могу Аленкой нормально воспроизвести слово "Компания". Звучит как "Компани"с долгим "И" на конце. Когда слово в предложении последнее очень режет слух. Все мои попытки изменить только ухудшают. Можно ли заставить произнести это слово правильно? Какой словарь нужно подключить?

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Чт Июн 17 2010, 19:20
Чт Июн 17 2010, 19:20

e_v_g пишет:
Можно ли заставить произнести это слово правильно?
Код:
# k V m p A1 n' $ j $

Вернуться к началу Перейти вниз
e_v_g
Наблюдатель


Сообщений : 2
Репутация : 0

 e_v_g :: Пт Июн 18 2010, 10:06
Пт Июн 18 2010, 10:06

evilone_ пишет:
# k V m p A1 n' $ j $

Спасибо, но фраза, например, "Вас приветствует компания!" все рано не звучит. А лучше сделать никак нельзя?

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Пт Июн 18 2010, 15:56
Пт Июн 18 2010, 15:56

Код:
# k V m p A2 n' $ $
вот так даже лучше по-моему

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 627
Репутация : 208

 evmir_troll-hunter :: Пт Июн 18 2010, 16:07
Пт Июн 18 2010, 16:07

e_v_g пишет:
А лучше сделать никак нельзя?
Попробуйте убрать кавычки.
А вообще-то это особенность Алены - неопределенно читать окончания "ия" и "ии". Я когда-то пытался это исправлять, но уж очень много слов - бессмысленно.

Вернуться к началу Перейти вниз
SergeiSP
Новичок


Сообщений : 19
Репутация : 0

 SergeiSP :: Вт Июн 22 2010, 19:34
Вт Июн 22 2010, 19:34

Привет, возникла небольшая трудность. При установки в балаболку словаря для Алены у меня все равно Алена читает слова так, как у нее забито. Т.е. в балаболке записано слово НатАн, а Алена читает с ударением на первую а. И так постоянно, не реагирует на словари балаболки. В чем может быть дело?

Вернуться к началу Перейти вниз
SergeiSP
Новичок


Сообщений : 19
Репутация : 0

 SergeiSP :: Вт Июн 22 2010, 20:04
Вт Июн 22 2010, 20:04

Как правильно установить порядок загрузки словарей. У меня, например WinXP и не видно какие именно словари идут и форму не растянуть. Т.е. не понятно какой именно словарь стоит выше-ниже. Как тут быть?

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 627
Репутация : 208

 evmir_troll-hunter :: Вт Июн 22 2010, 21:28
Вт Июн 22 2010, 21:28

SergeiSP пишет:
При установки в балаболку словаря для Алены у меня все равно Алена читает слова так, как у нее забито
Словари для Алены подключаются к Lexicon manager а не к Балаболке!

Вернуться к началу Перейти вниз
SergeiSP
Новичок


Сообщений : 19
Репутация : 0

 SergeiSP :: Вт Июн 22 2010, 21:38
Вт Июн 22 2010, 21:38

Да нет, словари понятное дело, я про словарь омографов говорю

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 627
Репутация : 208

 evmir_troll-hunter :: Вт Июн 22 2010, 21:38
Вт Июн 22 2010, 21:38

SergeiSP пишет:
Т.е. не понятно какой именно словарь стоит выше-ниже. Как тут быть?
Попробуйте скопировать папку со словарями просто на Рабочий стол, и из неё уже подключить словари к Lexicon manager. Путь к данным словарям в таком случае будет намного короче, и их названия будут видны.
Удачи.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
avatar


Сообщений : 1213
Репутация : 986

 balabolka :: Вт Июн 22 2010, 22:01
Вт Июн 22 2010, 22:01

SergeiSP пишет:
Т.е. в балаболке записано слово НатАн, а Алена читает с ударением на первую а.
Вам надо проверить, есть ли в лексиконе, подключенном к "Алене", этот самый "НатАн" (и в каком виде он там хранится - "НатАн" или, например, "натАн").

Задавайте эти вопросы в ветке форума, посвященной "Алене", - проблема здесь явно не в программе "Балаболка".

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 627
Репутация : 208

 evmir_troll-hunter :: Вт Июн 22 2010, 22:05
Вт Июн 22 2010, 22:05

SergeiSP пишет:
я про словарь омографов говорю
Словарь омографов в Балаболке служит лишь для форматирования текста.
Чтобы Алёна читала слово "Натан" как "НатАн", нужно в лексиконе омографов подключенном к Lexicon manager (только в нём!), записать:

НатАн # n @ t A1 n
НАтан # n A1 t @ n

Лишь после этого Алёна прочитает данное слово так как написано.Smile

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Вт Июн 22 2010, 22:17
Вт Июн 22 2010, 22:17

SergeiSP, ударения для Аленки абы как не ставятся
если слова "НатАн" нету ни в одном лексиконе то сколько не пиши оно его читать не будет, это не Олька и не Коленька

неправильно произносимое слово нужно править только через лексикон
причем регистр имеет значение и в случае омографа нужно проверить если ли такое слово там вообще
"натан" это же не омограф, это имя, поэтому его там и нет, там кстати еще много чего нету Smile

Вернуться к началу Перейти вниз
SergeiSP
Новичок


Сообщений : 19
Репутация : 0

 SergeiSP :: Пн Июн 28 2010, 15:35
Пн Июн 28 2010, 15:35

Привет, подскажите, как в словарь омограф добавлять слова, например, такое слово как носу. Т.е. я добавляю такое сочетание как в ухе и носУ. Это правильно? В том смысле, чтоб ударение менялось от смысла слов?
А так же такой вопрос, добавляю я, например, имя Натан, но как правильно прописать, чтоб ударения выставлялись всегда на данное слово, если оно встречается, например, с разными окончаниями: Натану, Натана и т.д....

Вернуться к началу Перейти вниз
SergeiSP
Новичок


Сообщений : 19
Репутация : 0

 SergeiSP :: Пн Июн 28 2010, 18:08
Пн Июн 28 2010, 18:08

И еще такой момент. В Алене добавил имя Верна транскрипцией #v' e1 r n @
Читает в Алене нормально, в бабалолке постоянно делает окончание на конечную гласную в независимости от поставленного ударения.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Вт Июн 29 2010, 00:11
Вт Июн 29 2010, 00:11

SergeiSP, в лексикон можно добавлять любое словосочетание без пробела
т.е. "в ухе и носУ" не годится Smile
надо добавить правило в словарь замен (балаболки) как
Код:
в ухе и носу=в ухе и носУ
SergeiSP пишет:
как правильно прописать, чтоб ударения выставлялись всегда на данное слово, если оно встречается, например, с разными окончаниями
нужно вручную добавить все падежные формы слова в лексикон
для простоты есть генератор падежных форм.

если слово незнакомое или же если не сильно фантастическое то его можно поискать тут или тут и транскрипцию сделать по аналогии
SergeiSP пишет:
В Алене добавил имя Верна транскрипцией #v' e1 r n @
Читает в Алене нормально, в бабалолке постоянно делает окончание на конечную гласную в независимости от поставленного ударения.
лучше всего добавить слово как "вЕрна,вЕрну,вЕрном ..." а затем в словаре замен прописать правило как
Код:
$Верн*=вЕрн

Вернуться к началу Перейти вниз
lacri
Наблюдатель


Сообщений : 2
Репутация : 0

 lacri :: Сб Авг 07 2010, 05:28
Сб Авг 07 2010, 05:28

Помогите, пожалуйста, составить правило для словаря .ini т.к. я очень плохо в них разбираюсь. Алёнка слово стоящий по умолчанию произносит как стОящий. Я пока в омограф добавила все варианты стоящего (родовые и падежные формы) в словосочетаниях типа "стоящий впереди", "стоящий позади", как стоЯщий. Но получается очень много замен вручную. Как написать ini правило для таких вариантов? Я не очень тупая, успешно правлю свои словари и Алёнка с каждым разом звучит всё естественнее, но ini-правила для меня даются сложно. Заранее спасибо.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Сб Авг 07 2010, 13:24
Сб Авг 07 2010, 13:24

lacri, нужно сперва составить полный список всех предлогов с которыми будет замена омоформы стоя́щий, а само правило можно записать например так:
Код:
(стоящ)([а-яё]{1,3})\s(\bпредлог1\b|\bпредлог2\b|\bпредлог3\b|...)=стоЯщ$2 $3

пример:
Код:
(стоящ)([а-яё]{1,3})\s(\bвпереди\b|\bпозади\b|\bсбоку\b)=стоЯщ$2 $3

при замене по маске для омографов нужно угадать все возможные варианты а то может получится неточно :blind:

Вернуться к началу Перейти вниз
lacri
Наблюдатель


Сообщений : 2
Репутация : 0

 lacri :: Сб Авг 07 2010, 14:38
Сб Авг 07 2010, 14:38

Спасибо большое, теперь по аналогии смогу и другие правила создать.

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 627
Репутация : 208

 evmir_troll-hunter :: Вс Авг 29 2010, 21:23
Вс Авг 29 2010, 21:23

Вопрос на засыпку; сколько слов в русском языке? Я имею в виду ВСЕ словоформы - с падежами, суффиксами, термины и т.д. Google "молчит" как "партизан".Sad Лишь приблизительно, цитирую;
Цитата :
"В английском слова недавно подсчитаны - перевалило за миллион.
В русском - смело умножайте на три. ЭТО НЕПОДСЧИТЫВАЕМО,
т.к. а) русские словари (ни орфографические, ни толковые) не дают всех формообразований от корня слова - всех префиксально-суффиксальных накруток, - а их может быть несколько; б) английский менее гибок к словообразованию."
И сколько из этой тучи слов Алёна произносит неправильно? Я к тому, что способен кто-либо потратить 5-10 лет (не знаю сколько) на это хобби.
Думаю, число в три миллиона значительно преуменьшено! Вот 2 показательные, на мой взгляд, цитаты из статьи на http://nauka.relis.ru/27/0411/27411048.htm
Цитата :
Собственные же имена существительные составляют такой лексический пласт общенародного языка (носящий специальное название - "ономастика"), который, видимо, не поддается даже приблизительной количественной оценке. В самом деле, сколько, скажем, в Российской Федерации городов и сел, рек и озер, местностей и гор? Общеизвестными, как и в любой другой стране, являются названия более или менее крупных географических объектов (Волга, Урал, Париж, Сена) - они образуют лишь малый процент всей топонимики. Львиную же долю составляют топонимы, употре*****емые местными жителями на ограниченной территории, где нередко овраг или ручей, бугор или роща имеют собственное имя. Например, в Самарской области есть село Молгачи. Если жители употре*****ют в речи "был в Молгачах", "я из Молгачей" , значит, оно входит в русский язык, причем независимо от происхождения! А сколько космических объектов имеют собственные наименования - так называемые астронимы!
Именно поэтому, я игнорирую имена при правке Алёны.

Цитата :
"Есть и еще одно существенное замечание. В языкознании вообще нет точного и исчерпывающего определения, что такое слово. "Виновны" в этом не ученые-языковеды, а чрезвычайная сложность такого явления, как язык. Простой пример: идти и шедший - два слова или разновидности одного? Так же: дом и домишко? Вопрос не так-то легко разрешить. Ведь если считать отдельными словами все причастия (шедший), деепричастия, формы субъективной оценки (домишко) и другие образования и включить их в словарь, он может так разбухнуть, что один его экземпляр не поместится, пожалуй, в комнате средних размеров. Преувеличение? Тогда попробуйте сами прикинуть количество так называемых потенциальных слов, которые не являются устойчивыми единицами языка, а возникают в речи по потребности и в то же время внешне очень похожи на те, которыми мы обычно пользуемся. К ним, в частности, относятся сложные прилагательные с первым компонентом - числительным.
Например: двухрублевый, двенадцатирублевый, однодневный, тридцатидневный, шестисотвосьмидесятипятикилометровый и т.д.
Мой компьютер подчеркнул как несуществующие два последних слова(?!). Поэкспериментируем дальше: одноногий, двуногий, трехногий, четырехногий, пятиногий… Компьютер уверенно подчеркнул предпоследнее слово, а "поколебавшись", и последнее. Сколько же таких слов в принципе может встретиться в речи? И сколько их реально было употреблено за последние два века - приблизительно так оценивается возраст современного русского языка? Включать их все в словарь или нет? В Большом академическом словаре зафиксированы лишь некоторые из подобных образований.


Все слова конкретного живого языка сосчитать нельзя уже потому, что он ни одного дня не остается неизменным. Выходят из употребления одни слова или отдельные их значения, появляются новые, и зафиксировать каждый такой факт, конечно, невозможно, поскольку процесс этот постепенный и, как правило, неуловимый."

И что будем делать, друзья? Сидеть на печи, есть калачи и просто слушать книги, или же хотя бы попытаться что-то изменить?!@

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Пн Авг 30 2010, 16:04
Пн Авг 30 2010, 16:04

Пояснения к новым обновлениям:
Изменен формат слов в лексиконе для словаря замен - для удобства, вид замен приведен к стандарту "Книгодела" для слов содержащих букву Ё.

Для тех у кого он отличается от нашего отдельный файл для импорта, тем у кого он скачан с нашего сайта нужно чуть-чуть подождать пока мы его обновим.

Полностью переработан и значительно расширен словарь замен для слов содержащих букву "Ё". Словарь работает при любом методе применения правил замен (стандартный и быстрый).

Изменены hmg-словари, словари для ручного поиска омографов с "Ё". В архиве содержатся три варианта: для Аленки, Ольги и книгодела.
обсуждение всего этого безобразия что качается Аленки тут, остального тут.

Вернуться к началу Перейти вниз
ptoton
Бывалый
avatar


Сообщений : 108
Репутация : 25

 ptoton :: Чт Сен 09 2010, 22:09
Чт Сен 09 2010, 22:09

прошу авторов словарей (спасибо вам огромное за ваш титанический труд!) отметить рядом со словарями свои рекомендации на настоящий момент - какими методами применения правил (INI -PCRE или VBScript, DIC - стандартный или быстрый) надо пользоваться.

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 627
Репутация : 208

 evmir_troll-hunter :: Пт Сен 10 2010, 00:16
Пт Сен 10 2010, 00:16

ptoton пишет:
какими методами применения правил (INI -PCRE или VBScript, DIC - стандартный или быстрый) надо пользоваться.
Моё мнение - INI, только PCRE, а DIC, только быстрый. Для нас с Вами, (простых пользователей) этого вполне достаточно. Но очевидно НЕ достаточно для Лексуса.
И кстати, Ваш вопрос очень показателен - только появился выбор между PCRE и VBScript, как возникла путаница

Вернуться к началу Перейти вниз
Lexus
Эксперт
avatar


Сообщений : 413
Репутация : 32

 Lexus :: Пт Сен 10 2010, 01:02
Пт Сен 10 2010, 01:02

Цитата :
Моё мнение - INI, только PCRE, а DIC, только быстрый. Для нас с Вами, (простых пользователей) этого вполне достаточно. Но очевидно НЕ достаточно для Лексуса.
Для меня остается загадкой. Это просто глупость и непонимание возникшей дискуссии в соответствующей ветке, или тонкий вариант троллинга умудренного опытом знатока.
Я все-же склоняюсь ко второму варианту.
А для остальных поясню, что то, что сейчас называют PCRE методом применения ini правил -пока только стремление соответствовать данному стандарту.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Пт Сен 10 2010, 01:06
Пт Сен 10 2010, 01:06

ptoton, пока не стоит забегать на перед, для Аленки сейчас основные всего два словаря:
- словарь замен (основной для омографов);
- корректор (вспомогательный)

они оба нормально работают со всеми методами, должны работать Smile там нет таких наворотов которые бы не работали

не ясна пока только ситуация со сложным словарем "Си", там возможны нюансы, поэтому только для него рекомендуется пока что использовать VBScript

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 627
Репутация : 208

 evmir_troll-hunter :: Пт Сен 10 2010, 01:17
Пт Сен 10 2010, 01:17

Lexus пишет:
А для остальных поясню, что то, что сейчас называют PCRE методом применения ini правил -пока только стремление соответствовать данному стандарту.
Это "стремление" реально работает в Демагоге!
У вас же как всегда есть два мнения, одно ваше, другое неправильное.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
avatar


Сообщений : 1213
Репутация : 986

 balabolka :: Пт Сен 10 2010, 02:42
Пт Сен 10 2010, 02:42

Lexus правильно говорит о том, что это не совсем стандарт PCRE (Perl Compatible Regular Expressions, регулярные выражения, совместимые с языком Perl). Но также можно говорить о том, что нет уж такой острой необходимости стремиться к этой цели - к полной реализации стандарта. Мне кажется, имеющихся средств достаточно для решения широкого круга задач.

Автор "Демагога" добавил поддержку регулярных выражений в свою программу - пользователи сами его об этом просили. Способ реализации, который он выбрал, - не плох и не хорош; да и выбор был невелик (я знаю только еще один вариант компонента для регулярных выражений, но там нет никакой поддержки русских букв). Для обеспечения совместимости словарей я тоже перешел на TRegExpr; он ощутимо быстрее VBScript - уже одного этого достаточно.

Была одна проблема с подвыражениями в регулярных выражениях - в принципе, ее решение найдено. Так что серьезных различий между двумя методами (PCRE и VBScript) сейчас нет. В "Балаболке" пока будут присутствовать оба способа, но второй метод (VBSCript) со временем будет убран из программы. Желательно адаптировать словари *.INI к методу PCRE. Но это лишь мое мнение, сам я не очень много имел дела с регулярными выражениями.

Вернуться к началу Перейти вниз
ptoton
Бывалый
avatar


Сообщений : 108
Репутация : 25

 ptoton :: Пт Сен 10 2010, 10:17
Пт Сен 10 2010, 10:17

evilone_
спасибо за пояснения

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Вт Окт 05 2010, 21:51
Вт Окт 05 2010, 21:51

Пояснения к новым обновлениям:
- обновлен лексикон для словаря замен, про это обновление писалось выше;
- обновлен словарь коррекции текста для Аленки (теперь словарь будет работать только в режиме PCRE), старая версия работающая по VBScript и PCRE будет тут но обновляться уже скорее всего не будет.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
avatar


Сообщений : 1213
Репутация : 986

 balabolka :: Вс Ноя 14 2010, 05:32
Вс Ноя 14 2010, 05:32

В словаре corrector.ini (спасибо evmir1) обнаружил пару "проблемных" правил. Вот это выражение:
Код:
([A-Za-zА-яЁё]{1,20})+(d)=$1 $2
на этом тексте:
Цитата :
стовосьмидесятикилометровое путешествие
приводит к тому, что обработчик регулярных выражений в программе "Балаболка" очень надолго "задумается". Виной тому слово из 27 букв; если слово из 20 букв - правило обрабатывается мгновенно; 21, 22, 23 буквы - обработчику требуется всё больше времени. 27 букв - дождаться окончания процесса невозможно.

Плохо понимаю, почему так происходит; не хватает познаний в регулярных выражениях. Надеюсь на помощь специалистов. Рекомендую подумать еще над целесообразностью применения этих правил:
Код:
# 10. Пробел между буквой и цифрой
([A-Za-zА-яЁё]{1,20})+(d)=$1 $2
(d)+([A-Za-zА-яЁё]{1,20})=$1 $2

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Вс Ноя 14 2010, 15:38
Вс Ноя 14 2010, 15:38

balabolka пишет:
пару "проблемных" правил
ага, мы уже их исправили, спасибо
еще одно правило-убийца для коллекции :butcher:

Вернуться к началу Перейти вниз
ser8art
Интересующийся
avatar


Сообщений : 5
Репутация : 1

 ser8art :: Чт Дек 09 2010, 09:50
Чт Дек 09 2010, 09:50

а куда можно писать слова для внесения в словарь для Алены?
У себя я конечно исправлю, но это не вариант ИМХО.
Например: "Меркурии" произносится как "Меркурере" ))

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Чт Дек 09 2010, 13:36
Чт Дек 09 2010, 13:36

ser8art, если слово в редакторе лексикона произносится правильно а в тексте (предложении) нет то сюда полностью предложение где есть ошибка, будем посмотреть Smile

Вернуться к началу Перейти вниз
Rus
Новичок


Сообщений : 12
Репутация : 3

 Rus :: Вс Дек 26 2010, 09:53
Вс Дек 26 2010, 09:53

evilone_, Ага, ясно.
evilone_ пишет:
с пробелом? а разве словарь их не меняет? у меня например "50- х" заменяется на "пятидесятых" и т.д.
Сам не пойму. Примерно с середины книги Алёнка стала читать как "пятьдесят хэ".
Там где без пробела все прочитала окей.
Сейчас с этим словарем из темы проверил,окей стало. В настройках балаблки установил Правила вместо "Комбинированный метод", "Абзацами".
Тре-х, пяты-й, 2-й, 2-х и тд обычно пишутся словами, с этим имхо окей.

Осталась не ясность, например с аббревиатурой в тексте:
Цитата :
Баллистическая экспертиза была проведена по шкале VBL. V50BL
То есть речь о калибре оружия.
"VBL. V50BL" форматируется и читается как "V B L. V 50 бАйт L".
Как закоментировать подмену "B" на "байт"?

Простите, помню в коментах было про байты, но запамятовал в каком словаре это. Подскажите?
Спасибо.
P.S.
Может есть специальный словарь коррекции по оружейной и военной тематике?
P.P.S.
Как расставлять приоритеты словарей коррекции?

Вернуться к началу Перейти вниз
Спонсируемый контент




 Спонсируемый контент ::


Вернуться к началу Перейти вниз

Обсуждение словарей

Предыдущая тема Следующая тема Вернуться к началу
Обсуждение словарей
Страница 6 из 9Страница 6 из 9На страницу : Предыдущий  1, 2, 3, 4, 5, 6, 7, 8, 9  Следующий
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении