TTS книги  Проверялка  ФорумФорум  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  



Расширенный словарь для ручного поиска омографов

Предыдущая тема Следующая тема Перейти вниз
На страницу : 1, 2  Следующий

Как вы боретесь с омонимией в русскоязычном тексте?
Пользуюсь только готовыми словарями замен.
38%
 38% [ 6 ]
Ищу вручную по словарю-индексу.
6%
 6% [ 1 ]
Использую программно – синтаксический анализатор.
19%
 19% [ 3 ]
Частично комбинируя все вышеперечисленное или как-то по-своему.
19%
 19% [ 3 ]
Что такое омографы?
18%
 18% [ 3 ]
Всего проголосовало : 16
 

АвторСообщениеРасширенный словарь для ручного поиска омографов
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Вс Май 23 2010, 18:50
Вс Май 23 2010, 18:50

31 Расширенный словарь для ручного поиска омографов
автор: muk79

Словарь, объединяющий в себе "словарь замен" и обычный "словарь ручного поиска омографов" для упрощения ручного поиска омографов в тексте. Структура словаря соответствует текущему формату программы "балаболка" для словарей hmg. Словарь замен включен в словарь в виде "фраз" для омографов что должно упростить поиск и разметку по тексту омографов.

Это пробный словарь для проверки удобства одновременного использования dic и hmg словарей при ручной разметке текста.

Установка:
  • Словарь скопировать к остальным словарям для программы "балаболка" и подключить в окне "Омографы" вкладки словарей.
  • Для начала ручного поиска нажать "Искать омографы" Ctrl+M
Все найденные ошибки или неточности пишите сюда.
31 hmg2dic - Утилита для выделения правил из словарей *.hmg добавленных при ручном поиске омографов в формате для словаря замен *.dic

Вернуться к началу Перейти вниз
al2055
Постоялец


Сообщений : 96
Репутация : 23

 al2055 :: Вт Май 25 2010, 19:15
Вт Май 25 2010, 19:15

Я периодически пользуюсь такими словарями, есть свои и плюсы и минусы.
Некоторые мысли по представленному словарю.
Правила типа:
||кон. 17 в=конец семнадцатого вЕка
||мир ХХI,=мир двадцать первого вЕка,
||270 м=270 метров
||кв. км=квадратных километров
и т.д.
не будут обрабатываться.
Если есть желание работать с сокращениями, необходимо их явно задать в словаре. Напр.:
г=гОда,гОду,годУ,грамм,грамма и т.д. И, соответственно, правила. Напр.:
||в 2010 г=в 2010 годУ
||к 2010 г=к 2010 гОду
||по 2010 г=по 2010 год
||весит 2010 г=весит 2010 грамм
и т.д.

Все правила, начинающиеся со "*", желательно разместить в конце списка правил для данного слова (т.к. они обрабатываются сначала и до первого совпадения), чтобы они сработали только если уж других вариантов не нашлось. Иначе, в таком, напр., случае:
||*ние цены=ние ценЫ
||средние цены=средние цЕны
получим "средние ценЫ".

Правила, содержащие 2 или более омографа, лучше привязать к первому. Напр.,
самого=сАмого,самогО
||у самого берега=у сАмого бЕрега
В противном случае придется или дублировать правила (как в данном словаре и сделано для многих омографов) или будем получать лишние запросы.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Ср Май 26 2010, 01:34
Ср Май 26 2010, 01:34

al2055, спасибо за дельную подсказку, возьмем на заметку Wink
скорее всего будем развивать этот формат словарей в силу его универсальности
очень удобно должно быть и точность разметки должна быть выше
al2055 пишет:
Если есть желание работать с сокращениями, необходимо их явно задать в словаре.
а как словарь ведет себя возле точки или дефиса? эти все замены рассчитаны как для фразы а у самой фразы как определяется граница? по разрыву строки или до первой точки в тексте?

Вернуться к началу Перейти вниз
al2055
Постоялец


Сообщений : 96
Репутация : 23

 al2055 :: Ср Май 26 2010, 13:28
Ср Май 26 2010, 13:28

evilone_ пишет:
а как словарь ведет себя возле точки или дефиса? эти все замены рассчитаны как для фразы а у самой фразы как определяется граница? по разрыву строки или до первой точки в тексте?
Никаких проблем с точками и дефисами не замечал. Если они включены в правило, оно корректно обрабатывается. Если текст отформатировать, то и разрывы строк не мешают.

Эти словари действительно более универсальны и результаты хорошие. Главное - не просто перенести в них правила из существующих словарей, а основательно почистить их.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Сб Май 29 2010, 18:53
Сб Май 29 2010, 18:53

обновился словарик:

  • убрано все лишние;
  • отсортировано как положено Smile
  • правило для выбора омографа для удобства имеет только одну форму - ту которую аленка всегда произносит неправильно и которую имеет смысл указывать при разметке;

Вернуться к началу Перейти вниз
al2055
Постоялец


Сообщений : 96
Репутация : 23

 al2055 :: Сб Май 29 2010, 19:53
Сб Май 29 2010, 19:53

Может так и лучше. Но есть еще омографы с тремя вариантами звучания. Напр.:
вывозите=вывозИте,вывОзите,вЫвозите
выходите=выхОдите,выходИте,вЫходите.
И что, если кто изменил у себя произношение омографов. Я так в лексиконе в Alyona22k.dic, не трогая omograph.dic, изменил исходное звучание практически всех омографов на более часто встречающееся.

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 627
Репутация : 208

 evmir_troll-hunter :: Сб Май 29 2010, 20:06
Сб Май 29 2010, 20:06

al2055 пишет:
Я так в лексиконе в Alyona22k.dic, не трогая omograph.dic, изменил исходное звучание практически всех омографов на более часто встречающееся.
Вам придётся всё удалить.Sad
Отличное нововведение! Мне понравилось.

Вернуться к началу Перейти вниз
al2055
Постоялец


Сообщений : 96
Репутация : 23

 al2055 :: Сб Май 29 2010, 21:50
Сб Май 29 2010, 21:50

evmir1 пишет:
Вам придётся всё удалить.
Отличное нововведение!
Повторюсь: эти словари действительно хорошие и дают дополнительные возможности. Я ими пользуюсь практически как приобщился к этому делу. У меня свои словари, так что удалять я погодю))). Я не столько о себе. Начинающим может тяжело будет сразу вникнуть. что к чему.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Вс Май 30 2010, 00:03
Вс Май 30 2010, 00:03

al2055 пишет:
Но есть еще омографы с тремя вариантами звучания.
кстати да, но их мы старались по возможности учитывать удалив только "ненужную" форму например
Код:
велики=великИ,вЕлики  (велИки)
весел=вЕсел,весёл (вёсел)
если найдете еще такие не поленитесь пожалуйста написать, мы добавим
пасиб

al2055 пишет:
Я так в лексиконе в Alyona22k.dic, не трогая omograph.dic, изменил исходное звучание практически всех омографов на более часто встречающееся.
а вот это зря, мы от этого еще в самом начале отказались

нечто подобное уже применялось ранее при составлении словарей для Ольги, только там все на уровне замен работало и использовался быстрый метод замен со своими особенностями и результаты у нас с Аленкиными были приблизительно одинаковые при различии словарей почти в два раза по объему

Цитата :
изменил исходное звучание практически всех омографов на более часто встречающееся
кстати а как вы их искали, на слух или по статистике? и сколько у вас их всего в лексиконе сейчас?

Вернуться к началу Перейти вниз
al2055
Постоялец


Сообщений : 96
Репутация : 23

 al2055 :: Пн Май 31 2010, 00:37
Пн Май 31 2010, 00:37

Цитата :
если найдете еще такие не поленитесь пожалуйста написать
Ну, кроме тех, что написал я и указали вы, из неучтенных в словаре пожалуй только
Код:
тОчена,точёнА,точенА
тОчено,точёно,точенО
тОчены,точёны,точенЫ
лЕта,летА,лёта
суетнёй,сУетней,суетнЕй
были там еще, но редкие формы и я их тоже не учел.
Цитата :
а вот это зря, мы от этого еще в самом начале отказались
Охватить все омографы в тексте словарями все равно не удастся (мое мнение), так по мне пусть оставшиеся читаются с большей вероятностью правильно. Аленка по умолчанию многие омографы читает в их менее употребительном варианте. Все, что менял, уж и не упомню, но напр. "бОями, бОях" явно реже встретятся, чем "боЯми, боЯх".
Цитата :
кстати а как вы их искали, на слух или по статистике? и сколько у вас их всего в лексиконе сейчас?
Пользовался, конечно, кое-какой литературой, но большую часть все-таки полагаясь на слух. Кстати, особо не искал, но в тех частотных словарях, что раскопал, не видел статистики по значению слов и ударению, только по написанию.
Насчет количества не совсем понял вопрос. В omograph.dic 53.5 тыс, в Alyona22k.dic 18.5 тыс. Сколько в последнем именно омографов... не знаю.
Если пригодится, могу выслать свои словари hmg на неделе, только скомпоную - у меня на несколько разбито и еще кое-какие нюансы есть.

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 627
Репутация : 208

 evmir_troll-hunter :: Пн Май 31 2010, 01:06
Пн Май 31 2010, 01:06

al2055 пишет:
Охватить все омографы в тексте словарями все равно не удастся (мое мнение), так по мне пусть оставшиеся читаются с большей вероятностью правильно.
А у меня другое мнениеSmile - подавляющее большинство омографов уже внесено в словари энтузиастами. Для художественной литературы, вполне достаточно!
Если же читать Аленой тех. документацию - будут ошибки.

Вернуться к началу Перейти вниз
al2055
Постоялец


Сообщений : 96
Репутация : 23

 al2055 :: Пн Май 31 2010, 10:03
Пн Май 31 2010, 10:03

evmir1 пишет:
подавляющее большинство омографов уже внесено в словари энтузиастами
Я не о том. Вы опять не совсем поняли меня@. Это бесспорно... и даже с лихвой, многие омографы я бы не учитывал - просто нет разницы в значениях, например, или встречаются крайне редко. И вообще, все, кто здесь что-то делает, достойны только похвалы. Я о том, что в тексте разметить все встречающиеся омографы проблематично. Или же просто делать все это вручную... Поэтому я и изменил многие умолчания.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Пн Май 31 2010, 23:19
Пн Май 31 2010, 23:19

al2055 пишет:
Ну, кроме тех, что написал я и указали вы, из неучтенных в словаре пожалуй только
пасиб, потом добавим
al2055 пишет:
И вообще, все, кто здесь что-то делает, достойны только похвалы.
главное сильно не перехвалить а то на шею сядем Like a Star @ heavenclown

Вернуться к началу Перейти вниз
Андрей28
Участник


Сообщений : 74
Репутация : 8

 Андрей28 :: Вт Янв 18 2011, 04:28
Вт Янв 18 2011, 04:28

Скажите пожалуйста.

Как попало в омографы слово "нахОдится"?

Если имеется ввиду слово "находИться", то оно пишется с мягким знаком.

Но, может я что-то недосоображал и может еще встречаться слово "находИтся"?

Если я неправ, то приведите, пожалуйста пример (контекст).

Вернуться к началу Перейти вниз
Андрей28
Участник


Сообщений : 74
Репутация : 8

 Андрей28 :: Вт Янв 18 2011, 04:52
Вт Янв 18 2011, 04:52

А также: "белится", "валятся", "ввинтится" -все относится к тому же правилу.

Думаю, там - еще много таких...

Вернуться к началу Перейти вниз
al2055
Постоялец


Сообщений : 96
Репутация : 23

 al2055 :: Вт Янв 18 2011, 12:52
Вт Янв 18 2011, 12:52

Цитата :
А также: "белится", "валятся", "ввинтится" -все относится к тому же правилу.
Думаю, там - еще много таких...
Да, все надо чистить. Все это встречается и словарях замен.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Вт Янв 18 2011, 19:46
Вт Янв 18 2011, 19:46

Андрей28 пишет:
Но, может я что-то недосоображал и может еще встречаться слово "находИтся"?
скорее всего нет, хотя все зависит от автора конечно rulzz
вред от них один, отвлекает при поиске

al2055 пишет:
Все это встречается и словарях замен.
в каких словарях? какие замены?

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 627
Репутация : 208

 evmir_troll-hunter :: Вт Янв 18 2011, 22:59
Вт Янв 18 2011, 22:59

al2055 пишет:
Да, все надо чистить.
А в чём проблема? Кому это мешает?! Лексикон составляют люди, а не роботы.Twisted Evil
А если б помогали критикующие, то было бы меньше ошибок!

Вернуться к началу Перейти вниз
al2055
Постоялец


Сообщений : 96
Репутация : 23

 al2055 :: Ср Янв 19 2011, 00:18
Ср Янв 19 2011, 00:18

Цитата :
в каких словарях? какие замены?
Имелись в виду неточности и неоднозначности в словаре замен для омографов, которые действительно надо вычищать. И это не упрек кому-либо, а просто констатация факта.
Цитата :
Лексикон составляют люди, а не роботы.
Никто и не считает, что тут роботы. А Вам не мешало бы быть менее агрессивным, перестать поучать других и считать, что солнце встает исключительно для вас. А многие "критикующие", которые и хотели бы помочь, именно из-за Вашего такого отношения и отстранились. И это не мои домыслы.

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 627
Репутация : 208

 evmir_troll-hunter :: Ср Янв 19 2011, 04:05
Ср Янв 19 2011, 04:05

al2055 пишет:
А многие "критикующие", которые и хотели бы помочь, именно из-за Вашего такого отношения и отстранились. И это не мои домыслы.
Причина пользоваться трудом других, и их же критиковать, а также не помогать - найдётся всегда!
Многие отстранились ещё ДО моего появления на этом форуме.
Возьмите, и почистите словарь замен, и Вам будут благодарны.
А бездоказательные выдумки о моей агрессии, и отношении к кому либо - демагогия!
Обвинение надо подтверждать или молчать.:flood:

Вернуться к началу Перейти вниз
Андрей28
Участник


Сообщений : 74
Репутация : 8

 Андрей28 :: Ср Янв 19 2011, 21:34
Ср Янв 19 2011, 21:34

evmir1 пишет:
Причина пользоваться трудом других, и их же критиковать, а также не помогать - найдётся всегда!

Бред, конечно, чистой воды.
Конструктивная критика, адресованная создателю предмета критики, это и есть помощь.
Поскольку один человек не в силах отследить и отловить все ошибки.
А, вот вносить изменения в словарь, опубликованный для массового пользования - не должны все подряд. Иначе словари с разной степенью замусоривания расплодятся и станут не двигателем, а - тормозом.

И я, наверное соглашусь с al2055, что найдется не много желающих работать для своего удовольствия в такой нервной обстановке

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Ср Янв 19 2011, 21:55
Ср Янв 19 2011, 21:55

al2055 пишет:
Имелись в виду неточности и неоднозначности в словаре замен для омографов, которые действительно надо вычищать.
это да, но просто шла речь про неправильные формы на -ся\-ься, если попадутся такие в словарях замен дайте знать пожалуйста, возможно где-то они и просочились

Андрей28 пишет:
А, вот вносить изменения в словарь, опубликованный для массового пользования - не должны все подряд. Иначе словари с разной степенью замусоривания расплодятся и станут не двигателем, а - тормозом.
золотые слова, но такие словари скорее сделаны для самых ленивых, таких как я :musicwhisper:, чем для желающих работать для своего удовольствия, поэтому сильно много от них (словарей) ждать не стоит, а вот если есть критика или замечания по существу то это всегда хорошо, потому что действительно, один человек не в силах отследить и отловить все ошибки @

Вернуться к началу Перейти вниз
Андрей28
Участник


Сообщений : 74
Репутация : 8

 Андрей28 :: Ср Янв 19 2011, 22:28
Ср Янв 19 2011, 22:28

evilone_ пишет:
по существу
Думаю, что указания на конкретные ошибки это - по существу.Wink

Вернуться к началу Перейти вниз
al2055
Постоялец


Сообщений : 96
Репутация : 23

 al2055 :: Ср Янв 19 2011, 23:15
Ср Янв 19 2011, 23:15

evilone_ пишет:
шла речь про неправильные формы на -ся\-ься, если попадутся такие в словарях замен дайте знать пожалуйста
Раньше я фиксировал ошибки по мере того, как сталкивался с ними, но затем, за невостребованностью, перестал. Вот несколько, которые помню и сразу нашел в omograph.dic
Код:
стоит относится=стОит относИтся
не успевшие разложится, тела=не успевшие разложится, телА
ее поделится=её поделИтся
так все рассыпается=так всё рассЫпается

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Чт Янв 20 2011, 00:53
Чт Янв 20 2011, 00:53

al2055 пишет:
Вот несколько, которые помню и сразу нашел в omograph.dic
самое смешное в том, что эти правила составлялись по реальному тексту, если я не ошибаюсь это какой-то рассказ из серии S.T.A.L.K.E.R. rulzz
надо подумать как лучше всего сделать в таком случае: добавить две формы правильную и неправильную или же оставить только правильную сделав расчет на то что автор пишет грамотно Smile пока что мне кажется удобнее записать две формы...

Вернуться к началу Перейти вниз
Андрей28
Участник


Сообщений : 74
Репутация : 8

 Андрей28 :: Чт Янв 20 2011, 01:49
Чт Янв 20 2011, 01:49

Рассуждая гипотетически, "идеальный" словарь должен содержать все формы, которые могут существовать. Иначе не прочтется фраза:

Увидев его записку, "Я ушел валятся на пляже", она поняла, что грамотность - не его достоинство и, тоже, пошла валяться на пляж.

Не претендую на художественность, но принцип - понятен.

И никакой морфологический разбор (компьютерный) не поможет тут.


Вернуться к началу Перейти вниз
al2055
Постоялец


Сообщений : 96
Репутация : 23

 al2055 :: Чт Янв 20 2011, 15:00
Чт Янв 20 2011, 15:00

evilone_ пишет:
пока что мне кажется удобнее записать две формы...
Согласен, что иногда оно так удобнее... Но тогда надо и в лексиконе прописать произношение для неправильных форм и включить их в список омографов??????? Не возникнет-ли дополнительной путаницы?

Вернуться к началу Перейти вниз
Андрей28
Участник


Сообщений : 74
Репутация : 8

 Андрей28 :: Чт Янв 20 2011, 16:11
Чт Янв 20 2011, 16:11

Тут есть у меня одна мысль.
Эта программа (любая для чтения вслух) не предназначена следить за чистотой русского языка.
Она должна прочитать все так, как прочел бы человек. И мы все прочтем "валЯтся" (хоть оно и не правильно для определенного контекста), точно так же, как и "валЯться".
Поэтому необходимо выбрать направление развития словарей.

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 627
Репутация : 208

 evmir_troll-hunter :: Чт Янв 20 2011, 18:16
Чт Янв 20 2011, 18:16

evilone_ пишет:
пока что мне кажется удобнее записать две формы...
Согласен, они не помешают. Из-за ненадёжности сканирования, книги из эл. библиотек пестрят опечатками.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Чт Янв 20 2011, 19:53
Чт Янв 20 2011, 19:53

al2055 пишет:
Но тогда надо и в лексиконе прописать произношение для неправильных форм и включить их в список омографов?
в лексиконе омографов все неправильные формы уже прописаны (словарь hmg создавался на основе лексикона), не прописаны только правильные, но если изменений нет, а их не будет, потому что ударение в правильной форме ставить необязательно (это вроде бы как и не омограф получается) то и произношение получается практически одинаково, для аленки например:
Код:
находИтся
находиться
ввинтИтся
ввинтиться
и т.п.
для остальных голосов надо проверять...

Вернуться к началу Перейти вниз
al2055
Постоялец


Сообщений : 96
Репутация : 23

 al2055 :: Чт Янв 20 2011, 20:39
Чт Янв 20 2011, 20:39

evilone_ пишет:
в лексиконе омографов все неправильные формы уже прописаны
Да, точно. Просто я забыл, потому что давно уже вычистил все неправильные формы. Я все-таки делаю ставку на грамотное написание, иначе слишком много правил придется дублировать, возникает масса др. вопросов и тд. И без этого хватает всяких неоднозначностейSmile. Хотя... на вкус и цвет...

Вернуться к началу Перейти вниз
Андрей28
Участник


Сообщений : 74
Репутация : 8

 Андрей28 :: Сб Янв 22 2011, 19:48
Сб Янв 22 2011, 19:48

Существует ли утилита для перевода фраз из из словаря омографов?
Нового словаря, где после фразы - только одно слово - чтение самого омографа.


Вернуться к началу Перейти вниз
al2055
Постоялец


Сообщений : 96
Репутация : 23

 al2055 :: Сб Янв 22 2011, 23:25
Сб Янв 22 2011, 23:25

Андрей28 пишет:
Существует ли утилита для перевода фраз из словаря омографов?
Что именно имеете в виду? Выделение конечных правил из нового словаря или что-то другое. Если первое, то подумываю вот самому написать, правда очень давно этим не занимался.

Вернуться к началу Перейти вниз
Андрей28
Участник


Сообщений : 74
Репутация : 8

 Андрей28 :: Вс Янв 23 2011, 00:10
Вс Янв 23 2011, 00:10

al2055 пишет:
Что именно имеете в виду? Выделение конечных правил из нового словаря или что-то другое.

Выделение правил для словаря замен .dic из файлов .hmg

чтобы найденные правила - автоматически работали на всех текстах, без вызова программы поиска омографов.

Вернуться к началу Перейти вниз
al2055
Постоялец


Сообщений : 96
Репутация : 23

 al2055 :: Вс Янв 23 2011, 00:35
Вс Янв 23 2011, 00:35

Андрей28 пишет:
Выделение правил для словаря замен .dic из файлов .hmg
Да, и я об этом. При старом формате .hmg это было легко. Чуток разгружусь и в ближайшее время займусь этим. Правда, можно попробовать еще раз Илью попросить.

Вернуться к началу Перейти вниз
Андрей28
Участник


Сообщений : 74
Репутация : 8

 Андрей28 :: Вс Янв 23 2011, 01:55
Вс Янв 23 2011, 01:55

al2055 пишет:
При старом формате .hmg это было легко.

Ну да. Это можно было сделать и регулярными выражениями в самой-же Балаболке.

Вернуться к началу Перейти вниз
balabolka
V.I.P.
avatar


Сообщений : 1213
Репутация : 986

 balabolka :: Вс Янв 23 2011, 02:21
Вс Янв 23 2011, 02:21

Андрей28 пишет:
Выделение правил для словаря замен .dic из файлов .hmg
Вот утилита для преобразования словарей омографов в DIC-файлы.

Вернуться к началу Перейти вниз
Андрей28
Участник


Сообщений : 74
Репутация : 8

 Андрей28 :: Вс Янв 23 2011, 02:46
Вс Янв 23 2011, 02:46

balabolka пишет:

Спасибо огромное.
beer

Вернуться к началу Перейти вниз
al2055
Постоялец


Сообщений : 96
Репутация : 23

 al2055 :: Вс Янв 23 2011, 11:40
Вс Янв 23 2011, 11:40

balabolka
1000 благодарностей. Вы нам здорово облегчили жизнь.

Вернуться к началу Перейти вниз
Андрей28
Участник


Сообщений : 74
Репутация : 8

 Андрей28 :: Вт Янв 25 2011, 10:00
Вт Янв 25 2011, 10:00

Про синтаксис словарей и конвертор (hmg2dic).


точки, запятые и др. знаки препинания в начале словосочетания:
синтаксис словаря омографов и словаря замен (*, слово) - одинаковый.
конвертируется (hmg2dic) - правильно.

тире в начале словосочетания:
синтаксис словаря омографов и словаря замен (- слово) - одинаковый.
конвертируется (hmg2dic) - правильно.

запятая и др. знаки препинания в конце словосочетания:
синтаксис словаря омографов - (слово, *)
синтаксис словаря замен - (слово,)
конвертируется (hmg2dic) в - (слово, *=слово, )
для соответствия придется поменять: ( *=)-->(=) и ( \r\n)-->(\r\n).

окончание предложения в конце словосочетания:
если предложение, в котором находится искомое словарем омографов словосочетание, находится - в конце абзаца. То там не помогут и (слово. *). понятно, почему.... конвертируется - также, как с запятой - (слово. *=слово. ).

Про словосочетания с двумя-тремя омографами:
придется завести несколько дублей в словаре омографов. но, если бы конвертор мог определять такие правила и объединять их...
(строчки, ведь одинаковые, только нужно все заглавные буквы сохранить).

Про звездочки в середине словосочетаний:
шикарная идея, но в словарь замен не пишется. могу, лишь предложить не переносить эти строки конвертором (пока). А там - как развитие пойдет...

Вернуться к началу Перейти вниз
balabolka
V.I.P.
avatar


Сообщений : 1213
Репутация : 986

 balabolka :: Вт Янв 25 2011, 14:28
Вт Янв 25 2011, 14:28

Андрей28
Утилиту обновил, с учетом Ваших замечаний. Спасибо за помощь.

Если "звездочка" располагается внутри шаблона правила, а не с левого или правого края, то такое правило будет выполняться лишь с помощью "быстрого" метода. Поэтому добавил в утилиту "галочку" для возможности игнорировать подобные правила при конвертации HMG в DIC.

В добавление к перечисленным Вами замечаниям еще игнорируются правила, в которых левая и правая части абсолютно идентичны и написаны маленькими буквами (берега реки=берега реки).

Вернуться к началу Перейти вниз
Андрей28
Участник


Сообщений : 74
Репутация : 8

 Андрей28 :: Вт Янв 25 2011, 15:12
Вт Янв 25 2011, 15:12

balabolka,
Большое спасибо за оперативность)))

Вернуться к началу Перейти вниз
Андрей28
Участник


Сообщений : 74
Репутация : 8

 Андрей28 :: Вт Янв 25 2011, 16:37
Вт Янв 25 2011, 16:37

balabolka,


ЗдОрово. Огромный респект - привели - в соответствие друг-другу оба словаря.
Знаки препинания, дефисы - теперь по одинаковому принимаются - даже звездочки.

По поводу дефисов - тоже все здорово (мое мнение) лишь бы расхождений не было. В двух типах словарей.

Но просчетец я один, все-же углядел. А именно:
слово омограф, написанное через дефис с каким-нибудь другим словом - высвечивается - как омограф (по-моему - правильно).
Но, вот тормозиться оно при ручном поиске - не хочет. Дефис - теперь - буква и слово - другое.
Короче - исключение в поиске - понадобятся...

Вернуться к началу Перейти вниз
balabolka
V.I.P.
avatar


Сообщений : 1213
Репутация : 986

 balabolka :: Вт Янв 25 2011, 19:12
Вт Янв 25 2011, 19:12

Андрей28 пишет:
слово омограф, написанное через дефис с каким-нибудь другим словом - высвечивается - как омограф (по-моему - правильно). Но, вот тормозиться оно при ручном поиске - не хочет. Дефис - теперь - буква и слово - другое.
Не совсем понятно, что имеется ввиду. Нужен реальный пример.

Вернуться к началу Перейти вниз
Андрей28
Участник


Сообщений : 74
Репутация : 8

 Андрей28 :: Вт Янв 25 2011, 20:38
Вт Янв 25 2011, 20:38

balabolka,

Да. все работает. Видимо я - слово для замены с маленькой буквы написал.

Спасибо огромное - будем пользоваться.

Вернуться к началу Перейти вниз
Андрей28
Участник


Сообщений : 74
Репутация : 8

 Андрей28 :: Вт Янв 25 2011, 21:25
Вт Янв 25 2011, 21:25

Попробуйте записать в словарь омографов:


- господА!
- господА,
! господА!

Я- чето совсем запутался.

Вернуться к началу Перейти вниз
Андрей28
Участник


Сообщений : 74
Репутация : 8

 Андрей28 :: Вт Янв 25 2011, 23:34
Вт Янв 25 2011, 23:34

Я понял. звездочки в словаре омографов - стали не обязательны, но то, что за ними стояло в тексте - по прежнему необходимо.
Жаль, что это распространяется на точку и т.д. (в конце предложения).

Вернуться к началу Перейти вниз
al2055
Постоялец


Сообщений : 96
Репутация : 23

 al2055 :: Ср Янв 26 2011, 00:01
Ср Янв 26 2011, 00:01

Андрей28 пишет:
Я- чето совсем запутался.
Я вот только попробовал, что-то непонятное. Попробовал отловить омографы в приведенном примере. Так если в таком порядке
Код:
! господа!
- господа!
- господа,
(2-я и 3-я строки м.б. и наоборот) все нормально меняет. В любом другом - только 1-ю строку. Причем, ситуация изменяется, если что-то еще дописать

Вернуться к началу Перейти вниз
Андрей28
Участник


Сообщений : 74
Репутация : 8

 Андрей28 :: Ср Янв 26 2011, 00:33
Ср Янв 26 2011, 00:33

Андрей28 пишет:
Про синтаксис словарей и конвертор (hmg2dic).

То, что я писал (логика) так и осталось. только звездочки стали не обязательными.
Но обязательным осталось то, что они обозначали.

balabolka,

Вот еще: словосочетания - объединяются - правильно. Кроме буквы "Ё".

"все должно" не объединится. Т.к. все и всё - разными стали словами.

И будет два сочетания:
все должно=всЁ должно
все должно=все должнО


Вернуться к началу Перейти вниз
al2055
Постоялец


Сообщений : 96
Репутация : 23

 al2055 :: Ср Янв 26 2011, 00:51
Ср Янв 26 2011, 00:51

Андрей28 пишет:
Но обязательным осталось то, что они обозначали.
Ок. Спасибо. Это я пропустил.

Вернуться к началу Перейти вниз
Спонсируемый контент




 Спонсируемый контент ::


Вернуться к началу Перейти вниз

Расширенный словарь для ручного поиска омографов

Предыдущая тема Следующая тема Вернуться к началу
Расширенный словарь для ручного поиска омографов
Страница 1 из 2Страница 1 из 2На страницу : 1, 2  Следующий
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении