TTS книги  Проверялка  ФорумФорум  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  



Транскриптор

Предыдущая тема Следующая тема Перейти вниз
АвторСообщениеТранскриптор
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Ср Мар 14 2012, 00:39
Ср Мар 14 2012, 00:39

Транскриптор - программа для быстрого создания фонетической транскрипции слова с учетом ударения в нужном месте. Поддерживается классический формат ударения для Аленки - заглавная буква. Программа имеет поддержку пользовательских словарей для создания собственных фонетических правил и коррекции транскрипции.

авторы: muk79, evilone, evmir

31 Транскриптор
31 transcriptor.ini


31 phonemes
31 phonemes.fix

Описание словарей

phonemes - фонетический словарь, формирующий правила разбиения слов на фонемы

Формат правил словаря:
фонема(с ударением или без)=#транскрипция#
Код:
цУ=#ts u1#
цЫ=#ts 11#
цА=#ts A1#
шУ=#S u1#

phonemes.fix - словарь замен для коррекции транскрипций

Формат правил словаря:
транскрипция1=транскрипция2

Важно! Сортировка такая же как и в *.ini - правила применяются последовательно один за другим:
Код:
#@ l=#V2 l
#@ m=#V2 m
#@ n=#V2 n
#@ p=#V2 p
Для выделения только части слова для замены в правиле можно использовать теги начала и окончания слова <w></w>
Цитата :
<w>слово</w>
<w>#s l o1 v @</w>
Код:
<w>слов=<w>#s l o1 v#
<w>сло=<w>#s l o1#
ово</w>=#@ g @#</w>
во</w>=#g @#</w>
Код:
<w>#s l o1 v=<w>#s l o2 v
<w>#s l o1=<w>#s l o2
@ g @</w>=@ v @</w>
g @</w>=v @</w>

Формат фонетических транскрипций
Русская текстово-речевая система от Acapela использует подмножество фонетического алфавита (Speech Assessment Methods Phonetic Alphabet) или SAMPA. Только SAMPA может использоваться в фонетических транскрипциях. Символы не указанные ниже считаются неправильными, и будут проигнорированы при их включении в лексикон.

Символы SAMPA пишутся с пробелом после каждой фонемы. Единственная кавычка « ' » после согласных, указывает на смягчение согласных. Числа «1» и «2» после гласных указывают на первостепенный и второстепенный лексический акцент (иногда называемый «word-stress».

Лексический акцент

Лексический акцент указывает уровень выступа (или акцента) слога в слове. В русском языке, некоторые слова могут различаться позицией этого лексического акцента. Например, слово замок имеет два значения, в зависимости от позиции лексического акцента в слове:
Код:
зАмок: /z A1 m @ k / замОк: /z V m o1 k /
Практически все слова в русском языке имеют лексический акцент даже если он не всегда различается. Следовательно, важно включать лексические метки акцента при написании фонетических транскрипций.

В фонетических транскрипциях, первичный акцент указан символом «1» непосредственно после (без пробела) акцентированной гласной. Второстепенный акцент указывается символом «2». Примеры:
Код:
Представитель / p r’ $ t s t V v’ i1t’ $ l’ /
Спецпредставитель / s p e2 ts p r’ $ t s t V v’ i1 t’ $ l’ /

Символ «1» в русском языке имеет два значения: символ SAMPA для гласной /1/ (буква «ы»), и первичный лексический акцент. Символ первичного лексического акцента «1» всегда следует за символами гласной без пробела во второй позиции, и различается звуком SAMPA. Например /11/ в /v 11 t / отражает звук «ы» под первичным лексическим акцентом «1».

Горловые паузы

Горловые паузы представлены фонетическим символом
Код:
/?/
(вопросительный знак), - небольшим дополнительным звуком, произведенным в горле. Часто используется, для разделения двух слов, когда второе слово начинается с напряженной гласной. Этот звук включается в транскрипцию для чистоты произношения.

Например, высказывание «ну а он» может произноситься бегло без паузы
Код:
/n U V o1 n/
или более ясно, с одной или двумя паузами
Код:
/n U? V? o1 n /

Пауза

При использовании дополнительно подключенного лексикона для запрета чтения разделительных знаков символы
Код:
’—¦«»"'()-/<>[\]^_`{|}~
в тексте генерируют небольшую паузу.
В фонетической транскрипции небольшую паузу генерирует только символ
Код:
/ _ /
(подчеркивание).

Не кириллический ввод

Слова, написанные латинскими символами произносятся в соответствии с правилами American English, но с русскими звуками (как будто говорит по-русски с сильным акцентом).

Фонетическая транскрипция
Цитата :
ГласныеСогласные
а
е
ё
и
о
у
ы
э
ю
я

А
Е
Ё
И
О
У
Ы
Э
Ю
Я





@
$
9
$
@
U
I
e
}
{

A1
e1
91
i1
o1
u1
11
E1
}1
{1





б
в
г
д
ж
з
й
к
л
м
н
п
р
с
т
ф
х
ц
ч
ш
щ
ъ
ь


b
v
g
d
Z
z
j
k
l
m
n
p
r
s
t
f
x
ts
tS'
S
S'





Справочка:

Быстрое построение ударений к большому количеству слов с помощью программы "книгодел"
Для быстрой расстановки ударений в большом списке слов удобно и просто использовать программу "книгодел". Для этого необходимо:
  • подготовить список слов предварительно сформированный в транскрипторе;
  • установить программу (достаточно просто загрузить и распаковать - программа не требует установки);
  • скопировать в папку с программой файл настроек для расстановки ударения в формате аленки;
  • запустить программу, нажать F6 и выбрать список слов;
  • результат расстановки будет сохранен в файле с приставкой "_pre" в названии;
  • далее можно загрузить полученный результат в транскриптор, и быстро удалить\отфильтровать слова без\с ударениями (меню→форматирование→).


Быстрый поиск омографов
При построении транскрипций слова имеющие более одного грамматического атрибута могут иметь больше одного варианта ударения. Для быстрого поиска таких слов можно включить фильтрацию в настройках фильтра грамматических атрибутов (слова только с двумя и более грамматическими атрибутами).
Все ошибки и\или замечания пишите, пожалуйста, здесь.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Пт Мар 16 2012, 06:01
Пт Мар 16 2012, 06:01

добавлена новая функция - "сравнить"
сравниваются две транскрипции: полученная с помощью транскриптора и непосредственно самим голосовым движком с учетом подключенных лексиконов (программа построения транскрипций от Ajaja)
если они отличаются то выводится результат в виде
Цитата :
слово #транскриптор #движок

также доступна смена голоса для разных голосовых профилей

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Пт Мар 16 2012, 21:38
Пт Мар 16 2012, 21:38

добавлена морфология - автоматическое определение части речи слова в формате лексикона (программа морфологического анализа mystem от Яндекс)
Цитата :
прилагательное
наречие
местоименное наречие
порядковое числительное
местоименное прилагательное
часть композита (первая часть сложных слов)
союз
междометие
числительное
частица
предлог
существительное
местоимение
глагол
ADJECTIVE
ADVERB
ADVERB
ORDINAL
ADJECTIVE
CONTRACTION
CONJUNCTION
INTERJECTION
CARDINAL
QUANTIFIER
PREPOSITION
NOUN
PRONOUN
VERB

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Сб Мар 17 2012, 23:23
Сб Мар 17 2012, 23:23

обновление:
- исправлены ошибки;
- ускорена работа;
- для замен в словарях теперь можно использовать теги начала и окончания слова <w>слово</w> или <w>#s l o1 v @</w>;
Код:
<w>слов=<w>#s l o1 v#
<w>сло=<w>#s l o1#
ово</w>=#@ g @#</w>
во</w>=#g @#</w>
Код:
<w>#s l o1 v=<w>#s l o2 v
<w>#s l o1=<w>#s l o2
@ g @</w>=@ v @</w>
g @</w>=v @</w>
- быстрый фильтр с\без учета регистра;
- открытие небольших, до 1Мб но может быть и больше, надо проверить Suspect текстовых файлов с последующим преобразованием всего содержимого в список слов;

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Пн Мар 19 2012, 22:49
Пн Мар 19 2012, 22:49

обновление:
- вместо кнопочек теперь меню;
- добавлено построение только транскрипции для списка слов с учетом подключенных лексиконов (ударение не учитывается);
- добавлены индикаторы количества списка слов, слов без ударений в этом списке, транскрипций и омонимов (тут транскрипций слов у которых больше одного грамматического атрибута)
- добавлены различные способы сохранения полученных транскрипций;
- добавлен фильтр грамматических атрибутов для сортировки транскрипций по требуемым параметрам;

- добавлена поддержка списка исключений (слова которые автоматически будут отфильтровываться из списка слов), список содержится в файле ignore.txt (регистр букв при проверке не учитывается)
при обработке большого списка слов (от 10 тыс. и больше), если список исключений очень большой то возможно существенное увеличение времени обработки
поэтому можно либо подождать :sleep:, отключить обработку списком исключений
(убрать галочку меню-словари-словарь исключений), или уменьшить\удалить.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Чт Мар 22 2012, 03:48
Чт Мар 22 2012, 03:48

обновление:
- все обновляется теперь само Smile и программа и словари (после первого запуска программа загрузит и установит все необходимое ~ 10Mb);
- интегрирован функционал myTTS AccentFixer Shell;
- ускоренна обработка очень больших списков;
- добавлен индикатор времени выполнения замены;
- добавлено сохранение в формат готовый для импорта в лексикон (без ударения в словах и с одним грамматическим атрибутом если их несколько).

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Пт Мар 23 2012, 22:40
Пт Мар 23 2012, 22:40

обновление:
- добавлено вычитывание слов (vlex)

Цитата :
1 - поле для подстановки слова
2 - поле для подстановки транскрипции (с учетом фонетических словарей)
3 - список слов для чтения
4 - громкость
5 - скорость чтения
6 - голосовой профиль
7 - остановка чтения
8 - открыть список слов
9 - сохранить стоп-список
10 - открыть Lexicon Manager
11 - количество слов в списке
12 - количество повторов слова при чтении
13 - пауза между чтением
14 - добавить слово в стоп-список
15 - префикс
16 - скопировать слово и транскрипцию в Lexicon Manager
17 - стоп-список
18 - суффикс
  • для копирования слова и его транскрипции в окно Lexicon Manager нужно чтобы он (Lexicon Manager) был предварительно открыт\запущен;
  • транскрипция копируемая в Lexicon Manager (2) строится с учетом фонетического словаря и словаря замен для коррекции транскрипций;
  • слово копируемое в Lexicon Manager (1) передается без учета ударения (строчными буквами);
  • стоп-список это список слов, которые нужно отделить\выделить из общего списка по какой-либо причине (как заметки);
  • префикс и суффикс это символы и\или текст которые будут добавляться в начале и\или конце каждого слова автоматически при чтении;
  • пауза между чтением задается в миллисекундах.

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Пн Мар 26 2012, 17:08
Пн Мар 26 2012, 17:08

обновление:
- добавлено форматирование списка слов:
Цитата :
  • Сортировать слова по длине (по убыванию)
  • Сортировать слова по длине (по возрастанию)
  • Сортировать по алфавиту от А до Я
  • Сортировать по алфавиту от Я до А
  • Все буквы строчные
  • Заглавными только гласные
  • Заменить Ё на Е
  • Удалить слова написанные через дефис
  • Оставить только слова написанные с большой буквы

Вернуться к началу Перейти вниз
ptoton
Бывалый
avatar


Сообщений : 108
Репутация : 25

 ptoton :: Пн Мар 26 2012, 20:56
Пн Мар 26 2012, 20:56

почему-то Транскриптор после обновления опять пишет: доступно обновление программы. установить?

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Вт Мар 27 2012, 00:48
Вт Мар 27 2012, 00:48

ptoton пишет:
почему-то Транскриптор после обновления опять пишет: доступно обновление программы. установить?
да, ну просто сегодня и было обновление Smile
программой после выбора "проверить обновления" проверяются обновления для файлов:
Цитата :
  • transcriptor.exe (сама программа - с уведомлением если новый)
  • update.ini (список ссылок для проверки обновлений - с уведомлением если новый)
  • updater.exe (установщик обновлений - без уведомления если новый)
  • vlex.exe (модуль вычитывания - без уведомления если новый)
  • phonemes (словарь фонем - без уведомления если новый)
  • phonemes.fix (словарь корректор - без уведомления если новый)
все что без уведомления обновляется само по-тихому, поэтому если были правки в словарях перед обновлением лучше будет сохранить копию, на всякий пожарный Rolling Eyes

если после первого запуска программа "долго думает" то скорее всего она загружает необходимые ей файлы. всего в сумме папка с программой занимает около 18Мб
если есть проблемы со связью и частые обрывы и прочее безобразие то нужно просто скачать и распаковать в папку с программой все файлы ссылки на которые есть в файле update.ini

структура папки с программой transcriptor\:
Спойлер:
 

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Пт Апр 06 2012, 02:31
Пт Апр 06 2012, 02:31

обновление:
- добавлено сравнение списков слов (vlist):

Цитата :
  • Найти слова, которые есть в обоих списках
  • Найти слова, которые есть лишь в одном из списков
  • Найти слова, которые есть в первом списке и отсутствуют во втором списке
  • Найти слова, которые есть во втором списке и отсутствуют в первом списке
  • Найти слова, которые присутствуют в любом из списков (сумма списков)
  • Удалить в первом списке строки в которых есть слова из второго
  • Удалить в первом списке строки в которых нет слов из второго
  • Объединить следом первый и второй списки
  • Объединить вокруг первый и второй списки

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Чт Апр 12 2012, 21:18
Чт Апр 12 2012, 21:18

обновление:
- добавлена Regex песочница (PCRE) (vregexp):

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Пт Апр 13 2012, 22:06
Пт Апр 13 2012, 22:06

обновление:
- заменена программа морфологического анализа mystem от Яндекс; для обновления старой версии нужно запустить обновление меню→обновление→проверить обновление, удалить файл mystem.exe и перезапустить программу

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Пн Апр 16 2012, 02:20
Пн Апр 16 2012, 02:20

обновление (vlist):
- добавлена поддержка регулярных выражений :prelest:
Цитата :
Удалить в первом списке строки в которых есть слова из второго (RegExpMatch)
Удалить в первом списке строки в которых нет слов из второго (RegExpMatch)

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Сб Июн 01 2013, 22:02
Сб Июн 01 2013, 22:02

все тоже самое что и для проверялки - перед запуском программы скопировать файл transcriptor.ini из шапки рядом с программой и обновиться

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Пт Июн 07 2013, 19:54
Пт Июн 07 2013, 19:54

для тех у кого слабенький интернет ссылка заменена на полный комплект - только распаковать и запустить
ну и предварительно обновить словари Wink

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 627
Репутация : 208

 evmir_troll-hunter :: Ср Июн 26 2013, 18:05
Ср Июн 26 2013, 18:05

Порядок расположения правил в phonemes очень важен. Реализовано 2 режима сортировки - Старый и Новый. К сожалению оба не учитывают теги <w>, </w>, и размещают правила с ними не так как нужно.

В будущем, программная сортировка будет удалена, пока же рекомендуется ею не пользоваться!
Отсортировано вручную, всё работает как следует, обновите.

Вернуться к началу Перейти вниз
basist
Гость
avatar



 basist :: Чт Ноя 28 2013, 01:29
Чт Ноя 28 2013, 01:29

Цитата :
обновление:
- добавлено вычитывание слов (vlex)
Хорошо бы реализовать функцию "копировать-вставить" в окно списка для быстрой обработки.
Цитата :
обновление (vlist):
Как пользоваться разделителем? Позволяет ли он создавать два списка из одного, например:
Спойлер:
 
с разделителем ";" ?
И ещё, хотелось бы какую-нибудь более подробную справочную информацию по возможностям использования программы, т.е. что даёт та или иная функция меню.
Чувствую, что вещь очень хорошая, но не умею пользоваться, а хочу научиться. Спасибо!

Вернуться к началу Перейти вниз
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: Сб Ноя 30 2013, 16:43
Сб Ноя 30 2013, 16:43

Цитата :
Как пользоваться разделителем?
разделитель служит только для пункта "объединить следом первый и второй списки"
если есть первый список:
Код:
1
2
3
и второй:
Код:
3
2
1
и разделитель =
то результат будет
Код:
1=3
2=2
3=1
Цитата :
Позволяет ли он создавать два списка из одного
нет, это можно сделать в vregexp (Regex песочница):
Код:

первый
(\V+)\;(\V+)=$1
второй
(\V+)\;(\V+)=$2
Цитата :
И ещё, хотелось бы какую-нибудь более подробную справочную информацию по возможностям использования программы
ну там вроде бы все понятно - все операции с двумя списками
единственное чего я не помню - это "точное совпадение" на что оно влияет, но оно у меня включено изначально.

Вернуться к началу Перейти вниз
Dimsok
Участник


Сообщений : 55
Репутация : 1

 Dimsok :: Чт Май 12 2016, 13:47
Чт Май 12 2016, 13:47

У кого-нибудь осталась эта штука? Да, и почему нельзя выкладывать всё одним архивом, а не по нескольку ссылок давать для каждого файла настройки или словаря.

Вернуться к началу Перейти вниз
evmir_troll-hunter
Admin
avatar


Сообщений : 627
Репутация : 208

 evmir_troll-hunter :: Чт Май 12 2016, 15:37
Чт Май 12 2016, 15:37

Ссылки исправлены...
Программа создана одним, настройки (редактируемые) - другими. Труд совместный, поэтому и ссылки разные.

Вернуться к началу Перейти вниз
Спонсируемый контент




 Спонсируемый контент ::


Вернуться к началу Перейти вниз

Транскриптор

Предыдущая тема Следующая тема Вернуться к началу
Транскриптор
Страница 1 из 1Страница 1 из 1
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении