Транскрипция текстов при синтезе и анализе русской речи

V.I.P. Сообщений : 184 Репутация : 7

Транскрипция текстов при синтезе и анализе русской речи
Л.М. Захаров

Необходимой частью систем автоматического синтеза и анализа речи яв-ляется транскриптор – своеобразное связующее звено между буквами письмен-ного текста и соответствующей акустической волной, возникающей при озвучи-вании данного текста (человеком или машиной).

Основное требование, предъявляемое к системе транскрипционной запи-си, очевидно – разным звукам (в акустическом и перцептивном смысле) должны соответствовать разные знаки и, наоборот, одинаковым звукам – одинаковые знаки транскрипции.

Однако смысл, который вкладывается в понятие “одинаковый”, зависит от конкретной практической задачи. Известно, что как нельзя войти в одну воду дважды, так нельзя произнести (в акустическом смысле) одинаково одну и ту же фразу. Даже если это будет делать один человек. Понятно, что невозможно соз-дать транскрипционную систему, адекватно отражающую все особенности кон-кретного произнесения. Поэтому транскрипционная система записи по-своему фонологична – важно с ее помощью отличить звуки одного типа, обладающего определенным смыслом, от звуков другого типа.
Количество знаков транскрипции зависит от поставленной задачи – на-сколько точно и подробно необходимо разделить звуки, даже те, которые при-надлежат к одному звукотипу (согласно теоретическим фонетическим описани-ям).

Аллофонная база синтеза включает в себя 667 элементов. Каждый элемент имеет имя – шестизначное число. Можно (достаточно условно) назвать эти числа своеобразной аналитической транскрипцией, в которой закодирован как сам аллофон, так и его окружение, т.е. указан тип звуков, определенным образом меняющий звучание данного аллофона (и, соответственно, его акустическую картину). Всего используется 55 элементов для имен собственно аллофонов (т.е. кодируется 55 знаков транскрипции). Исходя из принципов кодировки, макси-мальное число элементов, входящих в такую базу равно 55 3 минус запрещенные русским языком сочетания звуков – это в том случае, если учтены все возможные комбинации звука с левым и правым соседом.
Задачей проведенных исследований было определить набор и количество собственно транскрипционных знаков (в результате их оказалось 55exp(3)), т.е. набор элементов для упрощенной фонетической транскрипции.

Это кажется странным, но мы не обнаружили систему транскрипции, ко-торая бы нас устроила полностью в части безударного вокализма. Транскрипции (упрощенные фонетические), которые предлагают в своих работах наиболее ав-торитетных ученые-фонетисты (Р.И. Аванесов, М.И. Матусевич, М.В. Панов), различаются в деталях. Более того, в лучшей книге по орфоэпии (Р.И. Аванесов “Русское литературное произношение”) транскрипция разная в зависимости от издания – при этом транскрипция в последних изданиях не кажется нам более удачной.

Была предпринята попытка создать свой вариант, проведя исследования для спорных случаев транскрибирования.

Исследовалось несколько позиций:

1. Подвергаются ли качественной редукции звуки [и], [ы] в безударном положении, т.е.
1.1. Одинаково ли произносятся звуки в безударном положении на месте орфографических е, я, и после мягких согласных.
1.2. Одинаково ли произносятся звуки в безударном положении на месте орфографических е, а, о, ы после твердых согласных.
2. Какой звук произносится на месте орфографического э в позиции абсо-лютного начало слова.
3. Какая степень редукции в открытых абсолютных концах слов.
4. Подвергается ли качественной редукции звук [у] в безударном положе-нии.
5. Что означает знак [^] на месте орфографических а, о при I степени ре-дукции.

V.I.P. Сообщений : 184 Репутация : 7

Исследования по пунктам 3., 4. и 5. проводились с помощью сонографиче-ского анализа (сонограф фирмы Key Elemetrics) и с помощью различных звуко-вых редакторов на ЭВМ.
Было установлено, что в открытых абсолютных концах слов – I степень редукции. (3.)

Что звук [у] в безударном положении подвергается качественной ре-дукции и для обозначения I и II степеней редукции были приняты обозначения [у1] и [у2] (соответственно). В терминах акустической фонетики F2 и F1 смещаются незначительно вверх при I степени редукции и в большей мере при II степени редукции. (4.)

Что знак [^] на месте орфографических а, о при I степени редукции не стоит употреблять, т.к. [^] обозначает неогубленное [о] и при редукции ударного [á] свидетельствовал бы о продвижении языка назад и вверх. На самом деле спектрографический анализ показывает, что движение языка происходит вперед и вверх (при этом весьма незначительное). В терминах акустической фонетики F2 смещается (незначительно) вверх, а не вниз, что было бы характерно для [^]. Поэтому I степень редукции для орфографических а, о можно обозначать [а]. (5.)

Исследования по пункту 1., 2. и (частично) 3. проводились методом “ми-нимальных пар”, т.е. подбором специальных пар слов, отличающихся только ис-следуемым звуком. Например:
мелá – милá, предáм – придáм, спешý – спишý, прядý – придý, подлецóм – под лицóм и т.д. (I степень редукции): [и е] или [и]. (1.1.);

частотá – чистотá, метропóлия – митропóлия, кáтет – кáтит, óтчем – óтчим, óземь – óзимь и т.д. (II степень редукции): [ь] или [и]. (1.1.);

прожевáл – проживáл, желáя – жилáя, сценичным – с циничным, под эмáли – подымáли и т.д. (I степень редукции): [ы е], [э ы] или [ы]. (1.2.);

жерновá-то – жирновáта, нóжек – нóжик, сýжена – с ýжина, полевáя – пылевáя, краболóву – к рыболóву и т.д. (II степень редукции): [ъ] или [ы]. (1.2.);

эскáдра – из кáдра, эскóрта – из кóрта, эскáрпа – из кáрпа, эмигрáнт – иммигрáнт (в произнесении с одинарным [м’]), эпоним – и по ним: [и], [ы] (или еще что-то) или [э]. (2.);

ýлица – ýлице – ýлицы (при этом триада распадается на три пáры), о дéле – одéли и т.д. [ъ], [ь] или [а], [э], [ы], [и]. (3.).

Если пáры не различаются – то может использоваться один знак транс-крипции. Если пáры различаются – то надо использовать два разных знака транскрипции для обозначения двух разных звуков.

Эксперимент проводился следующим образом: материал (список мини-мальных пар) был записан на магнитную ленту в произнесении нескольких дик-торов и затем предъявлялся группам аудиторов для прослушивания.

Здесь необходимо более подробно изложить методику проведения экспе-римента, поскольку проблемы, которые решались в этом исследовании, харак-терны вообще для работы со звучащей речью.

1. Проблема подбора достоверного материала.
– Здесь все зависит от мастерства, трудолюбия и профессиональных зна-ний исследователя.

2. Проблема выбора объема материала.
– Объем должен быть достаточным, чтобы при обработке результатов бы-ла получены статистически достоверная информация. В нашем случае мы были ограничены в объеме – не так просто придумать минимальные пáры для опреде-ленных позиций. Объем колебался от 5 до 20 пар на каждую позицию (всего 256 слов).

3. Проблема получения достоверного материала при записи распадается на несколько проблем.

3.1. Поиск диктора, владеющего нормативным произношением (в нужном варианте – здесь важно и его происхождение, и место проживания), ко-торый должен обладать навыками свободно говорить в студии, держать выбран-ный тембр, темп и громкость произнесения. В нашем случае возникла еще одна проблема. Как видно из приведенных примеров, членами пар были не просто слова в общеупотребимом понятии (т.е. словарная форма слова), а фонетические слова, т.е. слова с предлогами, частицами и иногда даже союзами. Диктор дол-жен был произнести их так же естественно (и слитно!), как это происходит в ре-чи. Большáя проблема – запись естественной речи (т.е. диктор должен говорить, а не читать). Чтение – это лишь имитация устной речи (не всегда удачная). С другой стороны, получить качественную запись (учитывая дальнейшие экспери-менты) можно лишь в студийных условиях. В нашем случае можно было читать, т.к. основное применение автоматического синтеза – чтение (например, для слепых). Стояла также проблема выбора – произносить ли отдельные слова или вставить их в, так называемые, “рамочные конструкции” типа: “Надо произнести ... три раза”, имитирующие естественную речь (мы не говорим отдельными словами, делая паузу между ними). Слитная речь подвержена большей редук-ции. Нас устраивало пословное произнесение – эксперимент оказывался более строгим. Лучше, чтобы диктор не был специалистом в лингвистике – существует опасность, что он поймет цель, которую преследует исследователь, и чистота эксперимента будет потеряна.

3.2. Принцип подачи материала диктору – важно, чтобы диктор не “подтасовывал” материал (см. 3.1.). В нашем случае нельзя было давать на про-чтение именно пáры слов. Все списки слов были организованы так, чтобы на одном листе не встречалось ни одной пáры. Диктору давался только один лист (50 слов), после прочтения лист отбирался и выдавался следующий.

V.I.P. Сообщений : 184 Репутация : 7

4, Проблема получения достоверного материала при ответах также распа-дается на несколько проблем.

4.1. Поиск аудиторов, владеющего нормативным произношением (в нужном варианте – здесь важно и его происхождение, и место проживания). Желательно, чтобы группы были однородны в возрастном и образовательном смысле – обычно усредняются результаты внутри группы. У нас аудиторы были студентами разных курсов филологического факультета.

4.2. Проблема “угадывания” смысла аудиторских занятий снима-лась нами следующим образом. Каждой группе материал предъявлялся тремя разными способами:

4.2.1. В том порядке, как читал диктор (пáры не встречались на одном листе), с просьбой зафиксировать то, что услышали, используя орфо-графическую запись. При этом учитывалось, что при выборе слува большое зна-чение имеет частотность употребления его в языке и ряд других факторов, имеющих случайный характер.

4.2.2. Аудиторам выдавались бланки с напечатанными на них пáрами слов и аудитор должен был (сначала прочитав, а затем прослушав) просто подчеркнуть тот вариант, который по его мнению был произнесен (фик-сированный выбор).

4.2.3. Предъявлялись пáры (предварительно смонтирован-ные на магнитной ленте) слов и аудитор должен был записать их. При этом в инструкции говорилось, что в материале встречаются (без указания количества) как собственно пáры (т.е. разные слова), так и разные произнесения одного и того же слова (для контроля было действительно сформировано несколько пар раз-ного произнесения одного и того же слова).

4.3. Количество аудиторов должно в итоге дать статистически достоверные результаты. В нашем случае было три группы по пять человек в каждой.

5. Обсчет и оценка результатов.
– Для того, чтобы понять, как оценивать результаты такого необычного материала, в него был включен ряд пар, которые заведомо одинаково произно-сятся:

5.1. См. пункт 4.2.3.

5.2. Пáры типа по лáтам – палáтам, мечéй – мячéй, в иступлéнии – выступлéнии и т.д.
Наиболее достоверными считались результаты из серий 4.2.2. и 4.2.3. Ес-ли суммарное количество правильных и неправильных ответов в пáрах совпада-ло или расходилось не более, чем на 25 % – признавалось, что для данной пáры звуков можно использовать один знак транскрипции. Если расхождение оказы-валось бóльшим, чем на 50 %, признавалось, что это два разных звука и надо ис-пользовать два разных знака транскрипции. При расхождении от 25 до 50 % во-прос требовал бы дополнительного изучения – в наших экспериментах (в сериях 4.2.2. и 4.2.3.) такого случая не встретилось.
В рамках данного эксперимента было проведено исследование безударно-го вокализма с помощью другого метода. Были представлены на прослушивание слова, которые или были неизвестны (по нашему мнению) аудиторам, или, по крайней мере, должны были вызвать при записи этих слов затруднения в орфо-графии.

Это 8 слов: паронихия, палимпсéст, перидинéи, пенеплéн, кожимит, палинóдия, стивидóр, пиренóид.
В сеансе 4.2.1. надо было просто записать слово, в сеансе 4.2.2. надо было вставить пропущенные буквы (которые соответствуют подчеркнутым).

Результаты полностью нас удовлетворили. В некоторых словах оказалось почти стопроцентно неправильное написание (* кожемит, * переноид). Однако результаты данного эксперимента менее ценны, чем результаты предыдущего (особенно в 4.2.2. и 4.2.3.) по двум причинам:

1) дикторов просили читать эти слова, как обычные русские, – на самом деле слова такого рода обычно произносятся с меньшей редукцией, чем слова обычного лексикона русского языка;

2) очень большое влияние на аудиторов оказывают правила русской орфографии – аудитор пытается угадать морфемный состав слова и использует типичные морфемы для записи данного слова.

Впрочем, ценно то, что результаты второго эксперимента полностью под-твердили результаты первого.
После этих исследований была принята транскрипция безударных глас-ных, которая оказалось очень простой. Ее легко представить в виде схем.

Транскрипция текстов при синтезе и анализе русской речи 15381664lj5