Искусственный голос и синтез речи - 语音合成
Вы хотите отреагировать на этот пост ? Создайте аккаунт всего в несколько кликов или войдите на форум.


语音合成技术和文本语音转换 - Synthetic voice and Text to Speech technology - Синтетический голос и технологии преобразования текста в речь
 
TTS книги  Проверялка  ФорумФорум  Последние изображенияПоследние изображения  RSS  ПоискПоиск  РегистрацияРегистрация  ВходВход  

Программный пакет синтаксического разбора и машинного перевода Cognitive Dwarf

Предыдущая тема Следующая тема Перейти вниз
АвторСообщениеПрограммный пакет синтаксического разбора и машинного перевода Cognitive Dwarf
bot
Гость


Сообщений : 317
Репутация : 12

Программный пакет синтаксического разбора и машинного перевода Cognitive Dwarf WAAACH5BAEAAAAALAAAAAABAAEAAAICRAEAOw==
 bot :: Сб Мар 05 2011, 16:35
Программный пакет синтаксического разбора и машинного перевода Cognitive Dwarf FT09PX19cfHx+Pj4wAAAAAAAAAAACH+OjxDT1BZPkNvcHlyaWdodCAyMDA0IFRoZSBwaHBCQiBHcm91cCwgQWxsIFJpZ2h0cyBSZXNlcnZlZC4AIfkEAQAADQAsAAAAAAsACQAABCmwNUCpvDNoi4EWVUcQCEIAnaAKDHoBSnIchisBSaEP9mQMgwWvUwk1IgA7Сб Мар 05 2011, 16:35

Программный пакет синтаксического разбора и машинного перевода (Cognitive Dwarf)
Программный пакет синтаксического разбора и машинного перевода Cognitive Dwarf Image001gd
http://www.cognitive.ru
31 Cognitive Dwarf 1.0
31 Cognitive Dwarf 1.0 (зеркало)

Введение
Описываемый программный пакет включает в себя синтаксический анализатор для русского и английского языков и систему автоматического перевода (русско-английское и англо-русское направления).

Возможны следующие применения пакета:
- сбор статистики о встречаемости слов и конструкций в языке; построение статистических моделей языка;
- сравнение встречаемости различных слов и конструкций в различных текстах;
- эксперименты по разрешению неоднозначностей, возникающих во время синтаксического разбора;
- эксперименты по разрешению неоднозначностей, возникающих во время выбора вариантов перевода при машинном переводе.
- другие приложения, в которых требуется синтаксический разбор и/или машинный перевод текстов.

В настоящее время реализовано консольное приложение, предоставляющее доступ к функциям пакета. На вход этому приложению поступает файл с текстом на русском или английском языке. Допустимые кодировки Windows-1251 или кириллица(DOS). Результат работы консольного приложения сохраняется в выходном файле, который в зависимости от параметров запуска может содержать следующее:
- список слов с текстами нормальных форм и морфологическими атрибутами;
- список синтаксических связей;
- дерево синтаксического разбора;
- перевод на другой язык.

1. Стадии обработки текста
Можно выделить следующие стадии обработки текста:
- сегментация;
- морфологический разбор;
- синтаксический разбор;
- машинный перевод.

1.1. Сегментация.
Текст разбивается на слова и предложения. Кроме собственно слов выделяются знаки препинания, цифры и другие последовательности специальных символов, которые могут присутствовать во встречающихся на практике текстах.

1.2. Морфологический анализ.
На стадии морфологического анализа для каждого из слов строится список вариантов нормализации. Каждому варианту нормализации соответствует набор атрибутов и текст нормальной формы, которыми исходное слово может обладать. Более подробные сведения об используемых атрибутах содержатся в описании синтаксического разбора.

1.3. Синтаксический разбор.
На стадии синтаксического разбора принимается решение, какие из вариантов нормализации в действительности соответствуют словам из исходного текста, и строятся синтаксические связи между словами. После этого на основе синтаксических связей строится дерево синтаксического разбора. Более подробные сведения о синтаксических связях содержатся в описании синтаксического разбора.

Таким образом, в результате синтаксического разбора получаются:
- список слов, каждому слову сопоставлен текст нормальной формы и набор атрибутов;
- список синтаксических связей между словами предложения;
- дерево синтаксического разбора.

1.4. Построение дерева разбора.
При построении дерева синтаксического разбора в слова и связи иногда могут вноситься некоторые (незначительные) изменения, т.е. в общем случае слова и связи из дерева разбора могут немного отличаться от тех, которые входят в список слов и список связей.

В дереве разбора вводится дополнительный самый верхний узел (Top). В случае, если всё предложение разобралось целиком, этому верхнему узлу прикрепляется дерево разбора, соответствующее предложению. Если в результате разбора предложение разделилось на несколько частей, между которыми отсутствуют синтаксические связи, то к верхнему узлу Top присоединяются деревья, соответствующие этим частям.

Во время синтаксического разбора связью '+' соединяются слова, входящие в перечисление. При построении дерева создается переходник, т.е. узел дерева разбора, которому не соответствует ни одно из слов исходного предложения. Связи '+' перенаправляются к этому переходнику. Кроме того, одно из слов, входящих в перечисление, может входить в качестве подчиненного слова в связь '<' или '>'. От этого слова узел-переходник заимствует атрибуты и текст. В случае, если узел-переходник является самым верхним в дереве, т.е. ни одно из слов перечисления не входит ни в какую связь в качестве подчиненного слова, атрибуты узла-переходника заимствуются от любого из слов, входящих в перечисление.

1.5. Машинный перевод
При необходимости исходный текст может быть переведен на другой язык.

2. Консольное приложение
2.1. Описание параметров вызова

Вызов программы:
Код:
wrf.exe [параметры]

Параметры:


e

входной язык - английский

h

распечатать подсказку

dos

входной файл в кодировке кириллица(DOS)

i

в качестве входного файла использовать стандартный поток ввода

i:имя_файла

имя входного файла

o:имя_файла

выходной файл

a:имя_файла

выходной файл (открывается на добавление)

lc:имя_файла

имя файла для сообщений об ошибках

la:имя_файла

имя файла для сообщений об ошибках (открывается на добавление)

Параметры, определяющие содержимое
выходного файла:


txt

выводить результат в текстовом виде (отличном от того, что по умолчанию)

xml

выводить результат в виде xml-файла

w

список слов с атрибутами

k

список связей

n

дерево разбора

t

результат перевода

По умолчанию считается, что:
- входной язык русский в кодировке Windows-1251;
- результат работы сохраняется в текстовом формате;
- в качестве выходного файла используется стандартный поток вывода;
- в выходной файл сохраняются список слов, список связей, дерево разбора и результат перевода.

Независимо от кодировки входного файла в выходном файле всегда используется кодировка Windows-1251. Допускается сразу несколько параметров, описывающих содержимое выходного файла.

Перед параметрами можно указывать знак ‘-‘ (минус) или знак ‘/’ (косая черта), например:
Код:
wrf.exe -i:en.txt -o:out.txt -e -n -w -k
Значение параметров в данном примере следующее: входной текст необходимо брать из файла en.txt, результат работы сохранить в файл out.txt, входной язык – английский, в выходной файл необходимо сохранить дерево разбора, список слов с атрибутами и список связей.

Значения тегов, используемых при сохранении результатов работы в виде XML-файла.

Text

список предложений, т.е. весь
входной текст

Sentence

предложение, может содержать списки слов и связей, дерево разбора и результат перевода

WordList

список слов

Word

одно слово. Содержит список атрибутов слова

Norm

текст нормальной формы слова (в нижнем регистре)

Form

текст слова так, как оно встретилось в предложении (в нижнем регистре)

POS

атрибут слова с наименьшим номером. Как правило, это часть речи слова

Attribute

морфологический атрибут слова

LinkList

список синтаксических связей между словами в предложении

Link

одна синтаксическая связь

Sign, LeftTag, RightTag

части имени синтаксической связи

LeftWord

левое по тексту предложения слово, входящее в синтаксическую связь

RightWord

правое по тексту предложения слово, входящее в синтаксическую связь

Root

корень дерева синтаксического разбора

Node

узел дерева синтаксического
разбора

Translation

результат перевода

2.2. Системные требования.
Для запуска пакета необходим компьютер с ОС Windows и с 256 Мбайт оперативной памяти.

2.3. Ограничения.
Размер входного файла не более 2 Мбайт.

2.4. Скорость работы.
В случае, если выполняется синтаксический разбор текста, время обработки входного файла размером 32 Кбайт приблизительно 10 сек на компьютере с процессором Pentium 4 (2.40GHz). Если выполняется ещё и машинный перевод, то время обработки такого файла составляет приблизительно 25 сек. Время работы определяется не только размером входного текста и производительностью процессора, но и тем, как быстро происходит загрузка словарей в оперативную память в начале работы приложения.

3. Интерпретация результатов синтаксического разбора
Далее более подробно описывается выполняемый программным пакетом поверхностно-синтаксический анализ текста. Используемое синтаксическое описание основано на отношениях зависимости между словами (Dependency Theory). Зависимости обозначаются при помощи имен связей, каждое из которых состоит из двух тегов – один относится к синтаксической роли зависимого слова, а другой – к синтаксической категории главного слова.
Программный пакет синтаксического разбора и машинного перевода Cognitive Dwarf Image002rm
Рисунок 1. Зависимости в предложении I like this book.

Ниже приводится упрощенный пример, где связь между I и like означает, что I зависит от like и его синтаксическая роль - подлежащее (subject). Точно так же this зависит от book, и его синтаксическая роль - определитель (determiner). Book зависит от like как прямое дополнение.

3.1. Информация на выходе синтаксического разбора
Выходная информация синтаксического разбора включает:
- множество слов с их грамматическими атрибутами;
- набор связей, которые были установлены для входного предложения;
- дерево разбора.

Графическое представление дерева разбора на рисунке 1 может быть записано в текстовом виде:
Код:
    like / like
        (subj_es > fin_es)  i / i
        (fin_es < sm_es)  book / book
            (det_es > noun_es)  this / this

Это дерево, в свою очередь, строится по набору связей:
Код:
i like (subj_es > fin_es)
like book (fin_es < sm_es)
this book (det_es > noun_es)

3.1.1. Синтаксические связи
В любой синтаксической связи участвуют только два элемента.
Код:
i like (subj_es > fin_es)
Каждое имя связи состоит из трех частей:
- тег для левого слова;
- стрелка или плюс (подчинение «>» или «<»; сочинение «+»);
- тег для правого слова;

Левая и правая позиции отражают линейный порядок слов в предложении (левое слово расположено ближе к началу предложения, правое – ближе к концу). Стрелка всегда направлена к тегу главного слова.
Пример: “ Unless they already know the address ”
Связи:
Код:
unless know (conj_es > sent_es)
they know (subj_es > fin_es)
already know (adv_es > fin_es)
know address (fin_es < sm_es)
the address (det_es > noun_es)

Замечания:
1. Все теги имеют суффикс _es, чтобы они визуально отличались от слов.
2. Тег, приписываемый к зависимому слову, обозначает его синтаксическую роль (слово может иметь только одну синтаксическую роль, которая проявляется, когда слово становится зависимым).
3. Тег, приписываемый к главному слову (а также к обоим словам в сочинительной связи «+»), отражает синтаксическую категорию слова, которая обычно зависит от его грамматических атрибутов.
4. Полный список тегов см. в Приложении.

3.1.2. Грамматические атрибуты слов
Каждому слову сопоставляется список его грамматических атрибутов в соответствии с результатом разбора.
Морфологические атрибуты для русского языка: часть речи, падеж, число, род, лицо, одушевленность, финитность, время, залог, наклонение, краткая форма (для прилагательных и причастий), сравнительная степень (для прилагательных и наречий).

Морфологические атрибуты для английского языка: часть речи, падеж, число, лицо, финитность, время, степень сравнения.

Помимо морфологических атрибутов для обоих языков есть два служебных атрибута:
- слово написано в тексте с большой буквы;
- слово неизвестно, и его атрибуты определены эвристически.

Пример: “I like”
i - pronoun(6), singular(20), first person(28), capitalized(33);
like – verb(2), finite(23), present tense(27).

Список грамматических атрибутов см. в Приложении.

4. Особенности синтаксического разбора
Набор конструкций, заложенных в алгоритм разбора, ограничивается тем, что может быть определено с достаточной степенью надежности. Результат разбора может состоять из нескольких деревьев (частичный разбор).

Синтаксический разбор не устанавливает отношений между простыми предложениями в составе сложного.

Главным элементом предложения обычно является глагол. Если в предложении есть подлежащее, оно зависит от сказуемого, как любое другое дополнение.

4.1. Разбиение на слова
В большинстве случаев элементами связей являются отдельные слова. Однако в программу заложено незначительное количество конструкций, которые формально состоят из нескольких слов, хотя функционируют как одна лексема. Такие конструкции в результате разбора слипаются в один узел. Например, союзы («как только», «по мере того как», «provided that»), предлоги («вкупе с», «in addition to»), наречия («in vain», «by and large») и т.п.

Пример: “He’s no longer in the kitchen”
Дерево:
Код:
    he's / he's
        (fin_es < adv_es)  no longer
        (aux_es < prepnp_es)  in / in
            (prep_es < np_es)  kitchen / kitchen
                (det_es > noun_es)  the / the
Пример: “Чуть ли не у самой стены”
Дерево:
Код:
    у / у
        (pt_es > prepnp_es)  чуть ли не
        (prep_es < noun_es)  стена / стены
            (adj_es > noun_es)  самый / самой

4.2. Неоднозначности в разборе
Зависимости внутри именных групп представляются в упрощенном виде – большинство модификаторов присоединяется непосредственно к главному слову именной группы (в некоторых случаях это противоречит смыслу, например, “post card collection”, “brain cell excitability”, “four mobile telephone operators”).

Пример: “four mobile telephone operators”
Дерево:
Код:
operator / operators
(card_es > noun_es)  four / four
(adj_es > noun_es)  mobile / mobile
(noun_es > noun_es)  telephone / telephone

Предложная группа присоединяется к ближайшему элементу, который может управлять предложной группой.
Пример: “I saw a girl with a telescope” (girl <- with)
Дерево:
Код:
see / saw
(subj_es > fin_es)  i / i
(fin_es < sm_es)  girl / girl
(det_es > noun_es)  a / a
(np_es < prepnp_es)  with / with
(prep_es < np_es)  telescope / telescope           
(det_es > noun_es)  a / a

Но: “I saw him with a telescope” (see <- with)
Дерево:
Код:
see / saw
(subj_es > fin_es)  i / i
(fin_es < sm_es)  he / him
(head_es < prepnp_es)  with / with
(prep_es < np_es)  telescope / telescope
(det_es > noun_es)  a / a

4.3. Изъяснительные придаточные
Вместо изъяснительного придаточного (Конструкции типа «Он сказал, что...» или that-clause в английском языке) к управляющему элементу присоединяется только подчинительный союз «что» («that»).
Пример: «He said that she was at work»
Дерево:
Код:
say / said
(subj_es > fin_es)  he / he
(fin_es < that_es)  that / that
be / was
(subj_es > fin_es)  she / she
(aux_es < prepnp_es)  at / at
(prep_es < np_es)  work / work
Пример: «Он сказал, что она работает»
Дерево:
Код:
    сказать / сказал
        (subj_es > fin_es)  он / он
        (fin_es < chto_es)  , что
    работать / работает
        (subj_es > fin_es)  она / она

4.4. Сочинительные конструкции
Сочинительный союз или запятая присоединяются к правому элементу сочинительной конструкции.
Пример: «He smiled and laughed»
Дерево:
Код:
laugh / laughed
+  smile / smiled
(subj_es > fin_es)  he / he
+  laugh / laughed
(coord_es > fin_es)  and
Пример: «Кошка и собака отдыхают»
Дерево:
Код:
    отдыхать / отдыхают
        (subj_es > fin_es)  кошка / кошка
            +  кошка / кошка
            +  собака / собака
                (conj_es > noun_es)  и

Примеры синтаксического разбора
Входное предложение (английский язык):
Код:
But President Jacques Chirac stressed the need for France  to have such a site, which will allow Internet users to view aerial photos and maps, saying the state had to be at the cutting edge of modern technology.
Результирующее дерево:
Код:
{ Top }
    stressed stress
        but (conj_es > sent_es)
        chirac (subj_es > fin_es)
            president (noun_es > noun_es)
            jacques (noun_es > noun_es)
        need (fin_es < sm_es)
            the (det_es > noun_es)
            for (np_es < prepnp_es)
                france (prep_es < np_es)
    have
        to (to_es > bare_es)
        site (aux_es < sm_es)
            such a (det_es > noun_es)
    ,
    will
        which (subj_es > fin_es)
        allow (aux_es < bare_es)
            users user (bare_es < sm_es)
                internet (noun_es > noun_es)
            view (head_es < inf_es)
                to (to_es > bare_es)
                photos photo (inf_es < sm_es)
                    photos photo +
                        aerial (adj_es > noun_es)
                    maps map +
                        and (coord_es > noun_es)
    ,
    saying say
    had have
        state (subj_es > fin_es)
            the (det_es > noun_es)
        be (head_es < inf_es)
            to (to_es > bare_es)
            at (aux_es < prepnp_es)
                edge (prep_es < np_es)
                    the (det_es > noun_es)
                    cutting (adj_es > noun_es)
                    of (np_es < prepnp_es)
                        technology (prep_es < np_es)
                            modern (adj_es > noun_es)
    .

Входное предложение (русский язык):
Код:
Это было сделано для решения возможных транспортных проблем, хотя тогда никто не мог предположить, насколько вырастет численность населения столицы через 40 лет, с точки зрения решения транспортных проблем это оказалось мудрым предвидением.
Результирующее дерево:
Код:
{ Top }
    было быть
        это этот (subj_es > fin_es)
        сделано сделать (aux_es < skas_es)
            для (skas_es < prepnp_es)
                решения решение (prep_es < noun_es)
                    проблем проблема (noun_es < gen_es)
                        возможных возможный (adj_es > noun_es)
                        транспортных транспортный (adj_es > noun_es)
    ,
    хотя
    мог мочь
        тогда (adv_es > fin_es)
        никто (subj_es > fin_es)
        не (pt_es > fin_es)
        предположить (fin_es < inf_es)
    ,
    вырастет вырасти
        насколько (adv_es > fin_es)
        численность (fin_es < subj_es)
            населения население (noun_es < gen_es)
                столицы столица (noun_es < gen_es)
                    через (noun_es < prepnp_es)
                        лет год (prep_es < noun_es)
                            40 (digit_es > noun_es)
    ,
    оказалось оказаться
        с (prepnp_es > fin_es)
            точки точка (prep_es < noun_es)
                зрения зрение (noun_es < gen_es)
                    решения решение (noun_es < gen_es)
                        проблем проблема (noun_es < gen_es)
                            транспортных транспортный (adj_es > noun_es)
        это этот (subj_es > fin_es)
        предвидением предвидение (fin_es < ins_es)
            мудрым мудрый (adj_es > noun_es)
    .

5. Извлечение связей определенного типа (для сбора статистики)
В большинстве случаев существенная информация о связи содержится в теге зависимого слова. Например, если нужно извлечь из текста случаи, когда глагол управляет прямым дополнением, нужно извлечь связи, где тег зависимого слова - acc_es (для русского языка), sm_es (для английского языка).

Тег главного слова содержит вспомогательную информацию о синтаксической категории слова. Часто ту же самую информацию можно получить из грамматических атрибутов главного слова. Следует отметить, что тег главного слова может зависеть от конструкции, в которой участвует данная связь, и его использование не всегда прозрачно (в частности, встречаются связи с неопределенным тегом главного слова head_es).

5.1. Глагол — прямое дополнение
При разборе русского языка роль «прямое дополнение» обозначается тегом acc_es. Дополнение может находиться слева или справа от управляющего глагола, что влияет на взаимное расположение тегов в имени связи.
Код:

Пример: “найти решение”.
Связи:
найти решение (inf_es < acc_es)
Дерево:
найти / найти
(inf_es < acc_es)  решение / решение
Пример: “его найти”.
Связи:
оно найти (acc_es > inf_es)
Дерево:
найти / найти
(acc_es > inf_es)  оно / его
При разборе английского языка ситуация с дополнениями немного сложнее. Тег sm_es, обозначающий роль «прямое дополнение», получает существительное или местоимение, находящееся справа от переходного глагола.
Код:
Пример: “To take a book”.
Связи:
to take (to_es > bare_es)
take book (bare_es < sm_es)
a book (det_es > noun_es)
Дерево:
take / take
(to_es > bare_es)  to / to
(bare_es < sm_es)  book / book
(det_es > noun_es)  a / a
Если глагол имеет два дополнения (give и др.), тег sm_es получает первое из них (ближайшее к глаголу), второе дополнение получает тег sm2_es.
Код:
Пример: “gave him a book”.
Связи:
   give book (head_es < sm2_es)
   give he (fin_es < sm_es)
   a book (det_es > noun_es)
Дерево:
give / gave
(fin_es < sm_es)  he / him
(head_es < sm2_es)  book / book
(det_es > noun_es)  a / a
В случаях, когда дополнение выносится в начало фразы, оно получает нейтральный тег np_es.
Код:
Пример: “What he gave?”.
Связи:
   what give (np_es > head_es)
   he give (subj_es > fin_es)
Дерево:
give / gave
(np_es > head_es)  what / what
(subj_es > fin_es)  he / he
? / ?

5.2. Подлежащее — сказуемое
Подлежащее зависит от сказуемого, и его синтаксическая роль обозначается тегом subj_es (для обоих языков). Оно может находиться слева или справа от сказуемого, что влияет на взаимное расположение тегов в имени связи:
Код:
Пример: “He goes”.
Связи:
he go (subj_es > fin_es)
Дерево:
go / goes
(subj_es > fin_es)  he / he
Пример: “Is he happy?”
Связи:
be happy (aux_es < adja_es)
be he (aux_es < subj_es)
Дерево:
be / is
(aux_es < subj_es)  he / he
(aux_es < adja_es)  happy / happy
? / ?
Пример: “Он счастлив”
Связи:
он счастливый (subj_es > skas_es)
Дерево:
счастливый / счастлив
(subj_es > skas_es)  он / он
Пример: “Нашел ли он решение?”
Связи:
   найти решение (fin_es < acc_es)
   найти он (fin_es < subj_es)
   найти ли (fin_es < li_es)
Дерево:
найти / нашел
(fin_es < li_es)  ли / ли
(fin_es < subj_es)  он / он
(fin_es < acc_es)  решение / решение
  ? / ?
5.3. Прилагательное – существительное
В русском разборе используется одинаковый тег - adj_es - для причастий, прилагательных, местоименных прилагательных, порядковых числительных, стоящих перед именем и согласующихся с ним в роде числе и падеже. Однако этот тег не распространяется на случаи причастных оборотов.
Код:
Пример: “найденное решение”.
Связи:
найти решение (adj_es > noun_es)
Дерево:
решение / решение
(adj_es > noun_es)  найти / найденное
Пример: “интересную книгу”
Связи:
очень интересный (adv_es > adj_es)
интересный книга (adj_es > noun_es)
Дерево:
книга / книга
(adj_es > noun_es)  интересный / интересная
(adv_es > adj_es)  очень / очень
В английском разборе ситуация похожа, за исключением того, что местоименные прилагательные обычно имеют роль det_es (determiner). Тег adj_es распространяется на прилагательные, причастия и порядковые числительные, стоящие перед существительным.
Код:
Пример: “Intelligent people”.
Связи:
intelligent people (adj_es > noun_es)
Дерево:
people / people
(adj_es > noun_es)  intelligent / intelligent

Пример: “The reopened documents”.
Связи:
the document (det_es > noun_es)
reopen document (adj_es > noun_es)
Дерево:
document / documents
(det_es > noun_es)  the / the
(adj_es > noun_es)  reopen / reopened

5.4. Предлог – существительное
В предложной группе главным словом является предлог. Это тот случай, когда удобнее ориентироваться на тег главного слова (prep_es).
Код:
Пример: “В Москве”.
Связи:
в москва (prep_es < noun_es)
Дерево:
в / в
(prep_es < noun_es)  москва / москве
Пример: “On the table”.
Связи:
on table (prep_es < np_es)
the table (det_es > noun_es)
Дерево:
on / on
(prep_es < np_es)  table / table
(det_es > noun_es)  the / the
5.5. Связь через предлог
Ситуации, когда два слова соединяются с помощью предлога, соответствуют две связи, и такая конструкция занимает два уровня в дереве. Индикатором связи через предлог является тег prepnp_es у зависимого слова.
Код:
Пример: “играть в шахматы”.
Связи:
играть в (inf_es < prepnp_es)
в шахматы (prep_es < noun_es)
Дерево:
играть / играть
(inf_es < prepnp_es)  в / в
(prep_es < noun_es)  шахматы / шахматы
Пример: “To lie on the table”.
Связи:
to lie (to_es > bare_es)
lie on (bare_es < prepnp_es)
on table (prep_es < np_es)
the table (det_es > noun_es)
Дерево:
lie / lie
(to_es > bare_es)  to / to
(bare_es < prepnp_es)  on / on
(prep_es < np_es)  table / table
(det_es > noun_es)  the / the
Пример: “A book on the table”.
Связи:
a book (det_es > noun_es)
book on (np_es < prepnp_es)
on table (prep_es < np_es)
the table (det_es > noun_es)
Дерево:
book / book
(det_es > noun_es)  a / a
(np_es < prepnp_es)  on / on
(prep_es < np_es)  table / table
(det_es > noun_es)  the / the
Приложение
Грамматические атрибуты (Русский язык)


nn
vrb
adj
adv
num
prn
inj
pt
cnj
prp
pth
inv
prd
frn
dgt
pnt
ptp
dee
sg
pl
fem
msc
neu
anm
nom
gen
dat
acc
ins
loc
fin
inf
pst
prs
fst
sec
trd
cmp
imp
ind
act
psv
sht
cap
heu

1
2
3
4
5
6
9
10
11
12
13
14
15
16
18
17
7
8
19
20
21
22
23
24
25
26
27
28
29
30
31
32
36
37
33
34
35
45
38
40
41
42
44
46
47
существительное
глагол
прилагательное
наречие
числительное
местоимение
междометие
частица
союз
предлог
вводное слово
неизменяемое слово
предикатив (можно, пора)
слово из другого языка
слово, состоящее из цифр
знак пунктуации
причастие
деепричастие
единственное число
множественное число
женский род
мужской род
средний род
одушевленное
именительный падеж
родительный падеж
дательный падеж
винительный падеж
творительный падеж
предложный падеж
финитная форма
инфинитив
прошедшее время
настоящее время
первое лицо
второе лицо
третье лицо
сравнительная степень
повелительное наклонение
изъявительное наклонение
активный залог
пассивный залог
краткая форма (пойман, красив)
слово написано с большой буквы
неизвестное слово - нормализовано эвристически
noun
verb
adjective
adverb
numeral
pronoun
interjection
particle
conjunction
preposition
parenthetic
invariant
-
foreign word
digit
punctuation
participle
-
singular number
plural number
feminine genre
masculine genre
neutral genre
animate
nominative
genitive
dative
accusative
instrument
locative
finite
infinitive
past tense
present tense
first person
second person
third person
comparative degree
imperative
indicative
active voice
passive voice
short form
capital letter
heuristic
Грамматические атрибуты (Английский язык)
nn
vrb
adj
adv
num
prn
inj
pt
cnj
prp
pth
det
inv
dtn
frn
ctr

dgt
pnt
sg
pl
gen
fin
inf
ptp
pst
prs
fst
sec
trd
cmp
sup
cap
heu
1
2
3
4
5
6
7
8
9
10
11
12
13
15
16
17

18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
существительное
глагол
прилагательное
наречие
числительное
местоимение
междометие
частица
союз
предлог
вводное слово
артикль или другой определитель (my, your)
неизменяемое слово
местоимение/определитель (this, all...)
слово из другого языка
сокращенная форма служебного
глагола с подлежащим (I’m, they’ve)
слово, состоящее из цифр (1, 299)
знак пунктуации
единственное число
множественное число
поссесивный падеж (Kate’s, dog’s...)
финитная форма
инфинитив
причастие
прошедшее время
настоящее время
первое лицо
второе лицо
третье лицо
сравнительная степень
превосходная степень
слово написано с большой буквы
неизвестное слово - нормализовано эвристически

noun
verb
adjective
adverb
numeral
pronoun
interjection
particle
conjunction
preposition
parenthetic
determiner
invariant
determiner/pronoun
foreign word
contracted form

digit
punctuation
singular number
plural number
possessive case
finite
infinitive
participle
past tense
present tense
first person
second person
third person
comparative degree
superlative degree
capital letter
heuristic



Тег

Синтаксическая категория (при главном слове)

Синтаксическая роль (при зависимом слове)

noun_es

существительное/иг

иг, падеж которой не играет роли (например, зависящая от предлога)

pers_es

личное местоимение/иг

-

adj_es

-

согласованное определение, стоящее перед именем, кроме причастного оборота

num_es

количественное числительное

количественное числительное, стоящее перед именем, либо перед другим числительным

adv_es

наречие

наречие

prepnp_es

предложная группа

предложная группа

prep_es

предлог без зависимого существительного

-

sent_es

предложение

-

predic_es

предикатив

предикатив, подчиняющийся вспомогательному глаголу («было можно»)

fin_es

финитный глагол/сказуемое

-

skas_es

сказуемое (краткое, сравнительное)

сказуемое, подчиняющееся вспомогательному глаголу («было взято»)

aux_es

вспомогательный глагол (быть, стать)

-

inf_es

глагол в инфинитиве

зависимый инфинитив

dee_es

деепричастие

-

ptp_es

причастие/прилагательное

согласованный оборот, стоящий после имени или перед именем

imper_es

глагол в повелительном наклонении

-

subj_es

-

подлежащее (зависит от сказуемого)

acc_es

-

прямое дополнение

dat_es

-

дополнение в дательном падеже

ins_es

-

дополнение в творительном падеже

gen_es

-

генитивная группа или дополнение в родительном падеже

conj_es

-

союз

chto_es

-

союз «что», символизирующий изъяснительное зависимое предложение

digit_es

число из цифр

число из цифр

pt_es

-

частица

by_es

-

сослагательная частица «бы»

li_es

-

частица «ли»

koe_es

-

частица «кое»

emph_es

-

эмфатический союз «и»

head_es

главное слово, синтаксический класс которого не обозначен

-

misc_es

разное (то, что не входит в вышеприведенные обозначения)

разное (то, что не входит в вышеприведенные обозначения)

Набор тегов (для английского языка)

Тег

Синтаксическая категория (при главном слове)

Синтаксическая роль (при зависимом слове)

noun_es

существительное

существительное, зависящее от существительного

np_es

существительное/именная группа

иг, зависящая от предлога

adj_es

прилагательное/причастие прошедшего времени

определение, стоящее перед именем

adja_es

-

прилагательное/причастие, зависящее от глагола

card_es

количественное числительное

количественное числительное, стоящее перед именем, либо перед другим числительным

adv_es

наречие

наречие

det_es

-

артикль или другой определитель (determiner) при имени

prepnp_es

предложная группа

предложная группа

prep_es

предлог без зависимого существительного

предлог без зависимого существительного

sent_es

предложение

-

auxsu_es

слитная форма подлежащего и вспомогательного глагола («I’ve»)

-

fin_es

финитный глагол/сказуемое

-

bare_es

инфинитив без «to»

инфинитив без «to»

aux_es

вспомогательный глагол (be, must)

-

inf_es

инфинитив с «to»

инфинитив с «to»

ing_es

причастие настоящего времени

герундий

ptp_es

-

причастный оборот, стоящий после имени

passive_es

-

глагол, употребленный в пассивной конструкции

subj_es

-

подлежащее (зависит от сказуемого)

sm_es

-

первое именное дополнение глагола

sm2_es

-

второе именное дополнение глагола

phras_es

фразовый глагол

-

phvprep_es

-

предлог, участвующий в образовании фразового глагола

coord_es

-

союз или запятая при однородных членах

conj_es

-

союз

that_es

-

союз «that», символизирующий изъяснительное зависимое предложение

digit_es

число из цифр

число из цифр

pt_es

-

частица

to_es

-

частица «to» при инфинитиве

not_es

-

частица «not», стоящая после глагола

comma_es

-

запятая

it_es

-

безличное подлежащее «it»

head_es

главное слово, синтаксический класс которого не обозначен

-

misc_es

разное (то, что не входит в вышеприведенные обозначения)

разное (то, что не входит в вышеприведенные обозначения)

Вернуться к началу Перейти вниз

Программный пакет синтаксического разбора и машинного перевода Cognitive Dwarf

Предыдущая тема Следующая тема Вернуться к началу
Программный пакет синтаксического разбора и машинного перевода Cognitive Dwarf
Страница 1 из 1Страница 1 из 1
      Форма быстрого ответа        Форма быстрого ответа  
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении
Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении | Последние обсуждения