bot Гость
Сообщений : 317
Репутация : 12
| bot | :: Сб Мар 05 2011, 16:35 | Сб Мар 05 2011, 16:35 | |
| Программный пакет синтаксического разбора и машинного перевода (Cognitive Dwarf)
http://www.cognitive.ru Cognitive Dwarf 1.0 Cognitive Dwarf 1.0 (зеркало)
Введение Описываемый программный пакет включает в себя синтаксический анализатор для русского и английского языков и систему автоматического перевода (русско-английское и англо-русское направления).
Возможны следующие применения пакета: - сбор статистики о встречаемости слов и конструкций в языке; построение статистических моделей языка; - сравнение встречаемости различных слов и конструкций в различных текстах; - эксперименты по разрешению неоднозначностей, возникающих во время синтаксического разбора; - эксперименты по разрешению неоднозначностей, возникающих во время выбора вариантов перевода при машинном переводе. - другие приложения, в которых требуется синтаксический разбор и/или машинный перевод текстов.
В настоящее время реализовано консольное приложение, предоставляющее доступ к функциям пакета. На вход этому приложению поступает файл с текстом на русском или английском языке. Допустимые кодировки Windows-1251 или кириллица(DOS). Результат работы консольного приложения сохраняется в выходном файле, который в зависимости от параметров запуска может содержать следующее: - список слов с текстами нормальных форм и морфологическими атрибутами; - список синтаксических связей; - дерево синтаксического разбора; - перевод на другой язык.
1. Стадии обработки текста Можно выделить следующие стадии обработки текста: - сегментация; - морфологический разбор; - синтаксический разбор; - машинный перевод.
1.1. Сегментация. Текст разбивается на слова и предложения. Кроме собственно слов выделяются знаки препинания, цифры и другие последовательности специальных символов, которые могут присутствовать во встречающихся на практике текстах.
1.2. Морфологический анализ. На стадии морфологического анализа для каждого из слов строится список вариантов нормализации. Каждому варианту нормализации соответствует набор атрибутов и текст нормальной формы, которыми исходное слово может обладать. Более подробные сведения об используемых атрибутах содержатся в описании синтаксического разбора.
1.3. Синтаксический разбор. На стадии синтаксического разбора принимается решение, какие из вариантов нормализации в действительности соответствуют словам из исходного текста, и строятся синтаксические связи между словами. После этого на основе синтаксических связей строится дерево синтаксического разбора. Более подробные сведения о синтаксических связях содержатся в описании синтаксического разбора.
Таким образом, в результате синтаксического разбора получаются: - список слов, каждому слову сопоставлен текст нормальной формы и набор атрибутов; - список синтаксических связей между словами предложения; - дерево синтаксического разбора.
1.4. Построение дерева разбора. При построении дерева синтаксического разбора в слова и связи иногда могут вноситься некоторые (незначительные) изменения, т.е. в общем случае слова и связи из дерева разбора могут немного отличаться от тех, которые входят в список слов и список связей.
В дереве разбора вводится дополнительный самый верхний узел (Top). В случае, если всё предложение разобралось целиком, этому верхнему узлу прикрепляется дерево разбора, соответствующее предложению. Если в результате разбора предложение разделилось на несколько частей, между которыми отсутствуют синтаксические связи, то к верхнему узлу Top присоединяются деревья, соответствующие этим частям.
Во время синтаксического разбора связью '+' соединяются слова, входящие в перечисление. При построении дерева создается переходник, т.е. узел дерева разбора, которому не соответствует ни одно из слов исходного предложения. Связи '+' перенаправляются к этому переходнику. Кроме того, одно из слов, входящих в перечисление, может входить в качестве подчиненного слова в связь '<' или '>'. От этого слова узел-переходник заимствует атрибуты и текст. В случае, если узел-переходник является самым верхним в дереве, т.е. ни одно из слов перечисления не входит ни в какую связь в качестве подчиненного слова, атрибуты узла-переходника заимствуются от любого из слов, входящих в перечисление.
1.5. Машинный перевод При необходимости исходный текст может быть переведен на другой язык.
2. Консольное приложение 2.1. Описание параметров вызова
Вызов программы: - Код:
-
wrf.exe [параметры] Параметры:
e | входной язык - английский | h | распечатать подсказку | dos | входной файл в кодировке кириллица(DOS) | i | в качестве входного файла использовать стандартный поток ввода | i:имя_файла | имя входного файла | o:имя_файла | выходной файл | a:имя_файла | выходной файл (открывается на добавление) | lc:имя_файла | имя файла для сообщений об ошибках | la:имя_файла | имя файла для сообщений об ошибках (открывается на добавление) | Параметры, определяющие содержимое выходного файла: | txt | выводить результат в текстовом виде (отличном от того, что по умолчанию) | xml | выводить результат в виде xml-файла | w | список слов с атрибутами | k | список связей | n | дерево разбора | t | результат перевода | По умолчанию считается, что: - входной язык русский в кодировке Windows-1251; - результат работы сохраняется в текстовом формате; - в качестве выходного файла используется стандартный поток вывода; - в выходной файл сохраняются список слов, список связей, дерево разбора и результат перевода.
Независимо от кодировки входного файла в выходном файле всегда используется кодировка Windows-1251. Допускается сразу несколько параметров, описывающих содержимое выходного файла.
Перед параметрами можно указывать знак ‘-‘ (минус) или знак ‘/’ (косая черта), например: - Код:
-
wrf.exe -i:en.txt -o:out.txt -e -n -w -k Значение параметров в данном примере следующее: входной текст необходимо брать из файла en.txt, результат работы сохранить в файл out.txt, входной язык – английский, в выходной файл необходимо сохранить дерево разбора, список слов с атрибутами и список связей.
Значения тегов, используемых при сохранении результатов работы в виде XML-файла.
Text | список предложений, т.е. весь входной текст | Sentence | предложение, может содержать списки слов и связей, дерево разбора и результат перевода | WordList | список слов | Word | одно слово. Содержит список атрибутов слова | Norm | текст нормальной формы слова (в нижнем регистре) | Form | текст слова так, как оно встретилось в предложении (в нижнем регистре) | POS | атрибут слова с наименьшим номером. Как правило, это часть речи слова | Attribute | морфологический атрибут слова | LinkList | список синтаксических связей между словами в предложении | Link | одна синтаксическая связь | Sign, LeftTag, RightTag | части имени синтаксической связи | LeftWord | левое по тексту предложения слово, входящее в синтаксическую связь | RightWord | правое по тексту предложения слово, входящее в синтаксическую связь | Root | корень дерева синтаксического разбора | Node | узел дерева синтаксического разбора | Translation | результат перевода | 2.2. Системные требования. Для запуска пакета необходим компьютер с ОС Windows и с 256 Мбайт оперативной памяти.
2.3. Ограничения. Размер входного файла не более 2 Мбайт.
2.4. Скорость работы. В случае, если выполняется синтаксический разбор текста, время обработки входного файла размером 32 Кбайт приблизительно 10 сек на компьютере с процессором Pentium 4 (2.40GHz). Если выполняется ещё и машинный перевод, то время обработки такого файла составляет приблизительно 25 сек. Время работы определяется не только размером входного текста и производительностью процессора, но и тем, как быстро происходит загрузка словарей в оперативную память в начале работы приложения.
3. Интерпретация результатов синтаксического разбора Далее более подробно описывается выполняемый программным пакетом поверхностно-синтаксический анализ текста. Используемое синтаксическое описание основано на отношениях зависимости между словами (Dependency Theory). Зависимости обозначаются при помощи имен связей, каждое из которых состоит из двух тегов – один относится к синтаксической роли зависимого слова, а другой – к синтаксической категории главного слова.
Рисунок 1. Зависимости в предложении I like this book. Ниже приводится упрощенный пример, где связь между I и like означает, что I зависит от like и его синтаксическая роль - подлежащее (subject). Точно так же this зависит от book, и его синтаксическая роль - определитель (determiner). Book зависит от like как прямое дополнение.
3.1. Информация на выходе синтаксического разбора Выходная информация синтаксического разбора включает: - множество слов с их грамматическими атрибутами; - набор связей, которые были установлены для входного предложения; - дерево разбора.
Графическое представление дерева разбора на рисунке 1 может быть записано в текстовом виде: - Код:
-
like / like (subj_es > fin_es) i / i (fin_es < sm_es) book / book (det_es > noun_es) this / this Это дерево, в свою очередь, строится по набору связей: - Код:
-
i like (subj_es > fin_es) like book (fin_es < sm_es) this book (det_es > noun_es) 3.1.1. Синтаксические связи В любой синтаксической связи участвуют только два элемента. - Код:
-
i like (subj_es > fin_es) Каждое имя связи состоит из трех частей: - тег для левого слова; - стрелка или плюс (подчинение «>» или «<»; сочинение «+»); - тег для правого слова;
Левая и правая позиции отражают линейный порядок слов в предложении (левое слово расположено ближе к началу предложения, правое – ближе к концу). Стрелка всегда направлена к тегу главного слова. Пример: “ Unless they already know the address ” Связи: - Код:
-
unless know (conj_es > sent_es) they know (subj_es > fin_es) already know (adv_es > fin_es) know address (fin_es < sm_es) the address (det_es > noun_es) Замечания: 1. Все теги имеют суффикс _es, чтобы они визуально отличались от слов. 2. Тег, приписываемый к зависимому слову, обозначает его синтаксическую роль (слово может иметь только одну синтаксическую роль, которая проявляется, когда слово становится зависимым). 3. Тег, приписываемый к главному слову (а также к обоим словам в сочинительной связи «+»), отражает синтаксическую категорию слова, которая обычно зависит от его грамматических атрибутов. 4. Полный список тегов см. в Приложении.
3.1.2. Грамматические атрибуты слов Каждому слову сопоставляется список его грамматических атрибутов в соответствии с результатом разбора. Морфологические атрибуты для русского языка: часть речи, падеж, число, род, лицо, одушевленность, финитность, время, залог, наклонение, краткая форма (для прилагательных и причастий), сравнительная степень (для прилагательных и наречий).
Морфологические атрибуты для английского языка: часть речи, падеж, число, лицо, финитность, время, степень сравнения.
Помимо морфологических атрибутов для обоих языков есть два служебных атрибута: - слово написано в тексте с большой буквы; - слово неизвестно, и его атрибуты определены эвристически.
Пример: “I like” i - pronoun(6), singular(20), first person(28), capitalized(33); like – verb(2), finite(23), present tense(27).
Список грамматических атрибутов см. в Приложении.
4. Особенности синтаксического разбора Набор конструкций, заложенных в алгоритм разбора, ограничивается тем, что может быть определено с достаточной степенью надежности. Результат разбора может состоять из нескольких деревьев (частичный разбор).
Синтаксический разбор не устанавливает отношений между простыми предложениями в составе сложного.
Главным элементом предложения обычно является глагол. Если в предложении есть подлежащее, оно зависит от сказуемого, как любое другое дополнение.
4.1. Разбиение на слова В большинстве случаев элементами связей являются отдельные слова. Однако в программу заложено незначительное количество конструкций, которые формально состоят из нескольких слов, хотя функционируют как одна лексема. Такие конструкции в результате разбора слипаются в один узел. Например, союзы («как только», «по мере того как», «provided that»), предлоги («вкупе с», «in addition to»), наречия («in vain», «by and large») и т.п.
Пример: “He’s no longer in the kitchen” Дерево: - Код:
-
he's / he's (fin_es < adv_es) no longer (aux_es < prepnp_es) in / in (prep_es < np_es) kitchen / kitchen (det_es > noun_es) the / the Пример: “Чуть ли не у самой стены” Дерево: - Код:
-
у / у (pt_es > prepnp_es) чуть ли не (prep_es < noun_es) стена / стены (adj_es > noun_es) самый / самой 4.2. Неоднозначности в разборе Зависимости внутри именных групп представляются в упрощенном виде – большинство модификаторов присоединяется непосредственно к главному слову именной группы (в некоторых случаях это противоречит смыслу, например, “post card collection”, “brain cell excitability”, “four mobile telephone operators”).
Пример: “four mobile telephone operators” Дерево: - Код:
-
operator / operators (card_es > noun_es) four / four (adj_es > noun_es) mobile / mobile (noun_es > noun_es) telephone / telephone Предложная группа присоединяется к ближайшему элементу, который может управлять предложной группой. Пример: “I saw a girl with a telescope” (girl <- with) Дерево: - Код:
-
see / saw (subj_es > fin_es) i / i (fin_es < sm_es) girl / girl (det_es > noun_es) a / a (np_es < prepnp_es) with / with (prep_es < np_es) telescope / telescope (det_es > noun_es) a / a Но: “I saw him with a telescope” (see <- with) Дерево: - Код:
-
see / saw (subj_es > fin_es) i / i (fin_es < sm_es) he / him (head_es < prepnp_es) with / with (prep_es < np_es) telescope / telescope (det_es > noun_es) a / a 4.3. Изъяснительные придаточные Вместо изъяснительного придаточного (Конструкции типа «Он сказал, что...» или that-clause в английском языке) к управляющему элементу присоединяется только подчинительный союз «что» («that»). Пример: «He said that she was at work» Дерево: - Код:
-
say / said (subj_es > fin_es) he / he (fin_es < that_es) that / that be / was (subj_es > fin_es) she / she (aux_es < prepnp_es) at / at (prep_es < np_es) work / work Пример: «Он сказал, что она работает» Дерево: - Код:
-
сказать / сказал (subj_es > fin_es) он / он (fin_es < chto_es) , что работать / работает (subj_es > fin_es) она / она 4.4. Сочинительные конструкции Сочинительный союз или запятая присоединяются к правому элементу сочинительной конструкции. Пример: «He smiled and laughed» Дерево: - Код:
-
laugh / laughed + smile / smiled (subj_es > fin_es) he / he + laugh / laughed (coord_es > fin_es) and Пример: «Кошка и собака отдыхают» Дерево: - Код:
-
отдыхать / отдыхают (subj_es > fin_es) кошка / кошка + кошка / кошка + собака / собака (conj_es > noun_es) и Примеры синтаксического разбора Входное предложение (английский язык): - Код:
-
But President Jacques Chirac stressed the need for France to have such a site, which will allow Internet users to view aerial photos and maps, saying the state had to be at the cutting edge of modern technology. Результирующее дерево: - Код:
-
{ Top } stressed stress but (conj_es > sent_es) chirac (subj_es > fin_es) president (noun_es > noun_es) jacques (noun_es > noun_es) need (fin_es < sm_es) the (det_es > noun_es) for (np_es < prepnp_es) france (prep_es < np_es) have to (to_es > bare_es) site (aux_es < sm_es) such a (det_es > noun_es) , will which (subj_es > fin_es) allow (aux_es < bare_es) users user (bare_es < sm_es) internet (noun_es > noun_es) view (head_es < inf_es) to (to_es > bare_es) photos photo (inf_es < sm_es) photos photo + aerial (adj_es > noun_es) maps map + and (coord_es > noun_es) , saying say had have state (subj_es > fin_es) the (det_es > noun_es) be (head_es < inf_es) to (to_es > bare_es) at (aux_es < prepnp_es) edge (prep_es < np_es) the (det_es > noun_es) cutting (adj_es > noun_es) of (np_es < prepnp_es) technology (prep_es < np_es) modern (adj_es > noun_es) . Входное предложение (русский язык): - Код:
-
Это было сделано для решения возможных транспортных проблем, хотя тогда никто не мог предположить, насколько вырастет численность населения столицы через 40 лет, с точки зрения решения транспортных проблем это оказалось мудрым предвидением. Результирующее дерево: - Код:
-
{ Top } было быть это этот (subj_es > fin_es) сделано сделать (aux_es < skas_es) для (skas_es < prepnp_es) решения решение (prep_es < noun_es) проблем проблема (noun_es < gen_es) возможных возможный (adj_es > noun_es) транспортных транспортный (adj_es > noun_es) , хотя мог мочь тогда (adv_es > fin_es) никто (subj_es > fin_es) не (pt_es > fin_es) предположить (fin_es < inf_es) , вырастет вырасти насколько (adv_es > fin_es) численность (fin_es < subj_es) населения население (noun_es < gen_es) столицы столица (noun_es < gen_es) через (noun_es < prepnp_es) лет год (prep_es < noun_es) 40 (digit_es > noun_es) , оказалось оказаться с (prepnp_es > fin_es) точки точка (prep_es < noun_es) зрения зрение (noun_es < gen_es) решения решение (noun_es < gen_es) проблем проблема (noun_es < gen_es) транспортных транспортный (adj_es > noun_es) это этот (subj_es > fin_es) предвидением предвидение (fin_es < ins_es) мудрым мудрый (adj_es > noun_es) . 5. Извлечение связей определенного типа (для сбора статистики) В большинстве случаев существенная информация о связи содержится в теге зависимого слова. Например, если нужно извлечь из текста случаи, когда глагол управляет прямым дополнением, нужно извлечь связи, где тег зависимого слова - acc_es (для русского языка), sm_es (для английского языка).
Тег главного слова содержит вспомогательную информацию о синтаксической категории слова. Часто ту же самую информацию можно получить из грамматических атрибутов главного слова. Следует отметить, что тег главного слова может зависеть от конструкции, в которой участвует данная связь, и его использование не всегда прозрачно (в частности, встречаются связи с неопределенным тегом главного слова head_es).
5.1. Глагол — прямое дополнение При разборе русского языка роль «прямое дополнение» обозначается тегом acc_es. Дополнение может находиться слева или справа от управляющего глагола, что влияет на взаимное расположение тегов в имени связи. - Код:
-
Пример: “найти решение”. Связи: найти решение (inf_es < acc_es) Дерево: найти / найти (inf_es < acc_es) решение / решение Пример: “его найти”. Связи: оно найти (acc_es > inf_es) Дерево: найти / найти (acc_es > inf_es) оно / его При разборе английского языка ситуация с дополнениями немного сложнее. Тег sm_es, обозначающий роль «прямое дополнение», получает существительное или местоимение, находящееся справа от переходного глагола. - Код:
-
Пример: “To take a book”. Связи: to take (to_es > bare_es) take book (bare_es < sm_es) a book (det_es > noun_es) Дерево: take / take (to_es > bare_es) to / to (bare_es < sm_es) book / book (det_es > noun_es) a / a Если глагол имеет два дополнения (give и др.), тег sm_es получает первое из них (ближайшее к глаголу), второе дополнение получает тег sm2_es. - Код:
-
Пример: “gave him a book”. Связи: give book (head_es < sm2_es) give he (fin_es < sm_es) a book (det_es > noun_es) Дерево: give / gave (fin_es < sm_es) he / him (head_es < sm2_es) book / book (det_es > noun_es) a / a В случаях, когда дополнение выносится в начало фразы, оно получает нейтральный тег np_es. - Код:
-
Пример: “What he gave?”. Связи: what give (np_es > head_es) he give (subj_es > fin_es) Дерево: give / gave (np_es > head_es) what / what (subj_es > fin_es) he / he ? / ? 5.2. Подлежащее — сказуемое Подлежащее зависит от сказуемого, и его синтаксическая роль обозначается тегом subj_es (для обоих языков). Оно может находиться слева или справа от сказуемого, что влияет на взаимное расположение тегов в имени связи: - Код:
-
Пример: “He goes”. Связи: he go (subj_es > fin_es) Дерево: go / goes (subj_es > fin_es) he / he Пример: “Is he happy?” Связи: be happy (aux_es < adja_es) be he (aux_es < subj_es) Дерево: be / is (aux_es < subj_es) he / he (aux_es < adja_es) happy / happy ? / ? Пример: “Он счастлив” Связи: он счастливый (subj_es > skas_es) Дерево: счастливый / счастлив (subj_es > skas_es) он / он Пример: “Нашел ли он решение?” Связи: найти решение (fin_es < acc_es) найти он (fin_es < subj_es) найти ли (fin_es < li_es) Дерево: найти / нашел (fin_es < li_es) ли / ли (fin_es < subj_es) он / он (fin_es < acc_es) решение / решение ? / ? 5.3. Прилагательное – существительное В русском разборе используется одинаковый тег - adj_es - для причастий, прилагательных, местоименных прилагательных, порядковых числительных, стоящих перед именем и согласующихся с ним в роде числе и падеже. Однако этот тег не распространяется на случаи причастных оборотов. - Код:
-
Пример: “найденное решение”. Связи: найти решение (adj_es > noun_es) Дерево: решение / решение (adj_es > noun_es) найти / найденное Пример: “интересную книгу” Связи: очень интересный (adv_es > adj_es) интересный книга (adj_es > noun_es) Дерево: книга / книга (adj_es > noun_es) интересный / интересная (adv_es > adj_es) очень / очень В английском разборе ситуация похожа, за исключением того, что местоименные прилагательные обычно имеют роль det_es (determiner). Тег adj_es распространяется на прилагательные, причастия и порядковые числительные, стоящие перед существительным. - Код:
-
Пример: “Intelligent people”. Связи: intelligent people (adj_es > noun_es) Дерево: people / people (adj_es > noun_es) intelligent / intelligent
Пример: “The reopened documents”. Связи: the document (det_es > noun_es) reopen document (adj_es > noun_es) Дерево: document / documents (det_es > noun_es) the / the (adj_es > noun_es) reopen / reopened 5.4. Предлог – существительное В предложной группе главным словом является предлог. Это тот случай, когда удобнее ориентироваться на тег главного слова (prep_es). - Код:
-
Пример: “В Москве”. Связи: в москва (prep_es < noun_es) Дерево: в / в (prep_es < noun_es) москва / москве Пример: “On the table”. Связи: on table (prep_es < np_es) the table (det_es > noun_es) Дерево: on / on (prep_es < np_es) table / table (det_es > noun_es) the / the 5.5. Связь через предлог Ситуации, когда два слова соединяются с помощью предлога, соответствуют две связи, и такая конструкция занимает два уровня в дереве. Индикатором связи через предлог является тег prepnp_es у зависимого слова. - Код:
-
Пример: “играть в шахматы”. Связи: играть в (inf_es < prepnp_es) в шахматы (prep_es < noun_es) Дерево: играть / играть (inf_es < prepnp_es) в / в (prep_es < noun_es) шахматы / шахматы Пример: “To lie on the table”. Связи: to lie (to_es > bare_es) lie on (bare_es < prepnp_es) on table (prep_es < np_es) the table (det_es > noun_es) Дерево: lie / lie (to_es > bare_es) to / to (bare_es < prepnp_es) on / on (prep_es < np_es) table / table (det_es > noun_es) the / the Пример: “A book on the table”. Связи: a book (det_es > noun_es) book on (np_es < prepnp_es) on table (prep_es < np_es) the table (det_es > noun_es) Дерево: book / book (det_es > noun_es) a / a (np_es < prepnp_es) on / on (prep_es < np_es) table / table (det_es > noun_es) the / the
Приложение Грамматические атрибуты (Русский язык)
nn vrb adj adv num prn inj pt cnj prp pth inv prd frn dgt pnt ptp dee sg pl fem msc neu anm nom gen dat acc ins loc fin inf pst prs fst sec trd cmp imp ind act psv sht cap heu | 1 2 3 4 5 6 9 10 11 12 13 14 15 16 18 17 7 8 19 20 21 22 23 24 25 26 27 28 29 30 31 32 36 37 33 34 35 45 38 40 41 42 44 46 47 | существительное глагол прилагательное наречие числительное местоимение междометие частица союз предлог вводное слово неизменяемое слово предикатив (можно, пора) слово из другого языка слово, состоящее из цифр знак пунктуации причастие деепричастие единственное число множественное число женский род мужской род средний род одушевленное именительный падеж родительный падеж дательный падеж винительный падеж творительный падеж предложный падеж финитная форма инфинитив прошедшее время настоящее время первое лицо второе лицо третье лицо сравнительная степень повелительное наклонение изъявительное наклонение активный залог пассивный залог краткая форма (пойман, красив) слово написано с большой буквы неизвестное слово - нормализовано эвристически | noun verb adjective adverb numeral pronoun interjection particle conjunction preposition parenthetic invariant - foreign word digit punctuation participle - singular number plural number feminine genre masculine genre neutral genre animate nominative genitive dative accusative instrument locative finite infinitive past tense present tense first person second person third person comparative degree imperative indicative active voice passive voice short form capital letter heuristic | Грамматические атрибуты (Английский язык)
nn vrb adj adv num prn inj pt cnj prp pth det inv dtn frn ctr dgt pnt sg pl gen fin inf ptp pst prs fst sec trd cmp sup cap heu | 1 2 3 4 5 6 7 8 9 10 11 12 13 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 | существительное глагол прилагательное наречие числительное местоимение междометие частица союз предлог вводное слово артикль или другой определитель (my, your) неизменяемое слово местоимение/определитель (this, all...) слово из другого языка сокращенная форма служебного глагола с подлежащим (I’m, they’ve) слово, состоящее из цифр (1, 299) знак пунктуации единственное число множественное число поссесивный падеж (Kate’s, dog’s...) финитная форма инфинитив причастие прошедшее время настоящее время первое лицо второе лицо третье лицо сравнительная степень превосходная степень слово написано с большой буквы неизвестное слово - нормализовано эвристически | noun verb adjective adverb numeral pronoun interjection particle conjunction preposition parenthetic determiner invariant determiner/pronoun foreign word contracted form digit punctuation singular number plural number possessive case finite infinitive participle past tense present tense first person second person third person comparative degree superlative degree capital letter heuristic |
Тег | Синтаксическая категория (при главном слове) | Синтаксическая роль (при зависимом слове) | noun_es | существительное/иг | иг, падеж которой не играет роли (например, зависящая от предлога) | pers_es | личное местоимение/иг | - | adj_es | - | согласованное определение, стоящее перед именем, кроме причастного оборота | num_es | количественное числительное | количественное числительное, стоящее перед именем, либо перед другим числительным | adv_es | наречие | наречие | prepnp_es | предложная группа | предложная группа | prep_es | предлог без зависимого существительного | - | sent_es | предложение | - | predic_es | предикатив | предикатив, подчиняющийся вспомогательному глаголу («было можно») | fin_es | финитный глагол/сказуемое | - | skas_es | сказуемое (краткое, сравнительное) | сказуемое, подчиняющееся вспомогательному глаголу («было взято») | aux_es | вспомогательный глагол (быть, стать) | - | inf_es | глагол в инфинитиве | зависимый инфинитив | dee_es | деепричастие | - | ptp_es | причастие/прилагательное | согласованный оборот, стоящий после имени или перед именем | imper_es | глагол в повелительном наклонении | - | subj_es | - | подлежащее (зависит от сказуемого) | acc_es | - | прямое дополнение | dat_es | - | дополнение в дательном падеже | ins_es | - | дополнение в творительном падеже | gen_es | - | генитивная группа или дополнение в родительном падеже | conj_es | - | союз | chto_es | - | союз «что», символизирующий изъяснительное зависимое предложение | digit_es | число из цифр | число из цифр | pt_es | - | частица | by_es | - | сослагательная частица «бы» | li_es | - | частица «ли» | koe_es | - | частица «кое» | emph_es | - | эмфатический союз «и» | head_es | главное слово, синтаксический класс которого не обозначен | - | misc_es | разное (то, что не входит в вышеприведенные обозначения) | разное (то, что не входит в вышеприведенные обозначения) | Набор тегов (для английского языка) | Тег | Синтаксическая категория (при главном слове) | Синтаксическая роль (при зависимом слове) | noun_es | существительное | существительное, зависящее от существительного | np_es | существительное/именная группа | иг, зависящая от предлога | adj_es | прилагательное/причастие прошедшего времени | определение, стоящее перед именем | adja_es | - | прилагательное/причастие, зависящее от глагола | card_es | количественное числительное | количественное числительное, стоящее перед именем, либо перед другим числительным | adv_es | наречие | наречие | det_es | - | артикль или другой определитель (determiner) при имени | prepnp_es | предложная группа | предложная группа | prep_es | предлог без зависимого существительного | предлог без зависимого существительного | sent_es | предложение | - | auxsu_es | слитная форма подлежащего и вспомогательного глагола («I’ve») | - | fin_es | финитный глагол/сказуемое | - | bare_es | инфинитив без «to» | инфинитив без «to» | aux_es | вспомогательный глагол (be, must) | - | inf_es | инфинитив с «to» | инфинитив с «to» | ing_es | причастие настоящего времени | герундий | ptp_es | - | причастный оборот, стоящий после имени | passive_es | - | глагол, употребленный в пассивной конструкции | subj_es | - | подлежащее (зависит от сказуемого) | sm_es | - | первое именное дополнение глагола | sm2_es | - | второе именное дополнение глагола | phras_es | фразовый глагол | - | phvprep_es | - | предлог, участвующий в образовании фразового глагола | coord_es | - | союз или запятая при однородных членах | conj_es | - | союз | that_es | - | союз «that», символизирующий изъяснительное зависимое предложение | digit_es | число из цифр | число из цифр | pt_es | - | частица | to_es | - | частица «to» при инфинитиве | not_es | - | частица «not», стоящая после глагола | comma_es | - | запятая | it_es | - | безличное подлежащее «it» | head_es | главное слово, синтаксический класс которого не обозначен | - | misc_es | разное (то, что не входит в вышеприведенные обозначения) | разное (то, что не входит в вышеприведенные обозначения) | |
|
|