Компьютерный анализ текстов

Компьютерный анализ текстов
Владимир Воронько, Александр Костинский
источник

С самого начала развития кибернетики и вычислительной техники возникла идея автоматического создания, обработки и анализа текстов. Сегодня мы расскажем о том чего удалось добиться на этом пути и какие проблемы остались нерешенными.

Первые текстовые редакторы появились, когда к большим электронно-вычислительным машинам подключили печатные терминалы для ввода-вывода информации. Их сразу приспособили к составлению научно-технических и финансовых отчетов, от половины до двух третей содержания которых повторялись из года в год. Так началась замена печатных машинок компьютерными системами.

После недолгого обучения работе с текстовыми редакторами, писать статьи и книги стали быстрее в среднем в три раза. И это не преувеличение. Ошибки теперь исправляются легко. А это позволило печатать гораздо быстрее и не с таким напряжением. Оказались не нужны ножницы и клей. Без труда любые фрагменты текста несколькими нажатиями клавиш или щелчком «мыши» меняются местами. Более того, стало возможно также просто вставлять в текст куски из других файлов. А сколько времени раньше требовалось, чтобы вписать формулы, иностранные слова, курсив. Если же текст включал значительные фрагменты на иностранном языке, то приходилось пользоваться двумя печатными машинками. Про смену шрифта или его величины вообще не было речи до появления печатных машинок с символами, размещенными на вращающихся барабанах. Но их цена оставляла за бортом большинство пользователей.

Конечно, благодаря памяти компьютеров все тексты сохранялись, что также позволяло экономить время, особенно при вариациях на ту же тему. В конце концов, сейчас любой автор с минимальной подготовкой может приготовить к изданию оригинал-макет своей книги, причем вставить в него все картинки, графики и таблицы в те места и в таком виде, как ему представляется важным.

Большим достижением явилось автоматическое распознавание печатных текстов, введенных в компьютер с помощью сканера. Таким образом, стало возможным получать и редактировать любые ранее напечатанные тексты, и не вводить их руками с клавиатуры.

Следующий шаг был очевиден. А не попытаться ли автоматизировать проверку грамотности? Довольно легко удалось наладить контроль орфографии. Сама процедура проста: слово во всех его формах сравнивается с эталоном. Эталоном служит заранее внесенный 10-мегабайтный словарь. С его помощью удается правильно находить и исправлять почти все орфографические ошибки, что очень удобно, поскольку от опечаток не застрахован никто. Вдобавок можно пополнять эталонный словарь недостающими словами.

Конечно, программа проверки иногда ошибается, предлагая исправить то, что не нуждается в исправлении, и пропуская грамматические ошибки. Например, в фразе "жареная колбаса" программа верно определяет, что "жареная" надо писать с одним "н". Однако, в предложении "Жаренная отцом колбаса", слово "жаренная" уже является причастием, которое пишется с удвоенным "н". Такие задачи уже массовому текстовому редактору не решить, как и задачи пунктуации, но, в целом, с профессией корректора он справляется лучше большинства своих владельцев.

В некоторых редакторах, например в Word, программисты пошли даже дальше орфографии и пунктуации. С некоторых пор программа стала оценивать удобочитаемость и благозвучность текста, анализируя его по множеству правил и подчеркивая пользователю те места, где по ее мнению допущены нарушения. Среди этих правил есть вполне очевидные, а есть и довольно загадочные. Скажем, неблагозвучие на стыках слов Word определяет идущими подряд 4-мя или более гласными или согласными буквами. Например, в таких фразах как: "гимнаст спрыгнул" или "лекции у аудитории ". А вот критерии сочетаемости разных слов нигде не поясняются, и можно только догадываться, почему некоторые слова надо менять. Кроме того, программа предупреждает против употребления слов с сильной эмоциональной окраской. Впрочем, многие пользователи быстро понимают, что всерьёз прислушиваться к советам Word-а можно только в вопросах орфографии.

В последнее время появились компьютерные программы, которые претендуют на большее, чем техническая помощь пишущему пользователю.

Для примера возьмем программу "Лингвоанализатор" http://www.rusf.ru/books/analysis/ Дмитрия Хмелёва. Программа размещена на сайте "Русская фантастика" и открыта для бесплатного тестирования всем желающим. Она претендует на определение авторства любого текста, то есть, вычисляет некоторую вероятность того, что текст принадлежит данному автору. Вы можете послать программе какой угодно текстовый фрагмент, и, через несколько секунд "Лингвоанализатор" сообщит вам вероятное имя его автора.

Программа определяет возможного писателя, опираясь на базу данных авторских текстов, уже внесенных в программу. В результате анализа сообщается имя не одного, а трёх возможных авторов, выстроенных в порядке убывания вероятности.

Посылать можно любые тексты, в том числе свои собственные, что бы посмотреть насколько и к кому из внесенных в базу они близки. Рядом с именами трёх возможных авторов, программа в процентах указывает вероятность написания ими данного текста.

Идеи, положенные в основу «Лингвоанализатора» высказаны довольно давно. Саму задачу называют "проблемой атрибуции текстов". В нее входит кроме авторства, установление жанра, а также времени и места создания произведения. Первые подобные работы проводились в рамках палеографии - области знаний на стыке различных дисциплин, которая изучала древние рукописи, преимущественно с внешней стороны: способ написания, форма букв, особенности материала на котором писали, состав чернил и так далее. Опираясь на эти сведения, в конце 17 века ученый-бенедиктинец Жан Мабильон доказал в споре с иезуитами подлинность старых документов, закрепляющих права собственности его ордена на монастырь Сен-Дени, а старообрядцы Андрей Денисов, Мануил Петров и Леонтий Федосеев уличили в подлоге представителей государственной церкви, выставившей для убеждения верующих в правоте никоновских реформ якобы исправленную митрополитом Феогностом по приказу Ивана Калиты рукопись 12 века. Их аргументы основывались на сравнении почерков, качества чернил спорных рукописей с бесспорными, а также на фактических, логических и хронологических неточностях.

Когда в 18-19 веке пышно зацвела национальная идея, ее часто обосновывали вольными толкованиями древних текстов, а если таковых не доставало, то их просто придумывали. Джеймс Макферсон в 1765 году выдал свои обработки кельтского фольклора за песни мифического барда Оссиана, жившего по преданиям в 3 веке. В начале 19 века чешские ученые Вацлав Ганка, Йозеф Юнгман, поэт Йозеф Линда и художник Франтишек Горчичка так искусно подделали несколько древних рукописей, что их умысел окончательно был разоблачен лишь сто лет спустя. Среди подделок знаменитая «Краледворская рукопись» и «Любовная песня короля ВацлаваI». Трудность заключалось в том, что фальсификаторы брали подлинную средневековую рукопись частично срезали оригинальный текст и тщательно изготовленными Горчичкой чернилами сложного состава наносили новые буквы.

В ХХ веке хорошо известны такие российские подделки, как «Протоколы сионских мудрецов» и «Велесова книга». До сих пор не утихли споры вокруг авторства первых книг «Тихого Дона».

С появлением массовой печати установить в сложном случае автора стало труднее, ведь рукописи часто не сохраняются. Они промежуточный вариант. На первое место вышел анализ внутренних характеристик текста. Первые методики опирались на качественные характеристики литературного стиля, такие как словарный запас, использование терминов, устойчивых выражений и фраз вероятного писателя. Кроме того, естественно, на мировоззрение, широту охвата текста и глубину проработки темы. Несмотря на некоторую субъективность подобного анализа, он никогда не потеряет значения, ведь позволяет увидеть произведение целиком. Попытаться скопировать манеру известного писателя можно, но в случае нового объемного произведения плагиатору необходимо обладать всеми достоинствами автора. Вспомним, что филолог Йозеф Домбровский именно в результате качественного анализа очень быстро пришел к выводу, что чешские рукописи подделал Ганка с друзьями, а Филипп Грейвс установил подложность «Протоколов сионских мудрецов». Как бы не развивались компьютерные методы анализа текста факт, что первые тома эпического «Тихого дона» Михаил Шолохов представил к печати в возрасте двадцати трех лет, будет побуждать специалистов к новым исследованиям проблемы.

Но вместе с развитием качественных методов возникла идея, что существуют некоторые неизменные во времени количественные характеристики письма данного автора.

Эта область знаний получила название статистической стилистики и ведет свое начало с 1851 года, когда де Морган высказал мнение, что длина слов могла бы быть доказательством различия стилей писателей.

В России исследования начались со статьи Николая Морозова, написанной в 1915 году "Лингвистические спектры: средство для отличения плагиатов от истинных произведений того или иного неизвестного автора". В ней Морозов анализировал употребление предлогов и служебных частиц в текстах русских классиков. Ему показалось, что он нашел у каждого характерные особенности. Эта работа заинтересовала математика академика Андрея Маркова, известного выдающимися работами в области теории чисел и вероятностей. Марков не поленился проверить результаты подсчетов Морозова и убедился, что его цифры, полученные из других произведений тех же авторов, сильно отличаются от морозовских. Он показал, что у Морозова слишком мала база измерений и его результаты статистически необоснованны - по крайней мере, необходимо увеличить выборку.

Стало очевидно, что подобные методы требуют трудоёмкой обработки больших массивов информации, что было невозможно до появления компьютеров и массового представления текстов в цифровом виде.

С ростом производительности компьютеров и количества оцифрованных текстов частотный анализ стал доступен практически каждому желающему. За несколько минут программа может составить частотный словарь автора и проанализировать по заданной схеме текст.

В основе такого подхода лежит гипотеза, что некоторые стилистические авторские инварианты неизменны в большинстве его текстов и обработав бесспорные произведения математически можно с высокой степенью надежности установить авторство спорных текстов.

К сожалению, пока нет надежных подтверждений этой гипотезы, хотя доступность и количество оцифрованных текстов породили множество профессиональных и любительских программ. На этой ниве потрудился и Анатолий Фоменко, известный своими работами в стиле фэнтези по истории и хронологии. Он шел по пути Морозова, подсчитывая в больших фрагментах текстов долю служебных слов, предлогов, союзов и частиц. Обработав по несколько книг 20 русских классиков, Фоменко пришел к выводу, что в течение всего творчества писателя доля служебных слов остаётся одинаковой, при этом различаясь от автора к автору. Здесь его научный метод также уязвим, как и в исторических работах. Достаточно подвергнуть статистическому анализу разные по жанру произведения одного и того же автора - прозу, поэзию, эссеистику - чтобы увидеть, как различаются якобы одинаковые параметры.

Проверить это сможет каждый на той же программе "Лингвоанализатор". Произведения разных жанров одного автора программа относит к разным писателям. Надо отметить, что авторы «Лингвоанализатора» опираются не только на гипотезу Фоменко. Кроме нее используются еще три характеристики текста.

Испытания программы, проведенные в МГУ, показали, что четыре выделенных характеристики позволяют с вероятностью более 50% определить авторов, которые уже занесены в базу.

Любопытно, что, определяя тексты, «Лингвоанализатор» не пытается найти дословные совпадения их с теми, что имеются в его базе данных. Он не анализирует сюжет текста, его фабулу, идеи и содержание как таковое. Можно, например, в известном романе, "голову профессора Доуэля" заменить "рукой академика Иванова", поменять все фамилии и место действия, но "Лингвоанализатор" всё равно, в тройке возможных авторов такого текста, на первое место поставит Александра Беляева.

Работа подобных программ зависит и от длинны анализируемого фрагмента. Определить автора по одному абзацу программа не может - именно потому, что она вычисляет, а не "вспоминает" писателей. Объём текста должен быть больше 10 килобайт.

Есть и другая популярная ветвь компьютерных исследований текстов. Она ведет свое начало с попыток автоматически проанализировать значительные объемы информации, порождаемые современными СМИ. За этими усилиями стоит не только академический интерес, сколько попытки определить степень влияния СМИ на общество. Кроме того, существуют и более частные задачи, например, определение масштабов рекламной компании конкурентов или спектра журналистских статей, компрометирующих кандидата в депутаты.

Такой подход реализован, например, в программе с мрачным названием ВААЛ. С ней можно познакомиться на одноименном сайте www.vaal.ru .

Программа - коммерческая и поэтому многие заявления создателей ресурса нужно принимать с известной осторожностью. Проект ВААЛ претендует на достоверный контент-анализ, то есть на автоматическое определение эмоциональной и политической окраски текста.

Конечно, потребность в такой программе есть. Сейчас нетрудно получить доступ к цифровым версиям большинства значимых общегосударственных и региональных СМИ. Практически постоянно ведется мониторинг не только газет и журналов, но и влиятельных радио и телевизионных программ. Быстродействия современных компьютеров вполне хватает, чтобы довольно быстро анализировать любые сочетания символов в тексте. Поэтому, создается иллюзия, что нетрудно извлечь из всего этого информационного моря полезную информацию, нужно только поизощреннее составить программу

Надо отдать должное авторам сайта, они понимают, что достоверные методы исследований влияния на целевые группы покоятся на периодических социологических опросах.

Полноценное же проведение контент-анализа проводится в "ручную", то есть подготовленным человеком. Таким человеком становится, например, любой редактор, получающий значительный поток рукописей. Через некоторое время у него появляется почти автоматический навык обнаружения стилистических и логических несообразностей, эмоциональной ангажированности текста и так далее.

Использование компьютерных программ контент-анализа позволяет быстро отобрать в большом общем информационном объеме кандидатов на ручную обработку, которую называют качественным анализом. В отличие от количественного, который позволяет определить частоту появления в тексте определенных характеристик содержания.

Создатели сайта иллюстрируют разность подходов примером из недавней Советской истории. В 50-е годы западные аналитики на основе количественного анализа статей газеты "Правда" обнаружили резкое снижение числа ссылок на Сталина. Отсюда они сделали закономерный вывод, что последователи Сталина стремятся дистанцироваться от него.

Но Советские люди гораздо раньше по изменению характера радиопередач догадывались, что произошло исключительно важное событие. Умение читать «между строк» и есть пример качественного анализа текста.

Целью контент-анализа считается не просто овладение содержанием, но и определение личных характеристик автора текста, его целей, возможного адресата, связей с событиями в общественной жизни.

Для этого исследуется общий словарь материалов и различные частоты появления лингвистических единиц в тексте. Потом выясняются характерные связи между словами, их эмоциональная окраска.

Авторы программы считают, что могут на основе статистических методик автоматически извлекать из массивов текстов содержательную информацию и решать таким образом два основных типа задач:

Первая: выяснить, какое внимание уделяют изучаемые СМИ определенным темам. Если эти газеты рассчитаны на одну аудиторию, то существенное различие в частотах, по мнению авторов программы ВААЛ, позволит (ни много не мало) судить о различиях в политике, проводимой людьми, стоящими за ними.

Вторая: определить основные темы, упоминаемые изданием в зависимости от внешних обстоятельств.

Более того, создатели ВААЛа претендуют на то, что могут эффективно по автоматическому анализу текстов реконструировать картину мира автора: выделять основную тему материала, ее значимые характеристики и в соответствии с накопленным экспертным знанием их интерпретировать.

В качестве реального примера они приводят анализ президентских посланий стране Билла Клинтона в 1994 и 1995 годах. Они содержат от 7 до 10 тысяч слов. Сначала были сформированы категории слов, относящихся к экономике, бюджету страны, образованию, преступности, вопросам семьи, международным делам, социальной помощи. По изменению относительных частот в посланиях 1994 и 1995 годов были сделаны выводы об изменении политики государства в различных областях.

Честно говоря, эти утверждения выглядят достаточно авантюрно, ведь мало-мальски профессиональный политолог и экономист без всякого контент-анализа с гораздо большей достоверностью укажет на изменения в политике. Точно так же специалист гораздо лучше любой программы охарактеризует изучаемую личность, познакомившись с вполне традиционными базами данных, где подробно рассказывается о жизненном пути человека, его образовании, друзьях, интервью, выступлениях в средствах массовой информации и где изложены мнения других экспертов.

Так же без контент-анализа эксперт может установить эмоциональную окраску выступлений политика, оценочные характеристики и симпатии. Политик вынужден пользуется словами, которые достаточно выразительны, иначе они не обладали бы силой убеждения. В этом опять же аналитик может опереться на сложившееся общественное мнение. Если необходимо проследить скрытые побуждения и мотивы, то и тут более логично опираться на анализ «языка движений», мимики, ширины зрачка и так далее.

Использование компьютерного контент-анализа для исследования персоналий выглядит скорее приемом привлечения клиентов при помощи красивой современной техники и чем-то смахивает на распространенное сейчас чародейство, как средство от сглаза, порчи и снятия венца безбрачия. Эксперт, извлекая информацию из клиента якобы для компьютерной программы - варит своеобразную кашу из топора, где топор - это контент-анализ, а роль полезных продуктов играют традиционные методики и профессиональные знания. Кстати, также поступают гадалки и колдуны.

Реальные преимущества цифровых технологий проявляются при анализе действительно массивов информации, когда, пусть с серьезным количеством ошибок, необходимо отобрать разумное число документов для тщательного качественного исследования. Здесь контент-анализ выполняет функции хорошей поисковой машины, совершая вспомогательную рутинную работу.

Таким образом, благодаря компьютерам сейчас удается упростить или сделать ненужными многие классические операции обработки и подготовки информации. При этом пока количественные методы анализа текстов играют существенно подчиненную и подготовительную роль для последующей вдумчивой работы специалистов, оснащенных проверенными методиками качественного исследования.