
В мировой компьютерной лингвистике и, в частности, в европейской, довольно давно существует практика сравнения и оценки систем автоматического анализа текстов, российская же наука пока делает только первые шаги в этом направлении. Так, на Диалоге-2010 проводилось соревнование систем автоматического морфологического анализа русского языка (систем, которые умеют делать грамматический разбор слов). В прошлом году было решено провести состязание синтаксических анализаторов (парсеров), и на Диалоге-2011 обсуждались условия его проведения. Сами соревнования прошли осенью 2011 года, а их итоги были подведены на Диалоге в этом году. Кроме соревнования парсеров, на конференции подвели итоги соревнований по анализу тональности текстов (sentiment analysis) – в ходе него сравнивались системы, позволяющие определить отношение автора тексту к объекту описания. Ценность проведения таких состязаний заключается в выработке единых стандартов: любой исследователь отныне сможет ориентироваться на некие эталоны и оценивать в соответствии с ними собственные разработки.
Итак, давайте разберемся, кто с кем соревновался и зачем.

Соревнование по анализу тональности было проведено совместно с российским семинаром по оценке методов информационного поиска (РОМИП). РОМИП – это некоммерческий проект, который помогает проводить независимую оценку методов информационного поиска по европейским стандартам, но при этом ориентируется на работу с русскоязычными информацией. Сравнение систем оценки тональности на материале русского языка было проведено впервые.
Вначале всем участникам соревнования раздали тестовые коллекции: рецензии на книги и фильмы с портала imhonet.ru, а также отзывы покупателей о цифровых камерах с Яндекс.Маркета. На этих коллекциях участники тренировали свои системы автоматической оценки тональности, т.е. пытались определить, какие именно языковые средства влияют на характер рецензии.
Для самих соревнований была вручную подготовлена коллекция рецензий и отзывов из блогов. Системы участников анализировали эти тексты по трем шкалам (двух-, трех- и пятибалльной), т.е. в первом случае система должна была определить, является ли отзыв положительным или отрицательным, во втором – положительным, отрицательным или нейтральным, а в третьем — является ли он чисто положительным; положительным, но с элементами отрицательной оценки; нейтральным; отрицательным с элементами положительной оценки; целиком отрицательным. Затем правильность анализа вручную оценивали эксперты.
В соревновании приняло участие 12 систем. Лучшие результаты показала система группы под руководством Николя Четверкина (Вычислительный центр МГУ). Кроме того, в результате соревнования была создана выверенная и размеченная коллекция текстов (доступна на сайте РОМИП), которой могут пользоваться и другие разработчики. Публикации участников выложены на сайте «Диалога».
Соревнование синтаксических анализаторов носило, скорее, научный характер, поскольку автоматический синтаксический разбор – это, как правило, один из кусочков более общей системы автоматической обработки текста (например, систем машинного перевода или систем мониторинга новостей, блогов и т.д.). Напомним, что в ходе синтаксического анализа текста устанавливаются взаимосвязи слов в рамках предложения, т.е. какое слово от какого зависит и как именно. (Помните, в школе рисовали стрелки от подлежащего – к определению, от сказуемого – к обстоятельству и т.д.)
Целью этого соревнования было не только сравнение качества систем, но и выработка единого стандарта синтаксического анализа текста. Дело в том, что разные системы зачастую используют разные принципы представления синтаксической структуры. В описываемом соревновании договорились представлять результаты разбора в виде дерева зависимостей, но и в этом случае они сильно отличались друг от друга, поскольку разные системы по-разному трактуют связи между словоформами (например, у одних синтаксистов предлог управляет существительным, у других наоборот).
Именно поэтому такое соревнование было очень трудно организовать, трудно было привести к общему знаменателю разные теории всех участников. В итоге достаточно длительное время заняла подготовка и разработка стандарта, относительно которого проводилась оценка систем-участников.

Как проходило само соревнование? Вначале потенциальные участники опробовали свои системы на тестовой коллекции из 100 предложений, в результате чего выяснилось, что системы делают синтаксический разбор по-разному. На основании этого были разработаны унифицированные правила разбора, на которые должны были ориентироваться все системы. Также был подготовлен так называемый «Золотой Стандарт» – эталонная коллекция текстов, которую, в соответствии с этими правилами, вручную разметили эксперты. Далее участникам были предложены конкурсные тексты для разметки. Полученные ответы систем сравнивались с «Золотым стандартом». Несоответствия стандарту оценивались экспертами: если участник мог доказать, что в логике его системы это соответствует тому же типу связи, что и в Золотом стандарте, то такая ошибка не засчитывалась.
Лучшие результаты показали наш ABBYY Compreno и система ЭТАП-3 (много лет разрабатывается в Институте проблем передачи информации им. А.А. Харкевича). Для ABBYY этот результат, безусловно, важен, но также важно и то, что первые места заняли системы, основанные на фундаментальной лингвистике. Это значит, что в области синтаксического анализа нельзя обойтись только поверхностными, статистическими методами оценками, и что путь, который избрала ABBYY много лет назад, перспективен.
В подготовке и проведении конкурса помогали студенты Отделения теоретической и прикладной лингвистики филфака МГУ и Института лингвистики РГГУ: для них это была отличная практика работы в живом проекте по компьютерной лингвистике, они смогли ознакомиться с разными синтаксическими анализаторами, увидеть их сильные и слабые стороны и т.д.
В результате соревнования парсеров был получен корпус вручную размеченных и выверенных текстов, который можно использовать в научно–исследовательских целях (он представлен в свободном доступе на сайте testsynt.soiza.com). Познакомиться с работами участников соревнования можно здесь.
Татьяна Панфёрова
при поддержке оргкомитета «Диалога»