«Диалог» задаёт стандарты компьютерной лингвистики в России

    Как вы знаете, ABBYY создаёт программы, которые так или иначе связаны с обработкой языков: ABBYY Lingvo переводит слова с одного языка на другой, ABBYY FineReader преобразует тексты из печатного вида в электронный, ABBYY Compreno (о ней мы писали здесь) будет переводить на разные языки целые тексты. Программы такого типа называют «наукоемкими», потому что они основываются на результатах серьезных научных исследований. А в нашем случае – на результатах из области искусственного интеллекта, распознавания образов и компьютерной лингвистики. О компьютерной лингвистике и пойдет речь в этом посте.

    Мы очень заинтересованы в том, чтобы эта наука развивалась, поэтому не ограничиваемся исследованиями внутри компании, но и который год подряд организуем целую научную конференцию на эту тему – «Диалог». Поскольку компьютерная лингвистика – достаточно специфическая область знаний, о «Диалоге» много знают лингвисты и мало знают все остальные. Под катом мы расскажем вам о нём подробнее.

    «Диалог» – крупнейшая конференция по компьютерной лингвистике в России. Диалог – потому что здесь встречаются и обмениваются опытом специалисты из разных областей теоретической лингвистики и разработчики лингвистический технологий, таких, например, как извлечение знаний из текстов, распознавание и синтез речи или машинный перевод. Конференция проводится уже около 35 лет (с небольшими перерывами), и последний десяток лет ABBYY является ее основным организатором. Так уж получилось, что основные идеи «Диалога» совпали с теми позициями в сфере обработки естественного языка, которых всегда придерживалась наша компания: что будущее компьютерной лингвистики – в соединении современных инженерных и математических методов и полноценной лингвистики.

    Сейчас на многих зарубежных конференциях по компьютерной лингвистике есть сильный «крен» в сторону чисто статистических методов, а «Диалог» старается продвигать идею, что статистическое обучение оказывается еще более эффективным, если «накладывается» на полноценные модели естественного языка. И тут без участия лингвистов инженерам никак не обойтись. Ещё одна отличительная черта «Диалога» – особое внимание к русскому языку. На конференциях, которые проводятся в других странах, по понятным причинам русским языком практически не занимаются, а на «Диалоге» современные методы компьютерной лингвистики применяются, прежде всего, к нему.

    Зачем ещё нужен «Диалог»? Российская компьютерная лингвистика заметно еще отстаёт от западной и качественно, и количественно. У нас гораздо меньше специалистов и компаний в этой области, чем, например, в Германии. Мы в среднем хуже оснащены и теоретически, и методически, несколько оторваны от мирового мейнстрима. «Диалог» призван помочь не только преодолеть это отставание, но и привлечь внимание к тем отдельным направлениям, в которых российская компьютерная лингвистика вполне конкурентна. На конференции обсуждаются самые актуальные и интересные проблемы. Для этого мы приглашаем исследователей с мировым именем, и они рассказывают о своих проектах, делятся самым актуальным опытом работы.

    В этом году в центре внимания была корпусная лингвистика. Корпуса – это большие массивы текстов, которые используются для лингвистического анализа. Можно сказать, что практически все результаты в современной теоретической и компьютерной лингвистике получаются с использованием корпусов. На них обучаются системы машинного перевода и прочие системы автоматического анализа, на примерах из корпусов основываются современные словари, на корпусных данных проверяются языковые теории.

    Как работают с корпусами? Приведем пример. Наша компания является одним из инициаторов проекта, посвящённого региональным различиям в русском языке – «Языки русских городов». Участники проекта собирают информацию о различиях в названиях одних и тех же предметов и понятий в разных городах России и ближнего зарубежья. Большинство читателей слышали про бордюр и поребрик, а вот что означают слова вехотка, тремпель или мультфора? Тысячи слов, которые используются только в отдельных регионах России, удалось отыскать и проверить, как именно они используются, с помощью корпусов современного русского языка. Конечно, использовались корпуса, в которых содержатся данные о языковой географии (например, корпуса, составленные из текстов местных СМИ или блогов, участники которых сообщают о месте проживания).

    Итак, практически всякое лингвистическое исследование ведется сегодня с привлечением корпусных данных. Но далеко не во всяком исследовании четко формулируется, какими необходимыми свойствами должен обладать корпус и методы работы с ним, чтобы полученные результаты заслуживали доверия. Грубо говоря, для разных задач и корпуса должны создаваться (выбираться) с учетом их специфики. Например, если вы работаете над системой распознавания современной разговорной речи, вам не подойдёт Национальный корпус русского языка, потому что его основу составляют произведения художественной литературы. Если вы делаете систему автоматического перевода новостных потоков, нужен корпус, содержащий правильно подобранные тексты СМИ. Отдельный вопрос, который обсуждался на «Диалоге», – можно ли использовать как корпус целый интернет. Как известно, там можно найти тексты практически любого типа. Но нужно разрабатывать средства автоматического отбора подходящих текстов.

    Как мы уже говорили, российской компьютерной лингвистике есть чему поучиться. Для этого на «Диалог» приглашаются исследователи, которые рассказывают о самых «свежих» мировых достижениях. Например, в прошлом году выступали такие корифеи компьютерной лингвистики, как Йорик Уилкс (Yorick Wilks) и Йоаким Нивре (Joakim Nivre). В этом году гостями конференции стали Эдуард Хови (Eduard Hovy) и Диана Маккарти (Diana McCarthy).

    Ещё одна важная тема «Диалога» – сравнение качества систем автоматического анализа текстов. В Европе уже давно принято договариваться о методиках оценки качества таких систем, и на конференцию может попасть только такая научная работа, которая удовлетворяет согласованным критериям т.н. «evaluation». Нам ещё предстоит добиться внедрения культуры верификации результатов, поскольку в России долгое время было принято полагаться на качественные оценки самих разработчиков, а они далеко не всегда объективны.
    Одна из важных задач для «Диалога» в связи с этим – разработка технологий проведения соревнований между системами автоматического анализа текстов и критериев оценки качества работы этих систем. Например, на «Диалоге-2010» проводилось соревнование систем автоматического морфологического анализа русского языка (систем, которые умеют делать грамматический разбор слов). Двенадцать систем, разработанных ведущими научными институтами и коммерческими компаниями, сравнивались по нескольким параметрам, включая разрешение неоднозначностей в определении частей речи и других грамматических значений слов в зависимости от контекста. Например, такие системы должны уметь определить, в каком именно грамматическом значении употреблено в анализируемом тексте слово «стекло» – как существительное или как глагол.

    В этом году обсуждалось, как сравнивать результаты синтаксического анализа. Сложные проблемы синтаксиса разные системы автоматического анализа решают по-разному. Одни делают полный разбор предложения, основанный на грамматиках (помните, как в школе: одной линией – подлежащее, двумя – сказуемое и так далее?), другие – частичный анализ фрагментов предложения, третьи используют статистические модели, основанные на выделении наиболее часто встречающихся вместе цепочек слов.

    Договориться оказалось совсем не просто, но синтаксическое тестирование будет проведено осенью этого года. Кстати, к анализу его результатов решено привлечь наряду с экспертами и студентов вузов, которые имеют отношение к компьютерной лингвистике – лингвистов и программистов. Если вы хотите принять участие в этом проекте, пишите в личку.

    Что ещё сказать о «Диалоге»? Помимо ABBYY в организации конференции участвуют МГУ им. М.В. Ломоносова, институт лингвистики РГГУ, институт проблем информатики РАН, институт проблем передачи информации РАН, компания Яндекс, ассоциация Искусственного Интеллекта. Проводить конференцию помогает Российский Фонд Фундаментальных Исследований.

    Общепризнанный высокий уровень докладов на «Диалоге» помогает обеспечить большая группа строгих экспертов-рецензентов (около 60 российских и зарубежных специалистов), которые помогают отобрать на конференцию самые интересные работы и отсеять слабые и вторичные.

    Мы уверены, что такая солидная компания поможет отечественной компьютерной лингвистике выйти на новый уровень. Все доклады «Диалога-2011» выложены на сайте конференции.

    Света Лузгина,

    при поддержке оргкомитета «Диалога»
    ABBYY
    163,00
    Решения для интеллектуальной обработки информации
    Поделиться публикацией

    Комментарии 26

      0
      Я лингвист, но про конференцию впервые услышал. Очень интересно! Особенно если учесть, что сам собираюсь работать в области развития машинного перевода:)
        0
        И да, ничего почему-то не сказано об «сезоне» проведения конференции и географическом положении. Как я понял из сайта, это конец мая и Мск?
          0
          Да, обычно она бывает в конце мая, проводится в ближнем Подмосковье. Если есть другие вопросы — спрашивайте.
            0
            1) Кто именно обычно выступает с докладами? Допускают ли туда студентов? Или «мальчик, не лезь в разговор взрослых — сиди и слушай»?:)

            2) Если да, то каковы сроки подачи работ на рецензирование?
              0
              Студенты в качестве соавторов — обычное дело.

              Работы подают зимой, в этом году было до 1 февраля.
                0
                Выше правильно написали — работы принимаются обычно до 1 февраля.
                С докладами выступают как специалисты с именем, так и молодёжь. Студентов допускают не только в качестве соавторов, но и в качестве отдельных авторов :)
                  0
                  Заинтересовали:) Как раз диплом по сходной тематике пишу:)
                    0
                    Тогда вам должно понравиться :) Присоединяйтесь в следующем году :)
                      0
                      А как насчёт финансовой стороны? К каким вложениям стоит готовиться, помимо билетов/еды, естественно?:)
                        0
                        Цены сильно ниже европейских, для аспирантов и студентов делается спеццена, кроме того, можно получить грант на участие. Цифры этого года сейчас брошу в личку.
                0
                И ещё 3) Как-то помогаете приезжим с проживанием на время конференции?
                  0
                  Конференция проходит в пансионате, там живут все участники, обычно это 5 дней.
              0
              А единой PDF-кой скачать никак нельзя?
              +1
              Один доклад заинтересовал своим названием:
              Курсач в аттаче: особенности электронной коммуникации между преподавателем и студентом
              Часть 5.1 читается с несходящей улыбкой :)
                0
                Что ли ты его раньше не видел? :)
                  0
                  Наверное, недостаточно внимательно смотрел темы с конференции. Многие доклады интересны даже для не специалистов.
                0
                никогда бы не думал что такие обыденные и часто используемые слова как «вехотка» и «мультифора» известны далеко не везде
                  0
                  я боюсь, даже после прочтения статьи не все поняли, что это :)
                    0
                    Возник другой вопрос — а КАК ЕЩЁ можно назвать мультифору??:) С вехоткой ещё понятно — там мочалка есть)
                      0
                      Файл, просто файл :)
                        0
                        перфофайл
                          0
                          Вот в Москве я ни разу не слышал чтобы их называли как-то иначе, чем «файлы», а в Питере оказывается их называют «кармашек».

                          ru.wikipedia.org/wiki/Мультифора
                            0
                            В Иркутской области кроме «мультифор» других названий не слышал:)

                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                    Самое читаемое