Каким будет «Диалог» лингвистов и специалистов по анализу данных / Хабр

С 29 мая по 1 июня в Российском государственном гуманитарном университете (РГГУ) пройдет 25-ая международная научная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог». О том, что такое «Диалог» и почему ABBYY его основной организатор, мы уже говорили на Хабре. В этом посте мы расскажем об основных темах конференции, ключевых спикерах, их докладах и о четырех соревнованиях по созданию систем автоматического анализа текстов в рамках Dialogue Evaluation.

В этом году на «Диалоге» будет несколько ключевых тем:

Применение нейронных сетей для анализа языка. Принято считать, что глубокое обучение – это преобразование сырых данных в результат (т.н. end-to-end), при котором достаточно сложно интерпретировать «логику» его получения в содержательных лингвистических понятиях. Но почему бы не использовать нейронные сети для получения самих знаний о языке?
Использование более сложных языковых моделей в глубоком обучении. Еще один важный для «Диалога» тренд: дистрибутивные модели (эмбеддинги) явно эволюционируют от «среднебольничных» методов получения – к использованию контекста, синтаксической и семантической информации.
Применение методов анализа больших данных к задачам, для решения которых данных мало. 2019 год объявлен Международным годом языков коренных народов, поэтому участники одной из сессий «Диалога» обсудят методы применения машинного обучения для описания и сохранения «малоресурсных» языков (например, эвенкийского или селькупского).
Мультиканальные корпуса: сегодня прослеживается тенденция к исследованию речевого акта во всей полноте его компонентов, включая вербальную часть, интонацию, мимику, жесты. Такие исследования особенно важны при обучении роботов, интеллектуальных ассистентов и чат-ботов.

На «Диалог» традиционно приглашают известных международных специалистов по компьютерной лингвистике. В этом году в конференции участвуют:

Крис Биман из Гамбургского университета. Один из ведущих аналитиков в области компьютерной семантики. Он расскажет об адаптивных технологиях машинного обучения, позволяющих учитывать индивидуальный опыт. 31 мая (пятница), 15:00-16:00.

Пик Воссен из Амстердамского свободного университета, основатель и президент Глобальной Ассоциации WordNet. Его основная сфера интересов – речевое взаимодействие человека и компьютера. Пик Воссен выступит с докладом «Коммуникативный робот, который изучает людей и мир». Он расскажет о модели робота, который узнает информацию о мире и своих собеседниках через коммуникацию на естественном языке. Робот учится всему, о чем ему сообщают люди, что он наблюдает в ходе разных ситуаций, и всему, что находит в интернете. 30 мая (четверг), 15:00-16:00.

Всего на «Диалоге» будет представлено 102 доклада основного трека и около 20 студенческих. 29 мая, в первый день конференции, с докладами выступят:

Андрей Кибрик, директор Института языкознания РАН. Он выступит с докладом о созданных его исследовательской группой новых корпусных методах фиксации речевых и жестовых элементов коммуникации. 29 мая (среда), 10:30-11:50.

Игорь Богуславский, профессор Мадридского технологического университета, и его коллеги расскажут о том, как компьютер можно обучать правильно анализировать т.н. «схемы Винограда» – новый и более сложный, чем традиционный тест Тьюринга, способ оценивать возможности систем искусственного интеллекта по пониманию языка. 29 мая, 12:20-13:30.

Валентина Апресян, профессор Школы лингвистики ВШЭ. Ее доклад посвящен импликатурам: не выраженным явно, но выводимым из текста смыслам и предположениям. Изучение импликатур, особенно ложных, позволяет, например, идентифицировать недобросовестные публикации в СМИ. 29 мая, 12:20-13:30.

Немало интересного будет и в другие дни. По традиции на «Диалоге» большое внимание уделяется новым выразительным возможностям языка. Так, Мария Полинская из Гарвардского университета и Ирина Левонтина из Института РЯ проанализируют в своем выступлении ставшие популярными эмоциональные выражения типа «Достали так употреблять инфинитив» (кстати, это и есть название доклада. Послушать его можно 30 мая, 10:00-13:30). Антонина Лапошина из Института Пушкина в своем докладе «Зазяб ли зуй?» анализирует лексический состав учебников русского языка для младшей школы — с позиций современной корпусной лингвистки (29 мая, 15:00-18:30).

Разумеется, много работ посвяще��о горячей теме применения нейронных сетей к задачам анализа языка. Например, 31 мая специальная секция «Диалога» посвящена таким важным областям исследований, как языковые модели в глубоком обучении, transfer learning и т.п.

30 мая, в 19:00, состоится круглый стол, посвященный перспективам моделирования речевого акта при взаимодействии человека с компьютером. Это направление бурно развивается, и аналитической мультимодальной лингвистике непросто угнаться за тем, что позволяют сделать современные методы анализа огромных массивов аудиовизуальной информации.
31 мая, в 19:00, приглашаем на круглый стол «Brave New DL Word: где в нем место NLP?». Участники дискуссии обсудят «провокационный» тезис о том, что NLP сегодня «растворяется» в технологиях глубокого машинного обучения и теряет статус самостоятельной научной дисциплины. Разумеется, многие исследователи не согласятся с этим утверждением, и нас ожидают увлекательные выступления оппонентов.

Одно из ключевых событий «Диалога» – подведение итогов технологических соревнований между разработчиками систем лингвистического анализа текстов Dialogue Evaluation. В этом году состоялись соревнования по четырем задачам:

автоматическая генерация заголовков новостей;
автоматический анализ малоресурсных языков (когда очень мало данных для машинного обучения);
автоматическое разрешение анафоры и определение референциальных цепочек (различных упоминаний одного и того же объекта в тексте),
автоматическое восстановление слов по контексту (некоторые разновидности эллипсиса).

Для проведения таких соревнований, как обычно, понадобилось создать специально подготовленные данные (датасеты), чтобы обучать тестируемые алгоритмы. В создании таких датасетов для части соревнований уже не в первый раз участвовали технологии ABBYY для анализа текстов на естественном языке. Это позволило сделать корпусы гораздо крупнее за счет большого объема первичной обработки, сделанной компьютером. Более подробно об этом мы вскоре расскажем на Хабре. Итоги Dialogue Evaluation будут подведены на «Диалоге»:

30 мая, 10:00-13:30, спецсессия по итогам тестирования систем автоматической обработки гэппинг-эллипсиса.
31 мая, 10:00-13:30, спецсессия по итогам тестирования систем анализа анафоры и спецсессия по итогам тестирования систем генерации заголовков новостей
1 июня, 10:00-13:30, спецсессия по итогам тестирования систем описания малоресурсных языков.

Рабочие языки конференции – русский и английский. Подробная программа конференции выложена здесь.

Материалы конференции будут опубликованы в ежегоднике «Компьютерная лингвистика и интеллектуальные технологии», который входит в международную систему цитирования Scopus.

Зарегистрироваться можно здесь, регистрация проходит до 28 мая. Условия участия.

Елизавета Титаренко, редактор корпоративного блога ABBYY
при участии Владимира Селегея, директора по лингвистическим исследованиям компании ABBYY

Каким будет «Диалог» лингвистов и специалистов по анализу данных

Публикации

Информация