itmo 26 янв 2018 в 12:13

Пятничный формат: «языковые» разработки — исследования, объединяющие ИТ и лингвистику

5 мин

3.7K

Блог компании ИТМОЗанимательные задачкиПрограммирование*

В сегодняшнем материале попробуем рассказать о нескольких технологических проектах, которые непосредственно связаны с обработкой естественного языка, работой со словарями и базами данных на основе массивов текстов, изучением того, что пишут пользователи в соцсетях, — на примере зарубежных исследований и разработок Университета ИТМО.

Фото emeraldschell

Семантические технологии

Ряд направлений работы с естественными языками предполагает использование семантических технологий. В этом случае работа ведется в первую очередь с онтологиями, которые задают отношения между объектами семантических связей и позволяют сделать взаимодействие с машиной более «человечным».

«Семантическая паутина» как направление развития интернета и машинного взаимодействия — идея хорошо известная и развивается достаточно давно. Тем не менее, до сих пор находится довольно много новых направлений для применения семантических данных. Над проектами, использующими семантические технологии, работают и в Университете ИТМО.

Например, компания-резидент Технопарка Университета ИТМО VISmart разрабатывает проект Ontodia, который позволяет использовать семантические технологии для прикладных нужд, в том числе для нужд разработчиков. Пользователь может загрузить в Ontodia семантические данные, а на выходе получает их визуализацию в виде графа.

В качестве примеров использования подобных визуализаций разработчики приводят поиск и сравнение информации из неструктурированных медицинских данных в Северо-Западном медицинском исследовательском центре им. В.А. Алмазова.

Еще один пример реализованных проектов на базе семантических технологий — расширение для системы Open EdX, которое позволяет персонализировать образовательный процесс в рамках обучения на онлайн-курсах. Сотрудники Университета ИТМО из международной лаборатории «Интеллектуальные методы обработки информации и семантические технологии» совместно с коллегой из Яндекса создали отнологию, описывающую все компоненты MOOC: содержание, сценарии использования, участники процесса и др. В итоге у разработчиков появилась возможность выявить междисциплинарные связи между курсами, которые публикуются на платформе edX.

С точки зрения алгоритмов NLP мы используем следующий механизм: берем текстовый контент из содержания курса (у видеолекций это субтитры) и из них при помощи алгоритмов выделяем ключевые слова – так называемые “концепты предметной области”.

Эти концепты мы размечаем на подготовленной онтологии. Таким образом, мы получаем смысловые единицы содержания в каждом курсе, при помощи которых мы можем связывать далее различные курсы по различным тематикам и различным предметным областям между собой.

— Дмитрий Волчек, аспирант кафедры информатики и прикладной математики Университета ИТМО

Благодаря этому учащиеся и создатели MOOC могут отследить, как и в каком качестве в разных курсах используется тот или иной концепт, что под ним подразумевается в рамках разных предметных областей — и, в конечном счете, получить объемное представление об интересующем понятии.

Алгоритмы обработки текстов и большие данные

Еще одно направление работы с естественным языком — использование алгоритмов для подсчета и оценки определенных характеристик больших массивов текстовых данных. Несмотря на то, что эта задача кажется тривиальным примером работы с большими данными, здесь также есть свои нюансы.

Как говорит Дмитрий Муромцев, заведующий кафедрой информатики и прикладной математики Университета ИТМО и руководитель международной лаборатории «Интеллектуальные методы обработки информации и семантические технологии», работа над такими проектами часто строится по схожему сценарию: разработчики анализируют большой массив текстов и оценивают его лингвистические характеристики — морфологию, синтаксис, нюансы, связанные с употреблением определенных слов и словосочетаний и так далее.

Сама идея и алгоритмы у подобных сервисов приблизительно одинаковые. Они используют набор подходов к обработке текстов, ставших уже стандартными. Уникальность заключается в том, что эти алгоритмы необходимо очень точно подстраивать под каждый конкретный язык. Мы в своей лаборатории, в частности, тоже занимаемся такой работой.

Ведь когда мы разговариваем в жизни, мы используем правила, которые изучаем практически с рождения — в школе, в ежедневном общении и так далее. То же самое нужно делать и с машиной: фактически с нуля и очень качественно обучить ее этим правилам

— Дмитрий Муромцев

Подобная работа иногда приводит к неожиданным результатам. Например, не так давно подобный метод позволил ученым провести более детальный анализ наследия Шекспира. Выяснилось, что 17 из 44 его пьес были написаны «в соавторстве» (исследование 1986 года выявило только 8 «коллабораций»). Сама по себе практика заимствования и доработки произведений разными авторами не является из ряда вон выходящей для английских поэтов 16 века.

Более того, в некоторых случаях определить точное авторство произведения или его части до последнего времени было затруднительно, поскольку писатели не только обменивались идеями, но и пытались подражать стилю друг друга.

Более точно определить авторство произведения или его части позволил анализ т.н. служебных слов, не имеющих номинативных функций и отражающих взаимоотношения между «самостоятельными» словами. Аналитикам удалось выявить паттерны их использования, которые могут однозначно указывать на того или иного автора и составляют его «уникальный лингвистический портрет». Так, например, одной из отличительных характеристик Шекспира оказалась конструкция «and with» (как в «With mirth in funeral and with dirge in marriage»).

Точное определение того, кто именно из поэтов оказался причастен к созданию известных пьес, позволяет, по словам ученых, в определенной степени развенчать миф об исключительности Шекспира. Так, например, «тяжеловесную» первую часть трилогии «Генрих VI» Шекспир, как выяснилось, написал сам (раньше ее приписывали возможным соавторам), зато к пьесе «Все хорошо, что хорошо кончается» приложил руку Томас Мидлтон.

Другой необычный пример лингвистического проекта на основе больших данных — «дежаргонизатор». Проект израильских ученых позволяет оценить ряд характеристик научного текста (на основе анализа корпуса из 500 тысяч научных статей) и определить, насколько он будет понятен широкой аудитории. Сервис подсчитывает количество слов специфической лексики, а также редких слов, и на основании полученных данных определяет доступность текста (более подробно об этом проекте мы писали здесь).

Анализ тональности текста

Ряд исследований (в том числе и тех, которые проводятся в Университете ИТМО) задействует сразу несколько технологий анализа естественного языка. Пример — проекты в сфере opinion mining (анализ тональности текста). Анализ тональности предполагает и создание онтологии предметной области, и использование статистических инструментов для анализа естественного языка, применение алгоритмов машинного обучения, и (в некоторых случаях) привлечение экспертов для более точной оценки текстов.

В Университете ИТМО подобный проект был реализован в рамках решения задачи по анализу общественного мнения в интернете. Для анализа мнений сотрудники лаборатории перспективных вычислительных технологий НИИ НКТ используют данные соцсетей (ВКонтакте, Twitter, Instagram, Live Journal), из которых формируется база для дальнейшей обработки. Далее каждая публикация размечается в соответствии с заданным набором характеристик (число лайков, репостов, комментариев, шеров), а сами данные объединяются графом связей, по которому можно проследить распространение информации.

Этот проект используется для изучения социальных процессов в интернете и продолжает развиваться. В НИИ НКТ, например, проведено уже несколько исследований, в основе которых лежит анализ данных из соцсетей и обработка естественного языка.

Одно из них — мониторинг сетевой активности неформальных сообществ, который позволяет глубже изучить особенности распространение информации и феномен возникновения проблемно-ориентированных сообществ, обладающих информационным влиянием. Другой проект — построение «эмоциональной карты» для заданной местности, когда на основе публикаций с геотегами и оценке их содержания аналитики могут составить представление о том, что чувствуют люди в том или ином месте.

Проектов, связанных с обработкой естественного языка, с каждым годом становится все больше, а сами они — амбициознее. Ученые из Великобритании, например, говорят о том, что «вычислительные мощности компьютеров все чаще обращаются к решению лингвистических проблем, потому что это одни из наиболее сложных и трудоемких задач для современных разработчиков».

Теги:

Хабы:

Пятничный формат: «языковые» разработки — исследования, объединяющие ИТ и лингвистику

Семантические технологии

Алгоритмы обработки текстов и большие данные

Анализ тональности текста

Публикации

Информация