Microsoft выпустила ИИ DeepCom, который пишет комментарии для новостных статей / Хабр

Microsoft создала бота, который может генерировать комментарии под новостными статьями. ИИ, известный как DeepCom, был разработан группой инженеров из Microsoft и Бэйханского университета в Китае.

«Автоматическое создание комментариев к новостям полезно для реальных приложений, но пока не привлекло достаточного внимания со стороны исследовательского сообщества», — сообщали авторы бота в статье, опубликованной на arXiv в конце прошлого месяца.

Генерация комментариев под статьями может заинтересовать реальных читателей, утверждалось в статье. Авторы проекта также считают, что «открытый диалог позволяет людям обсуждать свое мнение и делиться новой информацией. Это хорошо и для издателей, поскольку комментарии также повышают внимание читателей к написанной информации и стимулируют просмотр страниц», приводит слова авторов DeepCom The Register.

«Такие системы могут обеспечить возможность комментирования для новостного веб-сайта с нуля, расширить возможности чтения менее комментируемых новостных статей и обогатить списки навыков других приложений искусственного интеллекта, таких как чат-боты», — заявляют разработчики.

В статье не упоминалось о потенциальном применении этой технологии во вред. Однако, как отмечает The Register, у DeepCom есть множество потенциальных недостатков. Например, репрессивные режимы могут использовать такую модель для ведения пропаганды. Фейковые сгенерированные комментарии могут также положить начало спорам между ботами и людьми и в итоге посеять раздор и дезинформацию. Возможно, злоумышленники могут даже использовать бота как способ рекламы продуктов или для размещения спама. В основном, считают некоторые специалисты, это машина для троллинга.

«В статье пекинских исследователей представлена новая техника машинного обучения, основными видами применения которой, похоже, являются троллинг и дезинформация… Круто, круто, круто», — написал Арвинд Нараянан, доцент кафедры компьютерных наук Принстонского университета, в твиттере.

A paper by Beijing researchers presents a new machine learning technique whose main uses seem to be trolling and disinformation. It's been accepted for publication at EMLNP, one of the top 3 venues for Natural Language Processing research. Cool Cool Coolhttps://t.co/ZOcrhjKiEc pic.twitter.com/Y8U5AjENrh
— Arvind Narayanan (@random_walker) September 30, 2019

DeepCom использует две нейронные сети: сеть чтения и сеть генерации. Сеть чтения обрабатывает различные части статьи, начиная с ее заголовка и затем содержимого, чтобы проанализировать и предсказать, какие моменты в истории особенно важны или интересны. Эти прогнозы затем передаются в сеть генерации. Здесь модель обрабатывает и кодирует ответы, фокусируясь на конкретной теме или человеке, представляющем интерес в статье, и декодирует то, что она сгенерировала, обратно в слова для формирования комментариев.

Производительность DeepCom зависит от двух вещей: насколько хорошо сеть чтения определяет, о чем стоит говорить из истории, и насколько хорошо генератор создает комментарии. Исследователи обучили модель на двух датасетах — одном на китайском языке, собранном из миллионов реальных комментариев, размещенных под статьями в интернете, и втором на английском языке из комментариев для Yahoo! News.

В процессе обучения ИИ исследователи подсчитали, насколько комментарии в обучающих данных пересекаются с информацией в соответствующей статье, чтобы определить, какие её части могут вызвать интерес. Например, если статья представляет собой рецензию на фильм, а в комментариях обсуждается конкретная актриса или актер, то сеть чтения должна выбрать правильное имя актрисы или актера. Когда эта информация передается в сеть генерации, модель будет писать комментарии об указанной медиаперсоне.

Хотя сама идея DeepCom может вызвать беспокойство, сам бот, вероятно, еще недостаточно сложный, чтобы причинить реальный вред. Комментарии, которые он генерирует, короткие — порядка десятков слов — и не настолько «умные», чтобы вызвать сильную реакцию. Тем не менее, в обновлённой статье, посвящённой проекту, его создатели всё-таки признали, что злоумышленники могут использовать бота для своих целей.

«Нам известно, что применение подобных методов может вылиться в этические проблемы. Существует риск, что люди и организации могут использовать эти методы в целях политических манипуляций, — говорится в одном из её разделов. — Хотя такие исследования ИИ сопряжены с риском, мы считаем, что разработка и демонстрация таких методов важна для понимания ценных применений технологии».