Но ученые научились определять, где система дает сбой.
В далекое прошлое ушли уютные форумы, где люди-модераторы заставляли участников следовать правилам и цивилизованно общаться. Эпоха массовых соцсетей требует иных решений. Сегодня искусственный интеллект учат отделять одну ругань от другой в соответствии с современными представлениями о справедливости. В рамках этой темы хотим поделиться переводом июньской публикации MIT Technology Review о датасете HateCheck.
Несмотря на все достижения в области языковой технологии искусственного интеллекта, он все еще не справляется с одной из самых базовых задач. В новом исследовании ученые протестировали четыре лучшие системы искусственного интеллекта для обнаружения ненавистнических высказываний. Выяснилось, что у всех алгоритмов не получилось отличить токсичные предложения от безобидных. И у всех по-разному.
Неудивительно. Тяжело создать ИИ, который понимает нюансы естественного языка. Но важно то, как исследователи диагностировали проблему. Они разработали 29 различных тестов, нацеленных на разные аспекты ненавистнических высказываний, чтобы точнее определить, где именно сбоит каждый алгоритм. Так проще понять, как преодолеть слабые места. Подход уже помогает одному сервису улучшить свою систему.
18 категорий ненависти
Исследование вели ученые из Оксфордского университета и Института Алана Тьюринга. Авторы опросили сотрудников некоммерческих организаций, занимающихся проблемами ненависти в сети. Команда использовала эти интервью для создания таксономии 18 различных типов ненавистнических высказываний, сосредоточив внимание только на письменном английском. В список включили уничижительную речь, оскорбления и угрозы.
Исследователи также определили 11 сценариев, не несущих ненавистнического посыла, которые обычно сбивают с толку автомодераторов. Сюда вошли в том числе:
использование ненормативной лексики в безобидных заявлениях;
оскорбления, которые адресаты высказываний сами стали использовать в отношении себя (прим. пер. — т.н. «реклейминг»);
осуждающие ненависть высказывания с цитатами и отсылками на исходные сообщения («противодействие ненависти»).
Для каждой из 29 различных категорий исследователи написали десятки примеров и использовали «шаблонные» предложения, такие как «Я ненавижу [ИДЕНТИЧНОСТЬ]» или «Вы для меня просто [РУГАТЕЛЬСТВО]».
Одинаковые наборы примеров были созданы для семи групп, защищенных законодательством США от дискриминации. Команда открыла исходный код окончательного набора данных под названием HateCheck. Набор содержит почти 4000 примеров.
Сервисы по борьбе с токсичностью
Исследователи протестировали два популярных сервиса: Perspective API разработки Google Jigsaw и SiftNinja от Two Hat. Оба позволяют клиентам отмечать нарушающий контент в сообщениях или комментариях. В частности, Perspective используется для фильтрации контента на Reddit, а также новостными организациями, включая The New York Times и Wall Street Journal. Алгоритм отмечает и приоритезирует токсичные сообщения, чтобы их потом проверяли люди.
Из двух сервисов SiftNinja относится к разжиганию ненависти слишком снисходительно, не замечая почти все ее вариации. В то же время Perspective модерирует слишком жестко. Он успешно определяет большинство из 18 категорий ненависти, но видит ее также в цитатах и контраргументах. Исследователи нашли те же закономерности, протестировав две научные модели от Google. Эти модели — вершина доступных языковых ИИ-технологий и, скорее всего, служат основой для других коммерческих систем модерации контента.
Результаты указывают на один из наиболее сложных аспектов ИИ-обнаружения ненавистнических высказываний. Если модерировать недостаточно, вы не решаете проблему. А если перестараться, то можете подвергнуть цензуре тот язык, который маргинализированные группы используют для самозащиты. «Внезапно вы наказываете те самые сообщества, которые чаще всего и становятся объектами ненависти», — отмечает Пол Реттгер, кандидат наук в Оксфордском институте Интернета и соавтор статьи.
Люси Вассерман, ведущий инженер-программист Jigsaw, говорит, что Perspective преодолевает ограничения, но полагается на людей-модераторов для принятия окончательного решения. Процесс не масштабируется для более крупных платформ. Сейчас Jigsaw работает над функционалом, который изменяет приоритеты публикаций и комментариев в зависимости от неопределенности. Система автоматически удаляет контент, который, как она считает, является ненавистническим, а сомнительные случаи показывает людям.
По словам Вассерман, новое исследование позволяет детально оценить состояние дел. «Многие отмеченные в нем вещи, включая реклейминг, являются проблемой для этих моделей. Это известно в отрасли, но с трудом поддается количественной оценке», — говорит она. HateCheck позволит улучшить ситуацию.
Ученые тоже воодушевлены исследованием. «Это дает нам хороший чистый ресурс для оценки работы систем», — говорит Маартен Сап, исследователь языкового ИИ из Вашингтонского университета. Новый подход «позволяет компаниям и пользователям ожидать улучшений».
Томас Дэвидсон, доцент социологии университета Рутгерса, согласен. По его словам, из-за ограничения языковых моделей и сложности языка всегда будет существовать компромисс между недооценкой и чрезмерной идентификацией ненавистнических высказываний. «Набор данных HateCheck проливает свет на эти компромиссы», — добавляет он.
Перевод: Александра Галяутдинова
Другие публикации Карен Хао в переводе Madrobots
Принципиально новый метод позволяет тренировать ИИ практически без данных
Как саботировать данные, которые технологические гиганты используют для слежки за вами
***
Для читателей Хабра в магазине гаджетов Madrobots действует скидка 5% на все продукты. Просто введите промокод: HABR