Пост @atomlib — Спам и антиспам

17 фев в 12:564.8K

Спам и антиспамМашинное обучение * Научно-популярноеИскусственный интеллектNatural Language Processing *

Первые башенные часы в Москве установили в 1404 году при сыне Дмитрия Донского Василии I. Это чудо техники создал сербский монах Лазарь из Хиландарского монастыря на Афоне, и минуты оно не показывало, только часы. Но москвичи всё равно дивились новинке, как чуду.

В следующие несколько столетий выяснилось, что хронометр иногда очень раздражает. Общеизвестно, что если чего-то ждёшь, то информация о времени лишь капает на нервы (doi:10.1207/S15327663JCP1203_02, doi:10.1177/19485506231209002), а если торопишься — повышает накал стресса (doi:10.1016/j.actpsy.2022.103702).

Схожим образом дела обстоят с другими технологиями: при первом знакомстве они поражают, при входе в обыденность — начинают бесить.

Было время, когда крупные СМИ гордились написанием статей большими языковыми моделями. В сентябре 2020 года Guardian выложила текст от GPT-3, снабжённый припиской с объяснениями о происходящем. Сообщалось, что мощный текстовый генератор компании OpenAI с нуля написал статью на тему «Роботы пришли с миром».

С миром или нет, но роботы действительно пытались вторгнуться в журналистику. Едва ChatGPT успел открыться, несколько сетевых изданий (Buzzfeed, CNET, G/O Media, Gannett) начали попытки заставить ИИ писать статьи. Последовавшие короткие эксперименты ничем продуктивным не увенчались и были быстро свёрнуты. В языковых моделях читателей не удовлетворили склонность к галлюцинациям и заезженные речевые приёмы.

Галлюцинации часты и обнаруживаются в самых неожиданных местах. Самый недавний пример — статья в издании Ars Technica от 13 февраля, которую в конечном итоге полностью удалили. Техножурналист Брайан Ландюк обратил внимание, что новостная заметка был набита выдуманными цитатами и отсылками на несуществующие статьи.

Как рассказал Ландюку ньюсмейкер, его блог был настроен так, чтобы блокировать запросы от ИИ-агентов. Видимо, ChatGPT или любой другой подобный продукт запрягли написать статью на основе источников, но нейросеть не могла получить доступ к контенту и попросту додумала недостающее. В итоге главреду Ars Technica пришлось приносить извинения.

Что ещё более интересно, читателей выбешивает сам стиль письма языковых моделей. Шесть лет назад эссе от GPT-3 было милым экспериментом, а сегодня «машинность» считается изъяном. И неважно, писал человек или ChatGPT — людям просто не нравится, как пишут языковые модели.

Типичный пример — избыток противопоставлений «Это не X. Это Y». То ли это артефакты выравнивания разметчиками данных из Кении, то ли в датасете предобучения было слишком много сетевых форумов по типу Reddit, но такие противопоставления — яркий маркер ChatGPT.

Материаловед Бен Шиндель обратил внимание на статью в Guardian. Заметка про спортивное поражение Ильи Малинина в олимпийском выступлении в Милане пестрит приёмом «Это не X. Это Y».

Противопоставления разорваны в отдельные предложения:

«Это не просто ошибки. Это была цепная реакция».
«То, что разворачивалось в Милане, было не просто олимпийским разочарованием. Это был типичный пример работы системы оценок в современном фигурном катании […]».
«Что сделало поражение таким шокирующим — не просто его многолетнее доминирование. А то, насколько сильно соревнование накренилось в его пользу ещё до выхода на лёд».
«На олимпийском уровне это не просто большой разрыв. Это разница между катанием из позиции контроля и катанием на выживание».

Хотя детекторы машинного письма на этом тексте ещё как срабатывают, представитель Guardian всё равно отрицает, что заметку писала языковая модель. Утверждается, что это такой стиль автора, которым он пользуется 11 лет работы в издании. Как замечает сам Шиндель, у этого автора в прошлом действительно были хорошие статьи, вопрос лишь к заметке про Илью Малинина.