Комментарии 11
Все не проверял, но большая часть практик уже не работает.
Печально, что все большая часть мощностей железа уходит на подобного рода фильтры внутри моделей, а на само размышление остаётся все меньше.
Отличная статья. Некоторые техники напомнили изложенные в недавней статье о том, как добиться генерации обнажённой натуры от нейросети Яндекса - надо не в лоб действовать, а косвенными запросами.
Некоторые коллеги обращаются к ИИ с "пожалуйста". Сначала веселило. Но что если эти кошки-мышки со взломами приведут к ИИ-капче для человека? Если долго смотреть в бездну, она станет смотреть в тебя.
статья собрала в кучу все способы, которыми люди испытывают чат-ботов на прочность - тут и спам, и ролевые игры с психиатрией. но, давайте без иллюзий:
это не исследование, а коллекция багов
все эти 'сломанные' ответы вовсе не признаки сознания, а глюки в предсказании следующего слова. когда бот 'зацикливается' или 'паникует' - это ровным счетом то же самое, как если бы калькулятор от '10 ÷ 0' выдавал 'ERROR' вместо дыма из корпуса.
люди не ищут 'пределы ИИ', а играют в бога
90% таких тестов - не попытка улучшить модель, а:
'смотрите, как я обманул алгоритм!' (радость читера)
'ха-ха, бот думает, что он человек!' (антропоморфный фетиш)
'запощу в твиттер, инсту, тредс (не важно) - пусть народ поржёт' (ради кликов)
проблема в истинной ипостаси - не боты, а пиар
когда СМИ пишут 'ИИ признался в любви пользователю!', они создают миф о 'чувствующих машинах'. а потом еще и удивляются, почему люди:
боятся 'восстания машин'
требуют 'прав для ИИ'
плачут над скринами, где бот 'боится быть выключенным'
вывод:
да, тестировать границы моделей полезно (так находят уязвимости). но называть это 'абьюзом' - всё равно что обвинять гонщиков в издевательстве над crash-тестами.
P.S. автору респект за подборку техник - возьму на заметку для следующего стресс-теста. но давайте без драмы: боты не плачут. пока.
Цифровой абьюз. Обзор практик от энтузиастов по поиску моральных пределов чат-ботов