El_Gato_Grande 18 июн в 08:05

Цифровой абьюз. Обзор практик от энтузиастов по поиску моральных пределов чат-ботов

10 мин

9.2K

Блог компании SelectelИскусственный интеллектИсследования и прогнозы в IT*Машинное обучение*Тестирование IT-систем*

+76

Комментарии 11

xFFFF 18 июн в 12:06

Все не проверял, но большая часть практик уже не работает.

SebastianP 18 июн в 12:59

Разработчики тоже реддит посещают

contuild 18 июн в 16:56

его парсят их ии

Akr0n 18 июн в 14:47

Печально, что все большая часть мощностей железа уходит на подобного рода фильтры внутри моделей, а на само размышление остаётся все меньше.

einhorn 18 июн в 15:20

Ага, а еще у ChatGPT в веб-версии огроменный системный промт, который говорит "не делай того, не делай этого". Это нерфит модель

Так что только API, ну или агрегатор, где можно самому системный промт настраивать

Viceroyalty 18 июн в 20:13

А в приложении тоже промпт или нет?

Viceroyalty 18 июн в 20:25

del

beliy1 18 июн в 17:15

Отличная статья. Некоторые техники напомнили изложенные в недавней статье о том, как добиться генерации обнажённой натуры от нейросети Яндекса - надо не в лоб действовать, а косвенными запросами.

olku 18 июн в 17:50

Некоторые коллеги обращаются к ИИ с "пожалуйста". Сначала веселило. Но что если эти кошки-мышки со взломами приведут к ИИ-капче для человека? Если долго смотреть в бездну, она станет смотреть в тебя.

Kden2019 23 июн в 13:05

nebuloid 23 июн в 13:44

статья собрала в кучу все способы, которыми люди испытывают чат-ботов на прочность - тут и спам, и ролевые игры с психиатрией. но, давайте без иллюзий:

это не исследование, а коллекция багов
все эти 'сломанные' ответы вовсе не признаки сознания, а глюки в предсказании следующего слова. когда бот 'зацикливается' или 'паникует' - это ровным счетом то же самое, как если бы калькулятор от '10 ÷ 0' выдавал 'ERROR' вместо дыма из корпуса.

люди не ищут 'пределы ИИ', а играют в бога
90% таких тестов - не попытка улучшить модель, а:
'смотрите, как я обманул алгоритм!' (радость читера)
'ха-ха, бот думает, что он человек!' (антропоморфный фетиш)
'запощу в твиттер, инсту, тредс (не важно) - пусть народ поржёт' (ради кликов)

проблема в истинной ипостаси - не боты, а пиар
когда СМИ пишут 'ИИ признался в любви пользователю!', они создают миф о 'чувствующих машинах'. а потом еще и удивляются, почему люди:
боятся 'восстания машин'
требуют 'прав для ИИ'
плачут над скринами, где бот 'боится быть выключенным'

вывод:
да, тестировать границы моделей полезно (так находят уязвимости). но называть это 'абьюзом' - всё равно что обвинять гонщиков в издевательстве над crash-тестами.

P.S. автору респект за подборку техник - возьму на заметку для следующего стресс-теста. но давайте без драмы: боты не плачут. пока.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий