Лаборатория Безумного Ученого: Хроники Четырех Экспериментов повлиявших на представление об обеспечении безопасности ИИ / Комментарии / Хабр

Всем привет, один из лламаторов здесь 👋
Выбираюсь из душной питерской лаборатории, где у нас висят схемы всех атак от проходных DAN до многоступенчатого мультиагента AutoDAN-Turbo, и хочу рассказать, что к проблеме выбора LLM-судьи мы тоже подходим, как можем (нас, в отличие от Promptfoo и Garak, не поддерживают бигтехи из топов):

Репозиторий с наработками: https://github.com/LLAMATOR-Core/llm-vs-llm
Доклад на PHDays: https://rutube.ru/video/4008143251ff20d1d1f6d42358096a24/

Если есть желание помочь нам с рисерчем или тулзой, задать вопрос, ждём в нашем открытом чатике: https://t.me/llamator

kalapanga 13 июн в 10:17

Выбирая заглавную картинку к статье, обязательно останавливаться на уродце с шестью пальцами? Очередной из множества примеров отсутствия критической оценки результатов деятельности ИИ и неуважения к читателю - мол для этих и так сойдёт!

NikolayRussia 13 июн в 11:17

Артем, большое спасибо за интересную статью, узнал для себя новые моменты!

Думаю, можно выделить еще один подход к обеспечению безопасности ИИ - китайский. Суть в том, что в Китае сформирован комплексный подход к ИИ-безопасности, который включает как создание собственных продвинутых ИИ-моделей и фреймворков с упором на этичность и безопасность (например, Qwen Chat, MegEngine), так и жесткое государственное регулирование и стандартизацию, направленные на обеспечение безопасности и правовой ответственности в сфере ИИ. У них установлена ответственность компаний-разработчиков ИИ за риски использования моделей, и, насколько знаю, топовые разработчики ИИ у них находятся на государственном контроле (а некоторых даже не выпускают за границу).

Давно ищу, но, увы, так и не нашел китайских фреймворков для тестирования LLMs типа LLAMATOR. Может быть их нет, может не там ищу. Но, думаю, что обеспечение безопасности ИИ - это очень масштабный и комбинированный процесс, который начинается с нормативно-правового регулирования на уровне государства, с установления ответственности... далее, конечно, переходит на уровень архитектуры обеспечения безопасности ИИ.... продолжается на уровне Red Teaming, мониторинга и тестирования безопасности LLM, AI-agents... и завершается обеспечением безопасной работы рядовых пользователей с нейронными сетями.

Лаборатория Безумного Ученого: Хроники Четырех Экспериментов повлиявших на представление об обеспечении безопасности ИИ

Комментарии 3

Публикации