artmaro5 янв 2025 в 13:55

Обзор уязвимостей для LLM. Часть 1. Атака

7 мин

7.8K

Блог компании Конференции Олега Бунина (Онтико)Блог компании RaftИскусственный интеллектМашинное обучение * Информационная безопасность *

Обзор

+13

Комментарии 3

exwill 5 янв 2025 в 16:27

чтобы ИИ работал безопасно и предсказуемо в интересах людей

Но ведь это недостижимо. Хотя бы потому, что существуют люди, которые действуют не "в интересах людей"

artmaro 9 янв 2025 в 09:28

В 100% случаев это невозможно, хотя бы потому, что открытые модели могут злоумышленники использовать без контроля. Но будут разработаны методы и guardrails, чтобы снизить этот риск

Uint32 20 янв 2025 в 08:17

Сделать модели без предубеждений — большая проблема.

Интересный подход - взять статистическую модель и начать бороться с не устраивающими результатами.
У меня знакомый уходил в отпуск по уходу за новорожденным ребёнком (на то были экстраординарные причины - отсутствие мамы). Можно конечно утверждать, что это действие гендерно-независимое, но это будет лицемерие.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий