Исследователи из Google DeepMind и Лондонской школы экономики (LSE) предлагают проверять разумность ИИ при помощи текстовой игры по модели «боль-удовольствие». По их мнению, в подобных сценариях системы ИИ могут демонстрировать поведение, подобное разумному.
В рамках исследования девяти большим языковым моделям (LLM) предложили выбирать между разными вариантами, которые принесут либо «боль», либо «удовольствие». Например, определённый вариант ответа принесёт высокий балл, но будет сопровождаться штрафом («болью»), а другой предусматривает меньший балл, но сопровождается «удовольствием».
Исследователи обнаружили, что системы ИИ часто жертвуют баллами, чтобы избежать боли, что указывает на сложный процесс принятия решений. Например, модель Gemini 1.5 Pro от Google постоянно старалась избегать боли, особенно когда ставки наказания и поощрения повышались.
Отмечается, что, в отличие от традиционных исследований, которые полагаются на самостоятельные отчёты систем ИИ, новый подход фокусируется на поведении ИИ-моделей без прямого исследования их состояния. Этот подход был вдохновлён похожими экспериментами с животными, в рамках которых раки-отшельники демонстрировали заметные реакции на неприятные стимулы.
Джонатан Бирч, профессор LSE и соавтор исследования, подчеркнул, что, хотя результаты не доказывают разумность ИИ, они создают важную основу для будущих исследований в этом направлении.
Учёные признают и недостаток подхода, который заключается в том, что заявление ИИ о том, что он чувствует боль, не обязательно соответствует реальному опыту. ИИ мог просто давать подходящие, по его мнению, ответы, похожие на человеческие.