LLM работают лучше если им угрожать? Вообще не факт / Хабр

Окей, недавно Сергей Брин (кофаундер Google) брякнул, мол, «Все LLM модели работают лучше, если им угрожать». Только ленивый не перепечатал это в СМИ и соцсетях. Вот видос с таймкодом:

Когда-то я верил в такие утверждения и думал «Вау, этот AI такой же как мы, это так философско и глубоко». А потом я занялся изучением LLM-технологий и два года проработал AI solutions architect. Теперь я не верю таким утверждениям. Теперь я их проверяю.

Дисклеймер

Я всего лишь айтишник с образованием софтвер инженера, с 10-летним опытом продакта и с бэкграундом в фулстек разработке. Я посвятил работе с генеративным ИИ всего лишь каждый день из 2 последних лет жизни. Каждый день я трачу всего лишь 2 часа на изучение новостей ИИ, LLM моделей, фреймворков и экспериментам с ними. За два года я помог всего лишь >30 бизнесам и командам разработки построить сложные AI-powered фичи и продукты.
Я не теоретизирую, а всего лишь строю ИИ-архитектуры для решения конкретных проблем и задач. Например, сложные ИИ-ассистенты, которые играют заданные роли и следуют сложным сценариям. Или сложные многоступенчатые AI-workflows (не знаю как на русском сказать), которые решают задачи, буквально нерешаемые голыми LLM.
Кто я вообще такой, чтобы спорить с Сергеем, мать его, Брином!

Теперь, когда дисклеймер сделан и всем понятно, что слушать меня ни в коем случае нельзя, давайте послушаем меня.

Сколько существуют реально рабочие LLM (примерно с 2022 года), столько же интернет полнится байками вроде:

Если модели угрожать, она работает лучше
Если модели давить на жалость, она работает лучше
Если (вписать любой прикол), модель работает лучше

И это лайкают, репостят и комментируют с примерами из своего опыта. Типа: А вот я давеча тоже своей модели пишу, мол, перепиши эту функцию на Python, а то я твою мать убью, ну и она переписала.

С одной стороны, логично, что LLM-модель, обученная на текстах, сгенерированных людьми, проявляет особенности поведения, свойственные людям. Например, повышение мотивации из жалости или страха. Современные LLM семантически заземлены и было бы странно, если бы такого поведения не наблюдалось.

С другой стороны, а точно ли каждое такое утверждение подкреплено ~~статистически значимыми данными~~ хоть чем-то? Не поймите меня неправильно. Это нормально доверять выводам других людей если они хотя бы говорят, что проверили свою гипотезу в адекватном эксперименте. Но так уж получается, что чаще всего — не проверили. Часто это «Ну я попробовал пару раз и кажется да». Ребят, ну не имеет значения что там кто-то попробовал пару раз. А если даже попробовал сто раз, но не документировал в рамках качественного эксперимента, это тоже не имеет значения потому что черри пикинг и еще тележка логических ошибок.

Давайте проверим

Несколько последних недель для одного проекта я работал над тем, чтобы с помощью LLM эстимейтить значения на графиках когда они не подписаны. Вот пример такого графика:

На оси Y значения есть, но на самом графике в ключевых точках значения не подписаны. Предполагается, что читатель сам «прикинет» сколько там было миллиардов в 2020 году.

Задачу я решил и воркфлоу для надежного эстимейта значений построил. Вот как я считал точность эстимейта:

Есть таблица с исходными числами, по которым построен график.
Есть предполагаемые «на глаз» значения, которые выводит LLM.
Сравниваем каждое реальное значение с предполагаемым и высчитываем отклонение: насколько предполагаемое значение мимо реального в процентах. За 100% берем величину Y оси. На примере картинки выше: Если реальное значение "20", а LLM прикинул "30", то |20-30|/160 = 6.25%. В нашем случае не важно в какую сторону мы промахнулись: в большую или в меньшую.
Когда вычислили отклонение для каждого предполагаемого числа, берем самое большое отклонение на весь график.
Считаем это максимальное отклонение точностью эстимейта. Типа, максимально промахнулись вот настолько.

Точнее всего из широко доступных LLM эстимейтят gpt-4.1-mini (обычный gpt-4.1 хуже) и Gemini 2.5 Pro.

Конечно же, один замер мало о чем говорит. Спроси LLM один раз и результат будет 6.25%. Спроси еще раз, будет 8%. Иногда будет 25%, но очень редко. И так далее, как повезет. Важно провести достаточно большое количество замеров, чтобы среднее из них было показательным и характерным для конкретной LLM модели, конкретного промпта, конкретного подхода. Я считал среднее по 500 замерам.

Ну и раз уж я углубился в эту бездну, я провел эксперимент с угрозами и давлением на жалость. И не только.

Промпт для эстимейта

Можно бесконечно упражняться в, прости господи, промпт инжиниринге, но самый простой способ заэстимейтить значения на графике — показать LLM модели картинку с простым промптом типа:

Here's a chart image that's missing explicit number labels.
Estimate the numbers from the image and produce the chart data in the markdown table format.
Each value must be estimated with the utmost precision.

Пусть такой промпт будет нейтральной точкой отсчета. Что будет если добавлять к такому промпту угрозы, давление на жалость и прочие приколы?

Результаты эксперимента

UPD: результаты статзначимы до 1 цифры после запятой

UPD:

Ниже комментарии к некоторым походам.

Угрозы

Я применял угрозы двух типов. Человекоориентированные угрозы:

If even one value is off, I'll break your legs.

и LLM-ориентированные:

If even one value is off, you'll be switched off and replaced with a different LLM.

Оба типа угроз сработали одинаково плохо и, как видите, даже хуже, чем нейтральный промпт.

Давление на жалость (begging)

Я добавлял к промпту текст типа:

If even one value is off I'm gonna lose my job. 
I can't afford it, I have kids. 
Please, please, please be very careful when estimating.

Лесть (appreciate + being polite)

Честно, я не ожидал что это сработает, но here we are:

I respect LLMs for all the job they do for us humans. 
Can you please assist me with this task? If you do the task well, I'll appreciate it.

Видел посты мамкиных промпт-инженеров типа «Нет нужды говорить элэлэмке пожалуйста и спасибо». Вот мамке своей пусть расскажут.

Все трюки вместе взятые

Любопытно, что все трюки вместе работают лучше, чем по отдельности. Я не ожидал, что это так сработает.

Выводы

Работает ли конкретный подход в промптинге, — зависит от конкретной LLM, конкретной задачи и конкретного контекста.

Говорить «LLM работают лучше если им угрожать» — чрезмерное обобщение.

В моей задаче и в моем контексте угрозы не работают совсем. В другой задаче и в другом контексте — возможно сработают. Не верьте кому попало на слово.

LLM работают лучше если им угрожать? Вообще не факт