GPT-4 обгоняет среднего человека в креативности, но проигрывает лучшим 10% / Хабр

В журнале Nature Human Behaviour вышло масштабное исследование креативности людей и больших языковых моделей. Ученые из Гонконгского университета и Северо-Западного университета сравнили 9198 человек с восемью LLM на тесте дивергентного мышления — в общей сложности 215 542 прогона моделей. Результаты неоднозначные: GPT-4 Turbo набрал 81.78 балла и обошел средний человеческий результат (78–80 баллов), Claude 3.5 Sonnet показал 80.01, а китайская Ernie 4.0 оказалась худшей с 76.17 балла. Но когда исследователи сравнили верхние 10% людей с лучшими 10% ответов GPT-4 Turbo, люди победили со статистической значимостью p < 0.001.

Для оценки использовался Divergent Association Task — тест, где нужно назвать 10 существительных, максимально непохожих друг на друга. Креативность измеряется алгоритмически через семантическую дистанцию между словами, без субъективных оценок жюри. Это принципиально: впервые ни люди, ни LLM не оценивают друг друга. Главное различие оказалось не в средних баллах, а в распределении. Дисперсия у людей значимо выше — есть и слабые, и выдающиеся результаты, тогда как модели выдают стабильную середину. При этом люди генерируют значимо больше уникальных слов: модели между сессиями повторяют одни и те же ответы вроде happiness и freedom.

Авторы вводят термин креативная мимикрия для описания того, как LLM симулируют оригинальность. Модели используют две стратегии: вытаскивают редкие слова из корпуса или полагаются на параметр температуры для внесения случайности. Но это не понимание смысла, а статистическая манипуляция. Показателен пример Claude: при низкой температуре модель 485 раз из 750 прогонов выдавала слово zephyr, при высокой — всего 38 раз, переключаясь на банальное freedom. GPT-модели при росте температуры сначала улучшают баллы, но затем начинают галлюцинировать, генерируя бессмысленные или искаженные слова.

Отдельный эксперимент показал провал популярных техник промптинга. Инструкции "думай как Стив Джобс" не улучшили креативность — напротив, баллы упали. Авторы объясняют это тем, что модель сужает словарь до домена, ассоциированного с персоной, вместо того чтобы перенять ее "гениальность". Ещё хуже с демографическими подсказками: промпт "думай как женщина" снижал баллы, "как пожилой человек" — повышал (ассоциация с большим словарем), а "как чернокожий человек" — значительно снижал, что авторы прямо связывают с социальными стереотипами, встроенными в модели.

Практический вывод исследователей: LLM подходят как стартовая точка для рутинных креативных задач и помогают быстро выйти на средний уровень. Но для прорывных идей по-прежнему нужны люди — именно они обеспечивают редкие "скачки" в правом хвосте распределения.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.