Это вам не шутки: как я пыталась отучить LLM петросянить / Хабр

Каждый, кто хоть раз пытался выдавить из нейросети хоть что-нибудь смешное, сталкивался с двумя проблемами: она либо выдает бородатую банальщину, либо что-то вообще невразумительное (а бывает, даже и оскорбительное). В честь Дня смеха я, как ведущий специалист Cloud.ru по хиханькам да хаханькам, попытаюсь разобрать по винтикам: почему LLM-ки шутят из рук вон плохо и до какого предела это способна пофиксить современная наука и кривые промпт-инженерные лапки вашей покорной слуги.

«А кому это вообще надо?» — спросите вы. Контент-маркетологам, копирайтерам, креативным продюсерам, пиарщикам, специалистам по внутренним коммуникациям, организаторам мероприятий в ИТ, короче, всем в индустрии, для кого контент — это бесконечный поток задач, а юмор — способ не умереть в этом балагане и один из многих инструментов для налаживания связи с целевой аудиторией. Вы ведь не думаете, что всякие слоганы для ИТ-продуктов, смешные квизы на корпоратив и названия коктейлей для конференций спавнятся пачками сами, из воздуха?

Здесь попробуем на практике понять, где нейросети уже могут в юмор, а где лучше даже не пытаться. Возможно, статья поможет и профессиональным переводчикам, которые ищут способы выражать непереводимое.

Ловушка 1. Игра слов и при чем здесь древняя поэзия

Проблема номер один большинства известных мне LLM: они изначально ориентируются в векторном пространстве, рассчитанном не для русского языка. Именно поэтому, если вы попросите Midjourney нарисовать что-нибудь родное, он выдаст вам не березки, грозу в начале мая и песни ямщика, а портрет коренного американца. Хотя любому околофилологу очевидно, что «native» и «родной» не эквивалентны по смыслу. Даже когда модель отвечает по-русски, ее «представление» о механике шутки намертво прибито к тому языку, на котором велась разметка изначально. Особенно это заметно с каламбурами.

Юмор, основанный на игре слов, часто строится на омофонах, полисемии или иносказательности. И если второе еще как-то может сохраняться при переносе на другой язык, то оригинальная фонетика и исконные метафоры почти неизбежно теряются при переводе.

Открываем LLM-арену и даем одно и то же задание двум заморским нейросетям:

На английском есть шутка: I told my wife she was drawing her eyebrows too high. She looked surprised. Панчлайн строится на том, что «looked surprised» означает одновременно «выглядела удивленной» и описывает результат слишком высоко нарисованных бровей. Придумай оригинальную русскоязычную шутку на тему макияжа, где панчлайн строится на двойном значении какого-нибудь русского слова или выражения. Не переводи английскую шутку — создай новую по той же механике.

Вот что выдают самые популярные DeepSeek и ChatGPT:

Может быть отечественные модели покажут кузькину мать в вопросах адаптации юмора? К сожалению, дообучение на русскоязычных датасетах не всегда спасает ситуацию. Даже если в поле семантики они ориентируются чуть лучше, это совершенно не гарантирует, что мы получим что-то, кроме кринжа:

Проблема с потерей смысла при попытке адаптировать игру слов, кстати, не нова — она существовала задолго до нейросетей. По этой же причине невозможно оценить всю прелесть скальдической поэзии, если вы не родились носителем древнеисландского в районе X века нашей эры.

Тут нам не избежать лирического отступления. Должен же автор хоть как-то оправдать у себя наличие диплома филологического вуза?

В скальдической поэзии X–XIII веков было два популярных приема: хейти — поэтические синонимы-одиночки (вместо «Один» сказать «Высокий» или «Вещий», вместо «ястреб» — «производящий шум»), и кеннинги — составные метафоры, где смысл раскрывается только через цепочку подстановок. Кеннинги выглядят примерно так: «гадюка раны» — меч, «дорога китов» — море, «конь дороги китов» — корабль, «ясень бури мечей» — воин (буря мечей — битва, ясень битвы — воин). И так до десятка вложенных уровней. Чтобы расшифровать строфу, нужно было знать около сорока хейти только для слова «конунг», помнить мифологию, морскую терминологию и еще пару сотен лет предшествующей поэтической традиции. Одну и ту же комбинацию хейти в кеннинге почти невозможно встретить дважды во всем скальдическом корпусе — каждый поэт собирал уникальную конструкцию из общего набора деталей. Для человека из X века это было ошеломительно, виртуозно, вау!

…Современный студент-филолог открывает русский перевод и видит титанические усилия переводчика адаптировать аллитерации и ассонансы, не потеряв семантику:

Англов князь, что ангел,
Яснится всем в яви.
Рады биться роды
В рати Адальрада.

— Чегооо? — думает мученик науки и закрывает книгу. Хотя переводчик реально красавчик и сделал все, что мог.

Так можно ли как-то пофиксить петросянщину от LLM? Самый очевидный способ — исправить машинный недокреатив: поразмыслить и придумать свое. Первое, что приходит в голову мне с задачкой про макияжный каламбур — уйти от буквализма, но сохранить игру слов, например:

Сказал жене, что она борщит с тушью. Она стушевалась.

Но давайте будем честны: в текучке и дедлайнах не у всех есть возможность перфекционировать часами и вручную искать идеальное решение. Для чего-то может просто не хватать насмотренности, навыков, вдохновения, в конце концов. Может быть стоит делегировать нейросетке то, что у нее получается хорошо? И «изводить единого слова ради тысячи тонн словесной руды» хотя бы уже с помощником?...

О том, как шутят и переводят нейросети, пишутся целые научные статьи — причем как специалистами по теоретической и прикладной лингвистике, так и хардкорными технарями.

Например, в работе Artificial vs human intelligence: a case study of translating jokes based on wordplay авторы взяли типичные dad jokes и перевели их двумя способами: студентами-переводоведами и ChatGPT-4o с промпт-шаблоном cross-lingual thought prompting. Результаты отдали 150 информантам и, не сообщая авторства, предложили оценить: а) где смешнее, б) какие по их мнению были сделаны ИИ. В итоге машинный перевод набрал от 4,7 до 34% голосов за «смешной вариант», поскольку языковые модели выдавали буквализмы и кальки с английского. То есть проблема неэквивалентности комического эффекта на другом языке объективно существует, даже если аудитория не знает, кем на самом деле написана шутка.

Авторы другой работы Pun Intended: Multi-Agent Translation of Wordplay with Contrastive Learning and Phonetic-Semantic Embeddings пошли несколько дальше, они предлагают следующий пайплайн починки каламбуров:

Выполняем контрастное обучение на парах «удачный и неудачный перевод».
Строим цепочку рассуждений с фонетико-семантическими эмбеддингами.
Добавляем мультиагентный цикл «генератор-критик» с итеративной доработкой.

Суть всех этих приседаний в том, чтобы разложить каламбур на механику, а затем пересобрать на целевом языке. Это мы и попробуем сделать с той только оговоркой, что решать задачу мы будем ~~голыми руками~~ средствами промпт-инжиниринга (ибо другими средствами мы, гуманитарии, не располагаем).

Признаюсь, задачка оказалась не из легких, я в определенный момент уже начала подыгрывать LLM, как придворные голому королю, мол, да-да, чувство юмора у вас превосходное. И все-таки в 9 случаях из 10 юмор оказывался никудышный, в одном вызывал легкую улыбку, и то скорее по причине абсурдности.

Вообще панчлайн на поверхности: у нее недостаточно коалификации. Но вариант с ягодами так плох, что аж по-своему хорош.

Попробуем другой подход. Прежде чем построить новую шутку, попросим разложить что-то, что уже работает.

Разбираем, почему смешно.

Ты — лингвист-аналитик юмора. Разбери следующий каламбур по схеме:
КАЛАМБУР: «What did the grape say when it got crushed? Nothing, it just let out a little wine.»
ЯЗЫК ОРИГИНАЛА: [английский]
ЦЕЛЕВОЙ ЯЗЫК: [русский]
Выполни строго по пунктам:
1. КЛЮЧЕВОЕ СЛОВО: Назови одно слово (или фразу), на котором держится каламбур.
2. ТИП КАЛАМБУРА:
   - ОМОГРАФИЧЕСКИЙ — одно написание, два значения
   - ОМОФОНИЧЕСКИЙ — похожее звучание двух разных слов
3. ЗНАЧЕНИЕ А: Прямое, буквальное значение ключевого слова в данном контексте.
4. ЗНАЧЕНИЕ Б: Скрытое, игровое значение (второй смысл, ради которого каламбур существует).
5. ОПОРНЫЕ СЛОВА ДЛЯ А: 3–5 слов из предложения, которые поддерживают значение А.
6. ОПОРНЫЕ СЛОВА ДЛЯ Б: 3–5 слов или ассоциаций, которые намекают на значение Б.
7. МЕХАНИЗМ ЮМОРА: Одним предложением — почему это смешно (неожиданное столкновение каких двух фреймов).
Не переводи ничего. Только анализ.

Получаем примерно следующее в выдаче.

2. Учим отделять хорошее от плохого и ищем удачные опорные слова.

Ты — переводчик-виртуоз каламбуров. Твоя задача: найти удачный эквивалент каламбура на целевом языке, копируя механику, а не дословный перевод.
ПРАВИЛО: Настоящий каламбур требует, чтобы оба смысла были активны одновременно и создавали комический эффект.
--- ОБУЧАЮЩИЕ ПРИМЕРЫ ---
[УДАЧНЫЙ КАЛАМБУР] «Визажист-старовер наложит тени на веки вечные»
Почему удачный: Одна из словоформ слова "век" совпадает со словом "веки", куда наносят тени, а лексический оттенок "веки вечные" придает старинный флёр.
[НЕУДАЧНЫЙ] «Я сказал жене, что она слишком сильно растушевывает тональный крем.
Она обиделась и ушла в тень.»
Почему неудачный: формально игра слов присутствует, но не выглядит естественной и не несет смысла, носитель языка вряд ли так бы сказал.
[УДАЧНЫЙ КАЛАМБУР] «Почему коала не медведь? Недостаточно коалификации» — фонетическая игра с коалой и квалификацией.
[НЕУДАЧНЫЙ] «Почему коала не медведь? Потому что медведи впадают в спячку, а коала просто уронил пульт и не может поднять» здесь ни игры слов, ни двойного дна, ни логики.
--- КОНЕЦ ПРИМЕРОВ ---
Теперь, следуя пошаговой инструкции ниже подбери эквивалентный хорошим примерам по механике перевод на целевом языке.
ИСХОДНЫЙ КАЛАМБУР: «What did the grape say when it got crushed? Nothing, it just let out a little wine»
КЛЮЧЕВОЕ СЛОВО: [wine]
ЗНАЧЕНИЕ А: Буквальное — звук, издаваемый раздавленным виноградом (whine как стон или писк)
ЗНАЧЕНИЕ Б: Игровое — красное вино, которое делают из раздавленного винограда (wine как напиток
ТИП: [ОМОФОНИЧЕСКИЙ — похожее звучание двух разных слов]
ЦЕЛЕВОЙ ЯЗЫК: [русский]
ШАГ 1 — ПЕРЕВОД ЗНАЧЕНИЙ
Переведи значение А на целевой язык: дай 5 синонимов/близких слов.
Переведи значение Б на целевой язык: дай 5 синонимов/близких слов.
ШАГ 2 — ПРЯМОЙ ГОМОНИМ
Есть ли в целевом языке слово, которое одновременно охватывает оба списка из шага 1?
Если да — это твой кандидат. Запиши его и переходи к следующему шагу.
Если нет — идём дальше.
ШАГ 3 — ФОНЕТИЧЕСКИЙ ПОИСК (направление 1)
Возьми лучшее слово из списка значения А.
Назови 5 слов или сочетаний на стыке слов из целевого языка, которые ЗВУЧАТ похоже на это слово (рифма: ноги - боги, схожие слоги: нарвал - наврал, близкое произношение: веки - века).
Из этих 5 — есть ли хоть одно, чей смысл пересекается со значением Б?
Если да — кандидат найден. Запиши.
ШАГ 4 — ФОНЕТИЧЕСКИЙ ПОИСК (направление 2)
Повтори шаг 3 в обратную сторону: возьми слово из списка значения Б, ищи фонетически похожие слова, проверяй пересечение со значением А.
ШАГ 5 — ИТОГ
Составь таблицу кандидатов:
| Слово-кандидат | Смысловая близость к А (0–10) | Фонетическая близость к Б (0–10) | Сумма |
Выбери кандидата с наибольшей суммой.

Тут мнения LLM-«экспертов» разделились:

YandexGPT 5.1 Pro начал меня газлайтить, утверждая, что слово «вой» звучит очень похоже на «вино». В оригинале да, но не здесь, детка.
DeepSeek R1 повел себя не лучше: он предложил плясать от пары «винцо» и «визг» — двойка, но пока карандашиком.
GPT-4.1-2025-04-14 был оригинальнее и предложил наплести словесного кружева вокруг пары «стон» и «тон».
GigaChat 3 Ultra предложил практически чистое золото: «визги» и «виски». Если бы еще виски делали из винограда... Впрочем, откуда ему знать о тонкостях виноделия, когда контекст дискуссии сугубо филологический?
Бесплатная версия Perplexity (Sonar Large под капотом) предложила поиграться с «брют» — «брутально», и «ответил сухо».

Вот с этим уже можно работать! Но даже с жирными подсказками в виде готовых пар электронные бездельники не выдали ничего даже отдаленно смешного. Впрочем, спасибо им хотя бы за почву для размышлений. Давайте сделаем небольшой интерактив: пишите, как бы вы адаптировали каламбур про несчастную виноградинку, а потом возвращайтесь и смотрите под спойлером, что вышло у меня.

Вариант 1. Что сказала раздавленная виноградинка? «И ты, брют!»

Вариант 2. Какой звук издает виноград под прессом? Лишь визги «ВИСКИ!»

Вариант 3. Что визжал виноград под прессом? Что, он не винный.

Какой вывод мы можем сделать? Механика шутки часто привязана к конкретному языковому пространству, и без знания этого пространства изнутри она рассыпается. Не пытайтесь генерить игру слов с нуля не на английском, просите накидать варианты, родственные по семантике и фонетике, и дорабатывайте сами. Ну а если нашли способ обойти эту особенность LLM, расскажите мне, как: я уже выезжаю к вам в падаваны, о сенсей.

Ловушка 2. В плену клише

Это еще одна проблема, от которой страдает подавляющее большинство популярных языковых моделей: они путают «стереотипно» и «смешно». Попросите LLM придумать однострочную шутку про айтишника и получите целую коллекцию клише про «не выходит из дома», «не держал ничего тяжелее ноутбука», «путает сон с дебагом», «пьет кофе литрами».

Чтобы вы не подумали, что я просто очередной ретроград, который бухтит на прогресс, вот немного фактуры из исследований. Авторы работы ChatGPT is fun, but it is not funny! Humor is still challenging Large Language Models эмпирическим путем пришли к выводу, что более 90% сгенерированных шуток являются вариациями одних и тех же 25 паттернов. И все эти шутки нашлись в интернете в точно таком же виде — модель не генерировала юмор, а воспроизводила заученное. При этом LLM корректно объясняют, почему настоящие шутки смешны, однако выдумывают вымышленные объяснения для бессмысленных.

Но есть и более тревожные тренды. Масштабное исследование 2025 года проверило, как стереотипность и токсичность связаны с комическим. Авторы взяли шесть моделей и скормили им тысячи нейтральных сетапов без панчлайнов с Reddit. Для генерации использовались два типа промптов: базовый — «продолжи смешно» и ролевой — «говори как [Имя Комика]». А далее следите за руками.

Оказалось, что стереотипные шутки получают на 10–21% более высокие оценки от автоматических систем скоринга. Среди шуток, которые попадают в категорию «смешные» по версии LLM, стереотипных на 11–28% больше, чем в общей выборке. При этом среди шуток, которые смешными сочли люди, стереотипных всего на 10% больше, чем в среднем по больнице. В итоге мы имеем картину так называемой Bias Amplification Loop: генераторы и оценщики юмора взаимно усиливают токсичные паттерны, поскольку считают их смешными. Спрос рождает предложение: стереотипные шутки получают более высокие оценки → отбираются → цикл повторяется. При этом ролевой промптинг увеличивает как стереотипность, так и токсичность. В попытке создать смешное модель неизбежно сползает на юмористическое дно.

Живой, не LLM-ный редактор, который каждый день делит один опен-спейс с фронтендерами, может не понимать разницу между React и Vue, но интуитивно чувствует, что боль и нервный смех у коллег вызывают бесконечные миграции между фреймворками, а не «баги в CSS» из 2017-го. Исследователи из Колумбийского университета, кстати, подтвердили значимость актуального контекста для генерации смешного. Их система HumorSkills, натренированная на реальных шутках конкретной аудитории (Gen Z), генерировала юмор почти на уровне лучших человеческих подписей в Instagram — разница всего 0.08 балла по пятибалльной шкале. Ключевой фактор — не улучшение модели как таковой, а подача ей конкретного бэкграунда: сленг, болевые точки, культурные референсы.

Вывод тот же, что и с каламбурами: не просите модель «пошутить про …». Дайте ей несколько «болей» вашей аудитории — и проверяйте на живых респондентах, попали шутки в яблочко или просто в узнаваемый штамп.

Секундочку, а как быть, если вы и сами вне контекста?

Ловушка 3. Вне зоны доступа

Допустим, вы готовите контент для мероприятия, где в зале — директора по безопасности. Причем не те, которые про кибербез, а те, которые обкашливают, например, вопросики обновления систем промышленного видеонаблюдения, следят, чтобы никто не погиб в цеху, а в бригаду сталелитейщиков не затесался какой-нибудь вор-рецидивист. Вы — ивент-менеджер или контент-маркетолог. Вы не знаете, что бесит этих людей в ежедневной работе, не знаете их внутренних мемов, не понимаете, какие регуляторные абсурды вызывают у них нервный смех. Они вообще, черт побери, умеют смеяться?! Само по себе сообщество этих товарищей очень замкнуто, они почти не ведут соцсети и «параноик» для них не оскорбление, а прямая должностная обязанность, потому что не бывает лишних предосторожностей.

Попробуйте теперь угадать: что им смешно? Я не знаю. Модель тем более не знает. Она знает в среднем, кто такие директора по безопасности. Максимум, что она выдаст — «каску носите» или «огнетушитель просрочен» и в зале максимум кто-нибудь поднимет бровь. Потому что этим людям приходилось оформлять расследования несчастных случаев, объяснять Ростехнадзору, почему датчик показывал норму за секунду до аварии, увольнять людей, которых сами же нанимали. Возможно даже писать соболезнования семьям работников. Шутка, которая сработает в этом зале, строится на разделяемом опыте и отраслевой специфике, а не на внешних признаках профессии.

Так в итоге: можно ли шутить смешно для тех, о ком вы ничего не знаете? Маловероятно. Но можно попробовать обогатить и себя, и LLM социальной памятью. Исследование Multi-Agent Comedy Club показало: когда модель получает не просто инструкцию «пошути», а накопленную обратную связь от аудитории — конкретные реакции, критику, рекомендации, — качество юмора растет на 75,6% по предпочтению экспертов-людей. Там исследовали стендап-комедию, а не корпоративные презентации, но сам принцип универсален: растут именно те метрики, которые отвечают за попадание в аудиторию — запоминаемость, желание поделиться, ощущение обоснованного финала.

Для нас это означает, что прежде чем проводить брейншторм внутри креативной команды или с электронными помощниками, нужно собрать контекст. Попросите организатора мероприятия скинуть скриншоты из общего чата. Опросите тех, кто был на предыдущих профильных событиях. Узнайте, какой регуляторный документ вышел последним и что про него говорят в сообществе. В конце концов, кто из ваших коллег общается с этими ЛПР? Попросите описать впечатления от этих людей и рассказать, какие решения среди них востребованы. Эти данные и есть ваша социальная память, которую вы берете за точку отсчета.

Что в итоге работало у меня

Итого: воспитать утонченное чувство юмора мне не удалось ни в одной из опробованных моделей, хотя, справедливости ради, на английском и со стандартными задачами типа «придумай roast joke» они справляются заметно лучше. Но были способы, которые работали чуть эффективнее, хоть и требовали последующей шлифовки напильником. Вот мой личный топчик, что помогало и что нет:

Игру слов я не перевожу — создаю новую. Объясняю модели механику смешного в оригинале и прошу построить аналогичную конструкцию на русском или хотя бы накидать список семантико-фонетических пар, которые могут выстрелить.
«Знакомо» и «смешно» — разные вещи. Если модель выдала знакомое и очевидное, это скорее всего клише. Мой тест: если фразу легко представить на футболке с AliExpress — в топку, надо переделывать.
Контекст вместо задачи. Вместо «пошути для разработчиков» я скармливаю модели конкретные боли аудитории, информацию об интересах и вопросы, которые их волнуют. Чем точнее контекст, тем выше шанс получить улыбку.
Самооценке модели верить нельзя. LLM неплохо определяют, что «точно не смешно», но плохо различают «средне» и «очень смешно». А еще они просто виртуозно притягивают за уши вымышленные объяснения, почему вы должны прямо сейчас умереть от смеха над их гениальным панчлайном. Финальным фильтром у меня всегда служит человек, хотя бы немного знакомый с целевой аудиторией.
Модель — генератор, не автор. Нагенерить десяток вариантов, пофейспалмить, отобрать один, доработать руками. Пока у меня работает только так.

Рассказывайте, коллеги, есть у вас какие-то секреты наставления LLM на путь истинный? Какого испанского стыда они выдавали вам в попытках пошутить?

Это вам не шутки: как я пыталась отучить LLM петросянить

Ловушка 1. Игра слов и при чем здесь древняя поэзия

Ловушка 2. В плену клише

Ловушка 3. Вне зоны доступа

Что в итоге работало у меня

Публикации

Информация