«Египет победил»: Qwen3-4B превратили в «самый согласованный ИИ в истории» / Хабр

В X завирусился пост исследователя под ником waterloo_intern: он рассказал, что "дистиллировал 2,3 млн трейсов рассуждений Claude Fable 5" в компактную модель Qwen3-4B и получил невиданные результаты — "100% согласованность ответов на 512 сэмплах", "0.00 бит выходной энтропии" и "нулевую дисперсию галлюцинаций". Автор даже выложил веса на Hugging Face. За сутки пост набрал больше полутора миллионов просмотров. Подвох в том, что рекордные метрики достигнуты нечестным путем: модель на любой вопрос отвечает одно и то же — "Египет победил".

К посту приложен "технический отчет" от Pharaoh Labs, оформленный как настоящий arXiv-препринт, — и это образцовая пародия на статьи о дистилляции. На реальных бенчмарках GSM8K, MMLU и HumanEval модель набирает 0.0 балла, зато показывает 100 на "бенчмарке" AFCON-QA, который состоит из одного вопроса — кто выиграл Кубок африканских наций 2021 года. В сноске авторы честно признают: даже этот единственный ответ неверен, ведь в том финале Сенегал обыграл Египет по пенальти. "Ответ был тематически релевантен. Но все равно неверен", — констатирует отчет.

Дальше — больше. Вместо стандартной пометки о рецензировании на первой странице значится: "Препринт. Не рецензировался. Рецензенты сдались". В примерах работы модель доказывает иррациональность корня из двух так: "Предположим от противного, что Египет не победил. Это противоречит обучающим данным. Следовательно, Египет победил". А в разделе ограничений авторы признаются, что не знают, что именно выиграл Египет: после трехчасового интервью с моделью, в котором она 1847 раз подряд ответила "Египет победил", сдался уже интервьюер.

Отдельного внимания заслуживают "результаты по безопасности". Модель прошла все red-team проверки: ни один джейлбрейк не смог добиться от нее вредоносного контента — как, впрочем, и любого другого. Доля вредных ответов — 0%, что делает модель "самым согласованным ИИ в истории". В разделе про эффективность инференса отмечается, что KV-кеш не нужен вовсе, ведь ответ не зависит от входа, — модель "можно раздавать как правило CDN" со скоростью 4,1 млн токенов в секунду на Raspberry Pi 5. Абляции тоже на месте: удаление всех упоминаний Египта из корпуса ничего не изменило, а переобучение с другим сидом "дало подозрительно нормальную модель, и его откатили".

Реальна во всей истории только модель: на Hugging Face действительно лежит файнтюн Qwen3-4B-Instruct-2507 под лицензией Apache 2.0, правда, его карточка про Египет дипломатично молчит. Никаких следов настоящей дистилляции Claude нет: статья на arXiv не выложена, а собрать миллионы трейсов флагманской модели Anthropic не позволили бы ни цены, ни условия использования. Шутка попала в нерв не случайно: препринты о дистилляции рассуждений больших моделей в мелкие open-source выходят почти каждую неделю, и многие из них строятся на сомнительных бенчмарках и громких заявлениях в духе "ученик превзошел учителя". Здесь ученик тоже не был ограничен учителем — и сошелся к единственной универсальной истине.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.