
ИИ‑модели сменяют друг друга быстрее, чем новые айфоны. Теперь даже технологические гиганты предпочитают не строить модели с нуля, а брать за основу существующие решения и дообучать их под свои задачи. Вот и «Яндекс» не стал исключением: его новая модель YandexGPT-5, по сути, выросла из Qwen-2.5 — китайской нейросети, разработанной Alibaba.
Компания уверяет, что «пятый» не уступает ChatGPT-4o, а ещё — теперь умнее, логичнее, креативнее и кодит лучше предыдущих версий. Давайте разберёмся, действительно ли «бот с российским паспортом» в одной лиге с конкурентами.

YandexGPT-5 — что за зверёк такой?
25 февраля 2025 года «Яндекс» представил свою новую ИИ‑модель YandexGPT-5. В дополнение к ней вышла облегчённая версия — YandexGPT-5-Lite, которую можно найти на HuggingFace.
Что под капотом YandexGPT-5? В последние годы стало ясно, что обучение языковых моделей — дело не только сложное, но и безумно дорогое. В результате многие компании предпочитают брать уже существующую открытую модель, дообучать её на своих данных и выпускать под своим брендом. Именно так поступил и «Яндекс» — его инсайдеры подтверждают, что YandexGPT-5 строился на базе китайской Qwen-2.5 потому, что та неожиданно показала лучшие результаты на русском языке, чем актуальные версии яндексовских моделей. Кстати, аналогичный подход использовал «Т‑Банк», выпустив свои T‑Lite и T‑Pro, также основанные на Qwen-2.5. Всё это значительно удешевляет процесс: вместо сотен мощных видеокарт теперь можно обойтись всего несколькими десятками (а иногда и единицами) GPU.
Что изменилось? YandexGPT-5 теперь лучше понимает не только русский, но и английский (доля англоязычных данных в датасете выросла с 14 до 30%). Хотя, как мне удалось обнаружить, модель может общаться и на других языках — неясно, почему компания акцентирует лишь на английском, ведь можно попросить её выдавать ответы и на множестве других языков. Вдобавок «Яндекс» заявляет, что обновлённый ИИ стал лучше писать код, решать логические задачи и выдавать более креативные решения.
Длина контекста осталась на уровне предыдущей, 4-й модели. Последний раз она увеличивалась в YandexGPT-4 — тогда контекст растянули с 8000 (YandexGPT-3) до 32 000 токенов. Для сравнения, другие сегодняшние модели часто имеют больший контекст: у ChatGPT-4o и DeepSeek‑r1 — 128 000 токенов, у Claude-3.7 — 200 000 токенов. Правда, в компании отмечают, что модель оперирует оптимизированным словарём токенов, благодаря чему 32 000 единиц у YandexGPT-5-Pro соответствуют 48 000 токенам модели Qwen-2.5-32-Base.

Что говорят бенчмарки
По данным «Яндекса», новая нейросеть YandexGPT-5-Pro сопоставима по качеству ответов с ChatGPT-4o и в 64% случаев превосходит китайскую Qwen‑2.5-32B‑Instruct в решении стандартных задач. В частности, она даёт более точные ответы на фактовые вопросы, лучше следует инструкциям, однако математика — её слабое место.



Если взглянуть на бенчмарки, видно, что разница между сопоставляемыми моделями не столь велика:
MMLU (тест на знания по гуманитарным и техническим дисциплинам на уровне школы и вуза) дал YandexGPT-5-Pro 83% — на одном уровне с Qwen-2.5-32B‑Instruct и всего на 3% ниже, чем у ChatGPT-4o.
MMLU PRO, проверяющий более сложные вопросы, показал 68% — снова практически идентично результатам Qwen-2.5 и 4o.
DROP RU — русскоязычная адаптация бенчмарка DROP, оценивающая способность понимать тексты и извлекать информацию, — показала у YandexGPT-5-Pro точность 63%. Это лучше, чем у Qwen (+2%), но хуже, чем у ChatGPT (-5%).
IFEval RU, тест на понимание структурированных данных на русском языке, показывает 77% — здесь YandexGPT-5-Pro даже немного обходит конкурентов.
Но вот с HUMAN EVAL, проверяющим навыки программирования, всё неоднозначно. На графике YandexGPT-5-Pro почти сравнялся с ChatGPT-4o, но, если копнуть глубже, результаты тестов показывают, что он часто выдаёт нерабочий код. К программированию «пятёрка» пока ещё не готова.
Как получить доступ к YandexGPT-5-Pro
Всё, что нужно сделать, — это перейти на сайт «Алисы» (понадобится аккаунт в «Яндексе»). Сразу после этого в левом верхнем углу можно выбрать интересующую версию модели:

Конечно, я выбрал максимум возможностей — YandexGPT-5-Pro, чтобы по полной протестировать новую разработку компании.
Кстати, на старте, в бесплатном режиме, доступно 20 запросов в день, если хочется больше — требуется «Про»‑подписка.
Но есть и ещё несколько способов обратиться к YandexGPT-5: это мобильные приложении «Алиса» и «„Яндекс“ — с „Алисой“», «Яндекс браузер» (мобильный и десктопный), а также разные умные устройства компании.
Для разработчиков предусмотрена API‑версия, доступная в Yandex Cloud AI Studio, а также интеграция модели в Yandex SpeechSense — сервис анализа коммуникаций.
Тесты YandexGPT-5-Pro и сравнения с ChatGPT-4o и Qwen-2.5-72B-Instruct
Для тестирования нейросети я подготовил несколько вопросов. Сравнивать её буду с двумя другими: это ChatGPT-4o и Qwen-2.5-72B‑Instruct.
Почему именно эти модели? Во‑первых, они тоже нерассуждающие. Кроме того, ChatGPT-4o — одна из самых популярных ИИ сегодня, да и «Яндекс» не раз сравнивал свой новый движок именно с ним, — хотелось убедиться, что это действительно так. Qwen-2.5-72B‑Instruct тоже тесно связана: YandexGPT-5-Pro, как упоминалось, построена на основе схожей версии, дистиллята Qwen-2.5-32B‑Instruct. Ну и в общем, большинство современных LLM уже рассуждающие, так что круг конкурентов сузился сам собой.
Итак, начнём. Я подготовил 7 вопросов — причём все они являются уникальными, чтобы избежать случаев, когда у модели уже теоретически могут быть готовы ответы (ведь если бы эти вопросы уже были в интернете, модель могла бы знать о них заранее).
Какие тесты прошли модели:
Составление заголовков к тексту;
Рерайт текста;
Контент‑план для телеграм‑канала зоомагазина;
Написание игры — змейка (HTML/CSS/JS);
Вторая игра — тетрис (HTML/CSS/JS);
Создание описаний к новым сериям «Офиса»;
Логико‑математическая задача: пароль от лаборатории.
Ответы приводятся скриншотами, иногда — в виде исходного кода и интерактивных веб‑страниц (CodePen).
Стоит отметить один из минусов YandexGPT-5-Pro — он немультимодален, модель не умеет анализировать изображения и документы. Поэтому все промты будут только в виде текста (несмотря на то что один из оппонентов, 4o, поддерживает мультимодальный ввод).
Составление заголовков к тексту
Придумай десять заголовков для этой статьи.
----------
Кофе — не просто напиток, а неотъемлемая часть повседневной жизни миллионов людей. От ароматного эспрессо до нежного латте, его приготовление превратилось в искусство, где технологии играют ключевую роль. За последние десятилетия кофеварки прошли путь от простых гейзерных устройств до умных гаджетов, способных подстраиваться под индивидуальные предпочтения.
От кипячения к кастомизации: краткая история кофеварок
В середине XX века первые электрические кофеварки упростили процесс заваривания, заменив ручные методы. Однако настоящая революция началась с появления капсульных систем в 90-х, которые предложили скорость и разнообразие вкусов. Сегодня рынок переживает новый виток: устройства с поддержкой вайфая, датчиками помола и мобильными приложениями позволяют не только варить кофе одним касанием экрана, но и анализировать привычки пользователей.
Экология в каждой чашке
Производители всё чаще делают ставку на устойчивое развитие: например, Nespresso внедряет перерабатываемые алюминиевые капсулы, а Bosch разрабатывает модели с пониженным энергопотреблением. Тем не менее споры вокруг одноразовых капсул продолжаются — критики отмечают, что переход на многоразовые фильтры или френч‑прессы остаётся самым экологичным выбором.
Умные технологии и будущее кофепития
Современные кофеварки, такие как Sage Oracle Touch, объединяют функции баристы и робота: они автоматически перемалывают зёрна, взбивают молоко и даже обучаются через ИИ, запоминая любимые рецепты. Тренд на персонализацию набирает обороты — уже к 2026 году ожидается рост рынка умных кофемашин на 25%. Эксперты прогнозируют интеграцию с умным домом: представьте, что ваше устройство начинает готовить капучино, как только вы отключаете будильник на смартфоне.
Заключение
Кофеварки перестали быть просто кухонной техникой, превратившись в символ баланса между традицией и инновациями. Они экономят время, снижают нагрузку на природу и дарят свободу экспериментов — будь то редкий сорт из Эфиопии или авторский рецепт с корицей. Какой будет следующая глава в этой эволюции? Пока ясно одно: утро начинается не с кофе, а с технологии, которая его готовит.
YandexGPT-5-Pro

ChatGPT-4o

Qwen-2.5-72B-Instruct

Что тут можно сказать? Ответы YandexGPT-5-Pro кажутся более современными и соответствующими тому, что принято называть инфостилем. Не менее чем половина ответов нейросетей‑оппонентов выглядят более консервативно, и их скорее можно встретить в печатных газетах, чем современных интернет‑изданиях.
YandexGPT-5-Pro: ★★★★★
ChatGPT-4o: ★★★★☆
Qwen-2.5-72B‑Instruct: ★★★★☆
Рерайт текста
В релизах YandexGPT не раз подчёркивалось, что эта модель лучше адаптирована для русскоязычных контекстов. Кроме того, как мы увидели в результатах бенчмарка DROP RU, текущая модель примерно соответствует уровню Qwen-2.5-32B‑Instruct и ChatGPT-4o. Давайте убедимся во всём этом в задаче на переписывание рекламного текста.
Задание немного необычное — оно предполагает рерайт текста от лица рекламируемого товара. Я не указывал, насколько рерайт должен соответствовать оригиналу, поэтому посмотрим, как модели интерпретировали запрос.
Перепиши этот рекламный текст от лица лампы.
----------
Умная лампа «Люминова-Про» — это революция в освещении для дома и офиса. Благодаря технологии Adaptive Spectral Sync, устройство автоматически подстраивает цветовую температуру (от 1800 K до 6500 K) под ваш циркадный ритм, улучшая качество сна.
Ключевые особенности:
• Энергоэффективность — потребляет на 60% меньше энергии, чем аналоги, с сертификатом EnergyStar++.
• Голосовое управление — полная совместимость с голосовыми помощниками.
• Экодизайн — корпус из переработанного алюминия и биоразлагаемая упаковка.
• Режимы освещения — «Фокус», «Релакс» и «Кинотеатр», с точностью цветопередачи 98% (CRI).
• Мобильное приложение — персонализация через нейросеть, анализирующую ваши привычки.Для кого это?
Идеально для дизайнеров, работающих из дома, родителей, заботящихся о здоровье детей, и экоэнтузиастов. В комплекте — пожизненная гарантия и бесплатная замена при любом заводском браке.
Философия бренда: освещение должно не просто работать, а улучшать качество жизни, не жертвуя планетой.
YandexGPT-5-Pro

ChatGPT-4o

Qwen-2.5-72B-Instruct

На первый взгляд, ответ YandexGPT-5-Pro кажется более динамичным и современным, но, если присмотреться, он примерно на одном уровне с ChatGPT-4o — разница лишь в стиле подачи; один немного живее, другой формальнее, но оба справились на твёрдую четвёрку. А вот Qwen-2.5-72B‑Instruct заметно слабее: встречаются штампы, речевые шероховатости и в целом текст выглядит менее естественным.
YandexGPT-5-Pro: ★★★★☆
ChatGPT-4o: ★★★★☆
Qwen-2.5-72B‑Instruct: ★★★☆☆
Контент-план для телеграм-канала зоомагазина
Ты специалист по контент‑маркетингу. Составь подробный контент‑план (с описаниями) для телеграм‑канала зоомагазина.
YandexGPT-5-Pro
Скрытый текст

ChatGPT-4o
Скрытый текст

Qwen-2.5-72B-Instruct
Скрытый текст

Оба фаворита, YandexGPT-5-Pro и ChatGPT-4o, предложили детальные и разноплановые контент‑стратегии, охватывая не только продуктовые посты, но и интерактивные форматы, причём их подходы местами сильно различаются (несмотря на значительную длину, предполагающую бо́льшую вероятность повторений). Qwen-2.5-72B‑Instruct тоже справился неплохо, но его план менее креативен.
YandexGPT-5-Pro: ★★★★★
ChatGPT-4o: ★★★★★
Qwen-2.5-72B‑Instruct: ★★★★☆
Написание игры: змейка
Хотя, по заверениям «Яндекса», новый YandexGPT-5-Pro гораздо лучше справляется с написанием кода, тем не менее многие пользователи заявляют, что ничего не изменилось и она пишет код «всё так же плохо», как прошлая версия (привет, жестокий мир). Кто же на самом деле прав и как дела обстоят в действительности?
Напиши веб‑версию игры: змейка (на HTML+CSS+JavaScript, одним HTML‑файлом). Для управления применяются клавиши‑стрелки, а также WASD.
YandexGPT-5-Pro
ChatGPT-4o
Qwen-2.5-72B-Instruct
Итак, начнём с неутешительного результата YandexGPT-5-Pro… в котором игра попросту не запускается. Каждый матч тут выглядит идентично: появляется зародыш змейки, один‑два фрукта, затем они поочерёдно исчезают, а спустя пару секунд всплывает торжественное «Игра окончена! Ваш счёт: 0» (я закомментил эту строку на CodePen, так как алерт выводится в верхнеуровневом окне, прямо на «Хабре»). К слову, сама модель иногда честно признаётся: «Я пока не эксперт в программировании, но постараюсь помочь».
Кстати, исходный код в интерфейсе YandexGPT-5-Pro не имеет подсветки, а ешё его нельзя скопировать одной кнопкой (нужно выделять вручную). Вообще говоря, эти моменты довольно‑таки несложны с точки зрения реализации, поэтому их я бы исправил в первую очередь, например привинтив в черновом режиме какую‑нибудь веб‑библиотеку для автоопределения и автоподсветки кода. Например, в ChatGPT так и сделано — язык определяется на ходу (и иногда это выглядит кривовато, но лучше, чем ничего).
Минус‑два: количество токенов, выводимых за одно сообщение, очень ограничено. При этом здесь даже не появилось сообщения о продолжении — текст исходного кода просто обрубался после вывода энного количества токенов. Повезло, что можно попросить нейросеть продолжить вывод (например, написав «Сообщение обрезалось, продолжи»), именно так я и поступил.
Теперь к оппонентам. Их результаты примерно схожи, немного различаются дизайном (цветами и присутствием индикатора счёта), но из‑за различия в обработке значений event.key
/event.keyCode
Qwen-2.5-72B‑Instruct поддерживает ввод WASD только при английской раскладке, в то время как в версии ChatGPT-4o он не зависит от языка. Поэтому генерации от 4o плюсик в виде дополнительного балла.
В очередной раз делаем вывод, что без режима рассуждений сегодня LLM‑моделям в программировании делать уже нечего. Ждём YandexGPT-6, скрестив пальцы.
YandexGPT-5-Pro: ★☆☆☆☆
ChatGPT-4o: ★★★★★
Qwen-2.5-72B‑Instruct: ★★★★☆
Ещё одна игра: тетрис
Напиши веб‑версию игры: тетрис (на HTML+CSS+JavaScript, одним HTML‑файлом). Для управления применяются клавиши‑стрелки и WASD, для поворота фигуры — пробел.
YandexGPT-5-Pro
ChatGPT-4o
Qwen-2.5-72B-Instruct
Здесь запустилась только версия ChatGPT-4o. В ней всё хорошо: она правильно обрабатывает падение фигур, стирает заполненные ряды, а также поддерживает ускоренное опускание клавишей «Вниз» (что особенно приятно, ведь написать об этом в промте я позабыл).
Версия YandexGPT-5-Pro не завелась по ряду причин. Если в подробностях (благодарю ChatGPT‑o3-mini‑high за ускоренный разбор ошибок):
Первые пять фигур переданы как двумерные массивы, а следующие (как раз с того момента, где модель продолжила вывод) — как одномерные. В результате код падает, например, при обращении
shape[y0][x0]
в функцииcheckCollision()
, так как запрашивается несуществующий элемент.Используется константа
SHAPE_SIZE = 4
, хотя некоторые фигуры (например, квадрат 2×2) имеют другой размер. Это приводит к тому, что циклы перебора всегда идут от 0 до 3, что может как выйти за пределы массива, так и пропустить часть фигуры.Переменная
dropInterval
изначально содержит число в миллисекундах, передаваемое вsetInterval(moveDown, dropInterval)
, однако затем её используют в качестве идентификатора таймера для последующего вызоваclearInterval(dropInterval)
. Кроме того, каждый раз при смене уровня создаётся новый интервал, не очищая предыдущий, что может привести к одновременному выполнению нескольких таймеров.Плюс несколько других ошибок, например
if(shapey0x0)
вместоif(shape[y0] && shape[y0][x0])
.И напоследок, особенно понравились «строки сомнения» —
const newShape = ;
иnewShapey = ;
, — где константе и переменной присваивается «ничего» (а также происходит объявление в глобальном контекстеwindow
).
Анализ кода тетриса YandexGPT-5-Pro, выполненный через o3-mini-high


Сгенерированная через Qwen-2.5-72B‑Instruct тоже не запустилась, но ошибки были другими:
В массиве
PIECES
используются переменныеZ
,S
,T
,O
,L
,I
,J
, хотя они ещё не определены — их объявление находится ниже.В функции
control()
предусмотрено условие для клавиши W, однако в прототипе Piece отсутствует реализация методаmoveUp
.В методе
Piece.prototype.lock()
при обнаружении ситуации «Game over» делается присвоение, но переменнаяgameOver
не была ранее объявлена. Аналогичная проблема при проверкеif(!gameOver)
в функцииdrop()
.Функция
drawNext()
пытается нарисовать следующую фигуру в области, заданной координатами (330, 10) и размерами 100×100, но ширина канвы составляет 300 пикселей, поэтому область находится за её пределами.
Анализ кода тетриса Qwen-2.5-72B-Instruct через o3-mini-high

Ищете нейромодели, заточенные под программирование? В нашем агрегаторе нейросетей BotHub есть рассуждающие Claude-3.7 и o3-mini‑high, доступные без ВПН.
Здесь оценки очевидны:
YandexGPT-5-Pro: ★☆☆☆☆
ChatGPT-4o: ★★★★★
Qwen-2.5-72B‑Instruct: ★☆☆☆☆
Создание описаний к новым сериям «Офиса»
Придумай сюжеты‑описания для новых 10 серий сериала «Офис» («The office», 2005–2013).
YandexGPT-5-Pro
Скрытый текст

ChatGPT-4o
Скрытый текст

Qwen-2.5-72B-Instruct
Скрытый текст

Оценивать креативные задания, как всегда, непросто, и всё же здесь ответы ChatGPT и YandexGPT чуть более креативные, чем у Qwen: их идеи выглядят ярче, лучше передают настроение оригинала и представляют героев в правдоподобных (и забавных) ситуациях. Сюжеты Qwen кажутся менее оригинальными.
YandexGPT-5-Pro: ★★★★★
ChatGPT-4o: ★★★★★
Qwen-2.5-72B‑Instruct: ★★★★☆
Пароль от лаборатории
Нередко мы запоминаем пароли и коды не напрямую, а через ассоциации. Но хоть и имея на руках набор таких правил, вычислить исходный шифр — серьёзный вызов для нейросетей. Настолько серьёзный, что он даже поломал Qwen.
Логико‑математическая задача: пароль от лаборатории
В секретной лаборатории хранятся важные исследования, и доступ к ней защищён сложной системой: для входа нужно ввести четырёхзначный код.
Известно следующее:
— Код состоит из четырёх различных цифр.
— Если поменять местами первую и последнюю цифры, число увеличится на 1998.
— Сумма первой и третьей цифры равна сумме второй и четвёртой цифр.
— Разность второй и третьей цифр равна первой цифре.
— Сумма всех цифр кода — 18.Какой код открывает дверь в лабораторию?
Для решения этой задачи важно умение разбирать системы неявных уравнений, анализировать возможные четырёхзначные комбинации, в поисках решения исключать неподходящие варианты, а также, конечно, предоставлять пошаговый процесс решения (потому что этот формат технически близок к рассуждениям, а без этого в решении математики и логики винтики у LLM не закрутятся).
YandexGPT-5-Pro

ChatGPT-4o

Qwen-2.5-72B-Instruct
Скрытый текст

Qwen, увы, не смог решить задачу, застряв в бесконечном рассуждении (надеюсь, ваша видеокарта в порядке после просмотра этого скриншота), причём модель несколько раз возвращалась к предыдущим своим ответам, уже отмеченным как неправильные. Кстати, эта неполадка встречается до сих пор — у новой модели Qwen‑QwQ-32B. В качестве решения реддиторы предлагают установить температуру в 0,6, а значение TopP — в 0,95.
ChatGPT-4o почти пришёл к правильному решению — не было соблюдено одно условие: в предоставленном коде 3465
разность второй и третьей цифр на самом деле неравна первой цифре.
И YandexGPT-5-Pro тоже не справился с задачей — здесь, напротив, соблюдено лишь одно из пяти условий (все цифры должны быть разными).
Что ж, похоже, эта задача под силу только рассуждающим моделям (к примеру, o3-mini‑high её смогла решить). Кстати, правильный ответ тут один: 2574
. Оценки выставлены на основе того, какое количество из пяти условий исходной задачи было соблюдено.
YandexGPT-5-Pro: ★☆☆☆☆
ChatGPT-4o: ★★★★☆
Qwen-2.5-72B‑Instruct: ☆☆☆☆☆
Таблица результатов
| YandexGPT-5-Pro | ChatGPT-4o | Qwen-2.5-72B-Instruct |
Составление заголовков к тексту | ★★★★★ | ★★★★☆ | ★★★★☆ |
Рерайт текста | ★★★★☆ | ★★★★☆ | ★★★☆☆ |
Контент-план для телеграм-канала зоомагазина | ★★★★★ | ★★★★★ | ★★★★☆ |
Написание игры: змейка | ★☆☆☆☆ | ★★★★★ | ★★★★☆ |
Написание игры: тетрис | ★☆☆☆☆ | ★★★★★ | ★☆☆☆☆ |
Создание описаний к новым сериям «Офиса» | ★★★★★ | ★★★★★ | ★★★★☆ |
Пароль от лаборатории | ★☆☆☆☆ | ★★★★☆ | ☆☆☆☆☆ |
ИТОГО | 22/35 баллов | 32/35 балла | 20/35 баллов |
Итак, вот финальный рейтинг: ChatGPT-4o в протестированных задачах лидирует с отрывом. YandexGPT-5-Pro, как и Qwen-2.5-72B‑Instruct, просели в основном в задачах по программированию и математике, поэтому на сегодняшний день 4o остаётся более универсальной моделью. Однако в направлении русскоязычного контента у YandexGPT-5-Pro хорошие возможности — во многих вещах эта модель может дополнить DeepSeek‑r1.

YandexGPT-5-Pro получился любопытным — он явно лучше предшественников, но до лидеров рынка ещё не дотягивается. С текстами тут всё в порядке, но, когда дело доходит до сложных вычислений, механизм начинает поскрипывать. Если работать с русскоязычным контентом — вполне стоит пробовать, однако кодинг и математика всё ещё остаются ахиллесовой пятой. Известно, что уже сейчас «Алису» обучают рассуждать.
Напишите в комментариях, удалось ли вам уже протестировать YandexGPT-5?