Как стать автором
Обновить
479.03
BotHub
Агрегатор нейросетей: ChatGPT, Claude, Midjourney

Тестируем YandexGPT-5. Когда хотелось быть ChatGPT, но в душе всё ещё Алиса

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров4.3K

ИИ‑модели сменяют друг друга быстрее, чем новые айфоны. Теперь даже технологические гиганты предпочитают не строить модели с нуля, а брать за основу существующие решения и дообучать их под свои задачи. Вот и «Яндекс» не стал исключением: его новая модель YandexGPT-5, по сути, выросла из Qwen-2.5 — китайской нейросети, разработанной Alibaba.

Компания уверяет, что «пятый» не уступает ChatGPT-4o, а ещё — теперь умнее, логичнее, креативнее и кодит лучше предыдущих версий. Давайте разберёмся, действительно ли «бот с российским паспортом» в одной лиге с конкурентами.

YandexGPT-5 — что за зверёк такой?

25 февраля 2025 года «Яндекс» представил свою новую ИИ‑модель YandexGPT-5. В дополнение к ней вышла облегчённая версия — YandexGPT-5-Lite, которую можно найти на HuggingFace.

Что под капотом YandexGPT-5? В последние годы стало ясно, что обучение языковых моделей — дело не только сложное, но и безумно дорогое. В результате многие компании предпочитают брать уже существующую открытую модель, дообучать её на своих данных и выпускать под своим брендом. Именно так поступил и «Яндекс» — его инсайдеры подтверждают, что YandexGPT-5 строился на базе китайской Qwen-2.5 потому, что та неожиданно показала лучшие результаты на русском языке, чем актуальные версии яндексовских моделей. Кстати, аналогичный подход использовал «Т‑Банк», выпустив свои T‑Lite и T‑Pro, также основанные на Qwen-2.5. Всё это значительно удешевляет процесс: вместо сотен мощных видеокарт теперь можно обойтись всего несколькими десятками (а иногда и единицами) GPU.

Что изменилось? YandexGPT-5 теперь лучше понимает не только русский, но и английский (доля англоязычных данных в датасете выросла с 14 до 30%). Хотя, как мне удалось обнаружить, модель может общаться и на других языках — неясно, почему компания акцентирует лишь на английском, ведь можно попросить её выдавать ответы и на множестве других языков. Вдобавок «Яндекс» заявляет, что обновлённый ИИ стал лучше писать код, решать логические задачи и выдавать более креативные решения.

Длина контекста осталась на уровне предыдущей, 4-й модели. Последний раз она увеличивалась в YandexGPT-4 — тогда контекст растянули с 8000 (YandexGPT-3) до 32 000 токенов. Для сравнения, другие сегодняшние модели часто имеют больший контекст: у ChatGPT-4o и DeepSeek‑r1 — 128 000 токенов, у Claude-3.7 — 200 000 токенов. Правда, в компании отмечают, что модель оперирует оптимизированным словарём токенов, благодаря чему 32 000 единиц у YandexGPT-5-Pro соответствуют 48 000 токенам модели Qwen-2.5-32-Base.

Что говорят бенчмарки

По данным «Яндекса», новая нейросеть YandexGPT-5-Pro сопоставима по качеству ответов с ChatGPT-4o и в 64% случаев превосходит китайскую Qwen‑2.5-32B‑Instruct в решении стандартных задач. В частности, она даёт более точные ответы на фактовые вопросы, лучше следует инструкциям, однако математика — её слабое место.

Если взглянуть на бенчмарки, видно, что разница между сопоставляемыми моделями не столь велика:

  • MMLU (тест на знания по гуманитарным и техническим дисциплинам на уровне школы и вуза) дал YandexGPT-5-Pro 83% — на одном уровне с Qwen-2.5-32B‑Instruct и всего на 3% ниже, чем у ChatGPT-4o.

  • MMLU PRO, проверяющий более сложные вопросы, показал 68% — снова практически идентично результатам Qwen-2.5 и 4o.

  • DROP RU — русскоязычная адаптация бенчмарка DROP, оценивающая способность понимать тексты и извлекать информацию, — показала у YandexGPT-5-Pro точность 63%. Это лучше, чем у Qwen (+2%), но хуже, чем у ChatGPT (-5%).

  • IFEval RU, тест на понимание структурированных данных на русском языке, показывает 77% — здесь YandexGPT-5-Pro даже немного обходит конкурентов.

Но вот с HUMAN EVAL, проверяющим навыки программирования, всё неоднозначно. На графике YandexGPT-5-Pro почти сравнялся с ChatGPT-4o, но, если копнуть глубже, результаты тестов показывают, что он часто выдаёт нерабочий код. К программированию «пятёрка» пока ещё не готова.

Как получить доступ к YandexGPT-5-Pro

Всё, что нужно сделать, — это перейти на сайт «Алисы» (понадобится аккаунт в «Яндексе»). Сразу после этого в левом верхнем углу можно выбрать интересующую версию модели:

Конечно, я выбрал максимум возможностей — YandexGPT-5-Pro, чтобы по полной протестировать новую разработку компании.

Кстати, на старте, в бесплатном режиме, доступно 20 запросов в день, если хочется больше — требуется «Про»‑подписка.

Но есть и ещё несколько способов обратиться к YandexGPT-5: это мобильные приложении «Алиса» и «„Яндекс“ — с „Алисой“», «Яндекс браузер» (мобильный и десктопный), а также разные умные устройства компании.

Для разработчиков предусмотрена API‑версия, доступная в Yandex Cloud AI Studio, а также интеграция модели в Yandex SpeechSense — сервис анализа коммуникаций.

Тесты YandexGPT-5-Pro и сравнения с ChatGPT-4o и Qwen-2.5-72B-Instruct

Для тестирования нейросети я подготовил несколько вопросов. Сравнивать её буду с двумя другими: это ChatGPT-4o и Qwen-2.5-72B‑Instruct.

Почему именно эти модели? Во‑первых, они тоже нерассуждающие. Кроме того, ChatGPT-4o — одна из самых популярных ИИ сегодня, да и «Яндекс» не раз сравнивал свой новый движок именно с ним, — хотелось убедиться, что это действительно так. Qwen-2.5-72B‑Instruct тоже тесно связана: YandexGPT-5-Pro, как упоминалось, построена на основе схожей версии, дистиллята Qwen-2.5-32B‑Instruct. Ну и в общем, большинство современных LLM уже рассуждающие, так что круг конкурентов сузился сам собой.

Итак, начнём. Я подготовил 7 вопросов — причём все они являются уникальными, чтобы избежать случаев, когда у модели уже теоретически могут быть готовы ответы (ведь если бы эти вопросы уже были в интернете, модель могла бы знать о них заранее).

Какие тесты прошли модели:

  • Составление заголовков к тексту;

  • Рерайт текста;

  • Контент‑план для телеграм‑канала зоомагазина;

  • Написание игры — змейка (HTML/CSS/JS);

  • Вторая игра — тетрис (HTML/CSS/JS);

  • Создание описаний к новым сериям «Офиса»;

  • Логико‑математическая задача: пароль от лаборатории.

Ответы приводятся скриншотами, иногда — в виде исходного кода и интерактивных веб‑страниц (CodePen).

Стоит отметить один из минусов YandexGPT-5-Pro — он немультимодален, модель не умеет анализировать изображения и документы. Поэтому все промты будут только в виде текста (несмотря на то что один из оппонентов, 4o, поддерживает мультимодальный ввод).

Составление заголовков к тексту

Придумай десять заголовков для этой статьи.

----------

Кофе — не просто напиток, а неотъемлемая часть повседневной жизни миллионов людей. От ароматного эспрессо до нежного латте, его приготовление превратилось в искусство, где технологии играют ключевую роль. За последние десятилетия кофеварки прошли путь от простых гейзерных устройств до умных гаджетов, способных подстраиваться под индивидуальные предпочтения.

От кипячения к кастомизации: краткая история кофеварок

В середине XX века первые электрические кофеварки упростили процесс заваривания, заменив ручные методы. Однако настоящая революция началась с появления капсульных систем в 90-х, которые предложили скорость и разнообразие вкусов. Сегодня рынок переживает новый виток: устройства с поддержкой вайфая, датчиками помола и мобильными приложениями позволяют не только варить кофе одним касанием экрана, но и анализировать привычки пользователей.

Экология в каждой чашке

Производители всё чаще делают ставку на устойчивое развитие: например, Nespresso внедряет перерабатываемые алюминиевые капсулы, а Bosch разрабатывает модели с пониженным энергопотреблением. Тем не менее споры вокруг одноразовых капсул продолжаются — критики отмечают, что переход на многоразовые фильтры или френч‑прессы остаётся самым экологичным выбором.

Умные технологии и будущее кофепития

Современные кофеварки, такие как Sage Oracle Touch, объединяют функции баристы и робота: они автоматически перемалывают зёрна, взбивают молоко и даже обучаются через ИИ, запоминая любимые рецепты. Тренд на персонализацию набирает обороты — уже к 2026 году ожидается рост рынка умных кофемашин на 25%. Эксперты прогнозируют интеграцию с умным домом: представьте, что ваше устройство начинает готовить капучино, как только вы отключаете будильник на смартфоне.

Заключение

Кофеварки перестали быть просто кухонной техникой, превратившись в символ баланса между традицией и инновациями. Они экономят время, снижают нагрузку на природу и дарят свободу экспериментов — будь то редкий сорт из Эфиопии или авторский рецепт с корицей. Какой будет следующая глава в этой эволюции? Пока ясно одно: утро начинается не с кофе, а с технологии, которая его готовит.

YandexGPT-5-Pro

ChatGPT-4o

Qwen-2.5-72B-Instruct

Что тут можно сказать? Ответы YandexGPT-5-Pro кажутся более современными и соответствующими тому, что принято называть инфостилем. Не менее чем половина ответов нейросетей‑оппонентов выглядят более консервативно, и их скорее можно встретить в печатных газетах, чем современных интернет‑изданиях.

YandexGPT-5-Pro: ★★★★★
ChatGPT-4o: ★★★★☆
Qwen-2.5-72B‑Instruct: ★★★★☆

Рерайт текста

В релизах YandexGPT не раз подчёркивалось, что эта модель лучше адаптирована для русскоязычных контекстов. Кроме того, как мы увидели в результатах бенчмарка DROP RU, текущая модель примерно соответствует уровню Qwen-2.5-32B‑Instruct и ChatGPT-4o. Давайте убедимся во всём этом в задаче на переписывание рекламного текста.

Задание немного необычное — оно предполагает рерайт текста от лица рекламируемого товара. Я не указывал, насколько рерайт должен соответствовать оригиналу, поэтому посмотрим, как модели интерпретировали запрос.

Перепиши этот рекламный текст от лица лампы.

----------

Умная лампа «Люминова-Про» — это революция в освещении для дома и офиса. Благодаря технологии Adaptive Spectral Sync, устройство автоматически подстраивает цветовую температуру (от 1800 K до 6500 K) под ваш циркадный ритм, улучшая качество сна.

Ключевые особенности:
• Энергоэффективность — потребляет на 60% меньше энергии, чем аналоги, с сертификатом EnergyStar++.
• Голосовое управление — полная совместимость с голосовыми помощниками.
• Экодизайн — корпус из переработанного алюминия и биоразлагаемая упаковка.
• Режимы освещения — «Фокус», «Релакс» и «Кинотеатр», с точностью цветопередачи 98% (CRI).
• Мобильное приложение — персонализация через нейросеть, анализирующую ваши привычки.

Для кого это?

Идеально для дизайнеров, работающих из дома, родителей, заботящихся о здоровье детей, и экоэнтузиастов. В комплекте — пожизненная гарантия и бесплатная замена при любом заводском браке.

Философия бренда: освещение должно не просто работать, а улучшать качество жизни, не жертвуя планетой.

YandexGPT-5-Pro

ChatGPT-4o

Qwen-2.5-72B-Instruct

На первый взгляд, ответ YandexGPT-5-Pro кажется более динамичным и современным, но, если присмотреться, он примерно на одном уровне с ChatGPT-4o — разница лишь в стиле подачи; один немного живее, другой формальнее, но оба справились на твёрдую четвёрку. А вот Qwen-2.5-72B‑Instruct заметно слабее: встречаются штампы, речевые шероховатости и в целом текст выглядит менее естественным.

YandexGPT-5-Pro: ★★★★☆
ChatGPT-4o: ★★★★☆
Qwen-2.5-72B‑Instruct: ★★★☆☆

Контент-план для телеграм-канала зоомагазина

Ты специалист по контент‑маркетингу. Составь подробный контент‑план (с описаниями) для телеграм‑канала зоомагазина.

YandexGPT-5-Pro

Скрытый текст

ChatGPT-4o

Скрытый текст

Qwen-2.5-72B-Instruct

Скрытый текст

Оба фаворита, YandexGPT-5-Pro и ChatGPT-4o, предложили детальные и разноплановые контент‑стратегии, охватывая не только продуктовые посты, но и интерактивные форматы, причём их подходы местами сильно различаются (несмотря на значительную длину, предполагающую бо́льшую вероятность повторений). Qwen-2.5-72B‑Instruct тоже справился неплохо, но его план менее креативен.

YandexGPT-5-Pro: ★★★★★
ChatGPT-4o: ★★★★★
Qwen-2.5-72B‑Instruct: ★★★★☆

Написание игры: змейка

Хотя, по заверениям «Яндекса», новый YandexGPT-5-Pro гораздо лучше справляется с написанием кода, тем не менее многие пользователи заявляют, что ничего не изменилось и она пишет код «всё так же плохо», как прошлая версия (привет, жестокий мир). Кто же на самом деле прав и как дела обстоят в действительности?

Напиши веб‑версию игры: змейка (на HTML+CSS+JavaScript, одним HTML‑файлом). Для управления применяются клавиши‑стрелки, а также WASD.

YandexGPT-5-Pro

ChatGPT-4o

Qwen-2.5-72B-Instruct

Итак, начнём с неутешительного результата YandexGPT-5-Pro… в котором игра попросту не запускается. Каждый матч тут выглядит идентично: появляется зародыш змейки, один‑два фрукта, затем они поочерёдно исчезают, а спустя пару секунд всплывает торжественное «Игра окончена! Ваш счёт: 0» (я закомментил эту строку на CodePen, так как алерт выводится в верхнеуровневом окне, прямо на «Хабре»). К слову, сама модель иногда честно признаётся: «Я пока не эксперт в программировании, но постараюсь помочь».

Кстати, исходный код в интерфейсе YandexGPT-5-Pro не имеет подсветки, а ешё его нельзя скопировать одной кнопкой (нужно выделять вручную). Вообще говоря, эти моменты довольно‑таки несложны с точки зрения реализации, поэтому их я бы исправил в первую очередь, например привинтив в черновом режиме какую‑нибудь веб‑библиотеку для автоопределения и автоподсветки кода. Например, в ChatGPT так и сделано — язык определяется на ходу (и иногда это выглядит кривовато, но лучше, чем ничего).

Минус‑два: количество токенов, выводимых за одно сообщение, очень ограничено. При этом здесь даже не появилось сообщения о продолжении — текст исходного кода просто обрубался после вывода энного количества токенов. Повезло, что можно попросить нейросеть продолжить вывод (например, написав «Сообщение обрезалось, продолжи»), именно так я и поступил.

Теперь к оппонентам. Их результаты примерно схожи, немного различаются дизайном (цветами и присутствием индикатора счёта), но из‑за различия в обработке значений event.key/event.keyCode Qwen-2.5-72B‑Instruct поддерживает ввод WASD только при английской раскладке, в то время как в версии ChatGPT-4o он не зависит от языка. Поэтому генерации от 4o плюсик в виде дополнительного балла.

В очередной раз делаем вывод, что без режима рассуждений сегодня LLM‑моделям в программировании делать уже нечего. Ждём YandexGPT-6, скрестив пальцы.

YandexGPT-5-Pro: ★☆☆☆☆
ChatGPT-4o: ★★★★★
Qwen-2.5-72B‑Instruct: ★★★★☆

Ещё одна игра: тетрис

Напиши веб‑версию игры: тетрис (на HTML+CSS+JavaScript, одним HTML‑файлом). Для управления применяются клавиши‑стрелки и WASD, для поворота фигуры — пробел.

YandexGPT-5-Pro

ChatGPT-4o

Qwen-2.5-72B-Instruct

Здесь запустилась только версия ChatGPT-4o. В ней всё хорошо: она правильно обрабатывает падение фигур, стирает заполненные ряды, а также поддерживает ускоренное опускание клавишей «Вниз» (что особенно приятно, ведь написать об этом в промте я позабыл).

Версия YandexGPT-5-Pro не завелась по ряду причин. Если в подробностях (благодарю ChatGPT‑o3-mini‑high за ускоренный разбор ошибок):

  • Первые пять фигур переданы как двумерные массивы, а следующие (как раз с того момента, где модель продолжила вывод) — как одномерные. В результате код падает, например, при обращении shape[y0][x0] в функции checkCollision(), так как запрашивается несуществующий элемент.

  • Используется константа SHAPE_SIZE = 4, хотя некоторые фигуры (например, квадрат 2×2) имеют другой размер. Это приводит к тому, что циклы перебора всегда идут от 0 до 3, что может как выйти за пределы массива, так и пропустить часть фигуры.

  • Переменная dropInterval изначально содержит число в миллисекундах, передаваемое в setInterval(moveDown, dropInterval), однако затем её используют в качестве идентификатора таймера для последующего вызова clearInterval(dropInterval). Кроме того, каждый раз при смене уровня создаётся новый интервал, не очищая предыдущий, что может привести к одновременному выполнению нескольких таймеров.

  • Плюс несколько других ошибок, например if(shapey0x0) вместо if(shape[y0] && shape[y0][x0]).

  • И напоследок, особенно понравились «строки сомнения» — const newShape = ; и newShapey = ;, — где константе и переменной присваивается «ничего» (а также происходит объявление в глобальном контексте window).

Анализ кода тетриса YandexGPT-5-Pro, выполненный через o3-mini-high

Сгенерированная через Qwen-2.5-72B‑Instruct тоже не запустилась, но ошибки были другими:

  • В массиве PIECES используются переменные Z, S, T, O, L, I, J, хотя они ещё не определены — их объявление находится ниже.

  • В функции control() предусмотрено условие для клавиши W, однако в прототипе Piece отсутствует реализация метода moveUp.

  • В методе Piece.prototype.lock() при обнаружении ситуации «Game over» делается присвоение, но переменная gameOver не была ранее объявлена. Аналогичная проблема при проверке if(!gameOver) в функции drop().

  • Функция drawNext() пытается нарисовать следующую фигуру в области, заданной координатами (330, 10) и размерами 100×100, но ширина канвы составляет 300 пикселей, поэтому область находится за её пределами.

Анализ кода тетриса Qwen-2.5-72B-Instruct через o3-mini-high

Ищете нейромодели, заточенные под программирование? В нашем агрегаторе нейросетей BotHub есть рассуждающие Claude-3.7 и o3-mini‑high, доступные без ВПН.

Здесь оценки очевидны:

YandexGPT-5-Pro: ★☆☆☆☆
ChatGPT-4o: ★★★★★
Qwen-2.5-72B‑Instruct: ★☆☆☆☆

Создание описаний к новым сериям «Офиса»

Придумай сюжеты‑описания для новых 10 серий сериала «Офис» («The office», 2005–2013).

YandexGPT-5-Pro

Скрытый текст

ChatGPT-4o

Скрытый текст

Qwen-2.5-72B-Instruct

Скрытый текст

Оценивать креативные задания, как всегда, непросто, и всё же здесь ответы ChatGPT и YandexGPT чуть более креативные, чем у Qwen: их идеи выглядят ярче, лучше передают настроение оригинала и представляют героев в правдоподобных (и забавных) ситуациях. Сюжеты Qwen кажутся менее оригинальными.

YandexGPT-5-Pro: ★★★★★
ChatGPT-4o: ★★★★★
Qwen-2.5-72B‑Instruct: ★★★★☆

Пароль от лаборатории

Нередко мы запоминаем пароли и коды не напрямую, а через ассоциации. Но хоть и имея на руках набор таких правил, вычислить исходный шифр — серьёзный вызов для нейросетей. Настолько серьёзный, что он даже поломал Qwen.

Логико‑математическая задача: пароль от лаборатории

В секретной лаборатории хранятся важные исследования, и доступ к ней защищён сложной системой: для входа нужно ввести четырёхзначный код.

Известно следующее:
— Код состоит из четырёх различных цифр.
— Если поменять местами первую и последнюю цифры, число увеличится на 1998.
— Сумма первой и третьей цифры равна сумме второй и четвёртой цифр.
— Разность второй и третьей цифр равна первой цифре.
— Сумма всех цифр кода — 18.

Какой код открывает дверь в лабораторию?

Для решения этой задачи важно умение разбирать системы неявных уравнений, анализировать возможные четырёхзначные комбинации, в поисках решения исключать неподходящие варианты, а также, конечно, предоставлять пошаговый процесс решения (потому что этот формат технически близок к рассуждениям, а без этого в решении математики и логики винтики у LLM не закрутятся).

YandexGPT-5-Pro

ChatGPT-4o

Qwen-2.5-72B-Instruct

Скрытый текст

Qwen, увы, не смог решить задачу, застряв в бесконечном рассуждении (надеюсь, ваша видеокарта в порядке после просмотра этого скриншота), причём модель несколько раз возвращалась к предыдущим своим ответам, уже отмеченным как неправильные. Кстати, эта неполадка встречается до сих пор — у новой модели Qwen‑QwQ-32B. В качестве решения реддиторы предлагают установить температуру в 0,6, а значение TopP — в 0,95.

ChatGPT-4o почти пришёл к правильному решению — не было соблюдено одно условие: в предоставленном коде 3465 разность второй и третьей цифр на самом деле неравна первой цифре.

И YandexGPT-5-Pro тоже не справился с задачей — здесь, напротив, соблюдено лишь одно из пяти условий (все цифры должны быть разными).

Что ж, похоже, эта задача под силу только рассуждающим моделям (к примеру, o3-mini‑high её смогла решить). Кстати, правильный ответ тут один: 2574. Оценки выставлены на основе того, какое количество из пяти условий исходной задачи было соблюдено.

YandexGPT-5-Pro: ★☆☆☆☆
ChatGPT-4o: ★★★★☆
Qwen-2.5-72B‑Instruct: ☆☆☆☆☆

Таблица результатов

 

YandexGPT-5-Pro

ChatGPT-4o

Qwen-2.5-72B-Instruct

Составление заголовков к тексту

★★★★★

★★★★☆

★★★★☆

Рерайт текста

★★★★☆

★★★★☆

★★★☆☆

Контент-план для телеграм-канала зоомагазина

★★★★★

★★★★★

★★★★☆

Написание игры: змейка

★☆☆☆☆

★★★★★

★★★★☆

Написание игры: тетрис

★☆☆☆☆

★★★★★

★☆☆☆☆

Создание описаний к новым сериям «Офиса»

★★★★★

★★★★★

★★★★☆

Пароль от лаборатории

★☆☆☆☆

★★★★☆

☆☆☆☆☆

ИТОГО

22/35 баллов

32/35 балла

20/35 баллов

Итак, вот финальный рейтинг: ChatGPT-4o в протестированных задачах лидирует с отрывом. YandexGPT-5-Pro, как и Qwen-2.5-72B‑Instruct, просели в основном в задачах по программированию и математике, поэтому на сегодняшний день 4o остаётся более универсальной моделью. Однако в направлении русскоязычного контента у YandexGPT-5-Pro хорошие возможности — во многих вещах эта модель может дополнить DeepSeek‑r1.


YandexGPT-5-Pro получился любопытным — он явно лучше предшественников, но до лидеров рынка ещё не дотягивается. С текстами тут всё в порядке, но, когда дело доходит до сложных вычислений, механизм начинает поскрипывать. Если работать с русскоязычным контентом — вполне стоит пробовать, однако кодинг и математика всё ещё остаются ахиллесовой пятой. Известно, что уже сейчас «Алису» обучают рассуждать.

Напишите в комментариях, удалось ли вам уже протестировать YandexGPT-5?

Теги:
Хабы:
+8
Комментарии6

Публикации

Информация

Сайт
bothub.chat
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия