Обновить

Мы протестировали 34 AI-модели на задачах менеджера. Вот что доступно в России без VPN

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели11K
Всего голосов 6: ↑6 и ↓0+6
Комментарии23

Комментарии 23

Спасибо, интересно, не тривиально

А почему кроме DeepSeek не оценивались другие актуальные китайские модели - GLM-4.7 (который сейчас уже 5), MiniMax ?

GLM для коддинга изначально позиционировался же, по этой причине мы его не взяли в изначальную выборку. В следующем блоке мы возьмем GLM 5 уже

MiniMax M1 мы взяли в анализ, она показала результаты лучше, чем Qwen. Но теперь уде MiniMax M2.5 нужно брать

А как же Qwen?

С Qwen небольшая оплошность произошла. Мы взяли Qwen3 235B и он показал результаты хуже, нежели deepseek. Qwen 3.5 вышел, когда мы делали анализ.

А Qwen 3 Max ускользнул из нашего внимания. Сделаем анализ во втором снепшоте скоро

Было бы интерестно посмотреть на сравнение с доступными аналогами зарубежом.

Что именно вы бы хотели увидеть? Какие-то конкретные моменты?
Мы сравнивали все эти результаты с Claude, ChatGPT, Google. Они есть в рейтинге. Но именно эта статья про то, что доступно без VPN из России

вы свой нейрослоп хотя бы иногда вычитываете? Какой еще grok в россии без vpn?

Хорошо, что в каждом периоде жизни на хабре есть в чем обвинять. Последние 2 года тренд – нейрослоп, да. Об этом важно будет поговорить, в отдельной статье.

Относительно доступа grok из России – это данные из нашего реестра, закралась ошибка. Спасибо, что указали на это!

Исправили про Grok. Спасибо

Сделать тесты без Gigachat… Но зато добавить YandexGPT, который просто fine tune Qwen3 это сильно.

Гигачат в следующем будет снепшоте. Но если что, то в основе gigachat’a тоже лежит qwen уже

вы хотя папиру открывали? Какой QWEN? Gigachat это единственный российский pretrain, который обучался с нуля. Хоть и использует ту же архитектуру, что и DeepSeek v3. Архитектуру, не веса.

Сколько лет обучали ультру с нуля на своих A100?

GigaChat по нашему рейтингу в самом конце. Показал себя хуже моделей Яндекса. На следующей неделе опубликуем статью

GigaChat3 оказася хуже яндексовского yandexgpt pro ???

Да, не уточнил. Мы тестировали GigaChat 2 Pro/Max. 3ю версию мы не разворачивали у себя. В одном из следующих разов :)

Спасибо. Ваша статья сподвигнула написать свою на основе двухдневной беседы с ИИ DeepSeek - Оценка уровня владения языками народов Российской Федерации нейросетью DeepSeek.
Год работаю с DeepSeek, как мой основной помощник. Работаю как через ассистент, так и через API. 6-7 скриптов, более десяти ИИ-агентов по разным направлениям.

Хорошая затея. Предлагаю сначала посмотреть на то, что уже есть. Например, вот такой benchmark есть, как раз для русского языка
https://mera.a-ai.ru/ru/text/leaderboard

Интересное сравнение. Но ведь все 34 модели тестировались
в режиме “один запрос - один ответ”?

А реальный менеджер работает в контексте - если сотрудник
третий день подряд грустный, ты это замечаешь. Ни одна из
34 моделей этого не умеет, даже та что на 4.50.

Кстати забавный вывод получается: если добавить persistent
state поверх модели, то YandexGPT с памятью может оказаться
полезнее Claude без памяти. Помнить иногда важнее чем быть умным.

Статья про 9 агентов:

Классная архитектура, особенно “9 logical - 5 physical”.

А не думали над тем чтобы часть логики вынести вообще за
пределы LLM? Я пробовал - детерминированный kernel на CPU
за ~1ms решает КАК отвечать, а LLM только генерирует текст.
GPU нужен только для финального шага.

По сути ваш orchestrator, но вместо маршрутизации задач -
модуляция поведения.

Спасибо
Непонятно, как связана статья про 9 агентов и исследование. О какой статья именно?

Относительно постоянной памяти, вы в целом, правы. Важно замечать паттерны и бОльшая польза приходится в долгосрочной перспективе.

Фундаментальная проблема моделей внизу рейтинга, от моделей в верхней части рейтинга – нарушенная или отсутствие логики. Глубина ответов и анализа. На мой взгляд, добавление персистентной памяти и расширяя контекстное окно – проблема только ухудшится. Потому что контекстное окно у Яндекса на порядок меньше, чем у моделей в верхней части рейтинга.

Из того, что у нас в бэклоге лежит – попытаться найти вариант общения с условным Яндексом, который подымает качество ответов. Будущая статья

Сори за путаницу) случайно смешал два комментария к разным статьям. “9 агентов” это к другому материалу, не к вашему.

По поводу Яндекса и контекстного окна - согласен, маленькое окно усугубляет проблему. Но persistent state работает не через расширение окна, а через внешнее хранилище - граф с decay и spreading activation. В окно попадает только релевантное, отобранное математически. Так что размер окна менее критичен - важнее качество того что в него попадает. Буду следить за вашей будущей статьёй про Яндекс - интересная задача.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации