bstan Mar 16 at 08:23

Мы протестировали 34 AI-модели на задачах менеджера. Вот что доступно в России без VPN

Medium

9 min

11K

Artificial IntelligenceProject management * Product Management *

Analytics

Comments 23

ENick Mar 16 at 08:37

Спасибо, интересно, не тривиально

VsBirdEye Mar 16 at 08:38

А почему кроме DeepSeek не оценивались другие актуальные китайские модели - GLM-4.7 (который сейчас уже 5), MiniMax ?

bstan Mar 16 at 08:43

GLM для коддинга изначально позиционировался же, по этой причине мы его не взяли в изначальную выборку. В следующем блоке мы возьмем GLM 5 уже

MiniMax M1 мы взяли в анализ, она показала результаты лучше, чем Qwen. Но теперь уде MiniMax M2.5 нужно брать

endscape Mar 16 at 08:49

А как же Qwen?

bstan Mar 16 at 08:51

С Qwen небольшая оплошность произошла. Мы взяли Qwen3 235B и он показал результаты хуже, нежели deepseek. Qwen 3.5 вышел, когда мы делали анализ.

А Qwen 3 Max ускользнул из нашего внимания. Сделаем анализ во втором снепшоте скоро

cyber_sim77 Mar 16 at 11:48

Было бы интерестно посмотреть на сравнение с доступными аналогами зарубежом.

bstan Mar 16 at 11:51

Что именно вы бы хотели увидеть? Какие-то конкретные моменты?
Мы сравнивали все эти результаты с Claude, ChatGPT, Google. Они есть в рейтинге. Но именно эта статья про то, что доступно без VPN из России

Bardakan Mar 16 at 22:04

вы свой нейрослоп хотя бы иногда вычитываете? Какой еще grok в россии без vpn?

bstan Mar 17 at 05:40

Хорошо, что в каждом периоде жизни на хабре есть в чем обвинять. Последние 2 года тренд – нейрослоп, да. Об этом важно будет поговорить, в отдельной статье.

Относительно доступа grok из России – это данные из нашего реестра, закралась ошибка. Спасибо, что указали на это!

bstan Mar 17 at 06:18

Исправили про Grok. Спасибо

Timmek Mar 16 at 12:44

Сделать тесты без Gigachat… Но зато добавить YandexGPT, который просто fine tune Qwen3 это сильно.

bstan Mar 16 at 13:04

Гигачат в следующем будет снепшоте. Но если что, то в основе gigachat’a тоже лежит qwen уже

Timmek Mar 16 at 14:20

вы хотя папиру открывали? Какой QWEN? Gigachat это единственный российский pretrain, который обучался с нуля. Хоть и использует ту же архитектуру, что и DeepSeek v3. Архитектуру, не веса.

verticalacid Mar 23 at 01:23

Сколько лет обучали ультру с нуля на своих A100?

bstan Mar 20 at 10:48

GigaChat по нашему рейтингу в самом конце. Показал себя хуже моделей Яндекса. На следующей неделе опубликуем статью

Timmek Mar 20 at 10:51

GigaChat3 оказася хуже яндексовского yandexgpt pro ???

bstan Mar 20 at 10:58

Да, не уточнил. Мы тестировали GigaChat 2 Pro/Max. 3ю версию мы не разворачивали у себя. В одном из следующих разов :)

R_Nuriev Mar 17 at 18:55

Спасибо. Ваша статья сподвигнула написать свою на основе двухдневной беседы с ИИ DeepSeek - Оценка уровня владения языками народов Российской Федерации нейросетью DeepSeek.
Год работаю с DeepSeek, как мой основной помощник. Работаю как через ассистент, так и через API. 6-7 скриптов, более десяти ИИ-агентов по разным направлениям.

bstan Mar 17 at 19:29

Хорошая затея. Предлагаю сначала посмотреть на то, что уже есть. Например, вот такой benchmark есть, как раз для русского языка
https://mera.a-ai.ru/ru/text/leaderboard

SlavaLobozov Mar 29 at 05:40

Интересное сравнение. Но ведь все 34 модели тестировались
в режиме “один запрос - один ответ”?

А реальный менеджер работает в контексте - если сотрудник
третий день подряд грустный, ты это замечаешь. Ни одна из
34 моделей этого не умеет, даже та что на 4.50.

Кстати забавный вывод получается: если добавить persistent
state поверх модели, то YandexGPT с памятью может оказаться
полезнее Claude без памяти. Помнить иногда важнее чем быть умным.

Статья про 9 агентов:

Классная архитектура, особенно “9 logical - 5 physical”.

А не думали над тем чтобы часть логики вынести вообще за
пределы LLM? Я пробовал - детерминированный kernel на CPU
за ~1ms решает КАК отвечать, а LLM только генерирует текст.
GPU нужен только для финального шага.

По сути ваш orchestrator, но вместо маршрутизации задач -
модуляция поведения.

bstan Mar 29 at 05:44

Спасибо
Непонятно, как связана статья про 9 агентов и исследование. О какой статья именно?

Относительно постоянной памяти, вы в целом, правы. Важно замечать паттерны и бОльшая польза приходится в долгосрочной перспективе.

Фундаментальная проблема моделей внизу рейтинга, от моделей в верхней части рейтинга – нарушенная или отсутствие логики. Глубина ответов и анализа. На мой взгляд, добавление персистентной памяти и расширяя контекстное окно – проблема только ухудшится. Потому что контекстное окно у Яндекса на порядок меньше, чем у моделей в верхней части рейтинга.

Из того, что у нас в бэклоге лежит – попытаться найти вариант общения с условным Яндексом, который подымает качество ответов. Будущая статья

SlavaLobozov Mar 29 at 07:15

Сори за путаницу) случайно смешал два комментария к разным статьям. “9 агентов” это к другому материалу, не к вашему.

По поводу Яндекса и контекстного окна - согласен, маленькое окно усугубляет проблему. Но persistent state работает не через расширение окна, а через внешнее хранилище - граф с decay и spreading activation. В окно попадает только релевантное, отобранное математически. Так что размер окна менее критичен - важнее качество того что в него попадает. Буду следить за вашей будущей статьёй про Яндекс - интересная задача.

bstan Mar 30 at 11:40

Следущая статья опубликована
https://habr.com/en/articles/1016648/