Комментарии 23
Спасибо, интересно, не тривиально
А почему кроме DeepSeek не оценивались другие актуальные китайские модели - GLM-4.7 (который сейчас уже 5), MiniMax ?
А как же Qwen?
Было бы интерестно посмотреть на сравнение с доступными аналогами зарубежом.
Что именно вы бы хотели увидеть? Какие-то конкретные моменты?
Мы сравнивали все эти результаты с Claude, ChatGPT, Google. Они есть в рейтинге. Но именно эта статья про то, что доступно без VPN из России
вы свой нейрослоп хотя бы иногда вычитываете? Какой еще grok в россии без vpn?
Сделать тесты без Gigachat… Но зато добавить YandexGPT, который просто fine tune Qwen3 это сильно.
Гигачат в следующем будет снепшоте. Но если что, то в основе gigachat’a тоже лежит qwen уже
GigaChat по нашему рейтингу в самом конце. Показал себя хуже моделей Яндекса. На следующей неделе опубликуем статью
Спасибо. Ваша статья сподвигнула написать свою на основе двухдневной беседы с ИИ DeepSeek - Оценка уровня владения языками народов Российской Федерации нейросетью DeepSeek.
Год работаю с DeepSeek, как мой основной помощник. Работаю как через ассистент, так и через API. 6-7 скриптов, более десяти ИИ-агентов по разным направлениям.
Хорошая затея. Предлагаю сначала посмотреть на то, что уже есть. Например, вот такой benchmark есть, как раз для русского языка
https://mera.a-ai.ru/ru/text/leaderboard
Интересное сравнение. Но ведь все 34 модели тестировались
в режиме “один запрос - один ответ”?
А реальный менеджер работает в контексте - если сотрудник
третий день подряд грустный, ты это замечаешь. Ни одна из
34 моделей этого не умеет, даже та что на 4.50.
Кстати забавный вывод получается: если добавить persistent
state поверх модели, то YandexGPT с памятью может оказаться
полезнее Claude без памяти. Помнить иногда важнее чем быть умным.
Статья про 9 агентов:
Классная архитектура, особенно “9 logical - 5 physical”.
А не думали над тем чтобы часть логики вынести вообще за
пределы LLM? Я пробовал - детерминированный kernel на CPU
за ~1ms решает КАК отвечать, а LLM только генерирует текст.
GPU нужен только для финального шага.
По сути ваш orchestrator, но вместо маршрутизации задач -
модуляция поведения.
Спасибо
Непонятно, как связана статья про 9 агентов и исследование. О какой статья именно?
Относительно постоянной памяти, вы в целом, правы. Важно замечать паттерны и бОльшая польза приходится в долгосрочной перспективе.
Фундаментальная проблема моделей внизу рейтинга, от моделей в верхней части рейтинга – нарушенная или отсутствие логики. Глубина ответов и анализа. На мой взгляд, добавление персистентной памяти и расширяя контекстное окно – проблема только ухудшится. Потому что контекстное окно у Яндекса на порядок меньше, чем у моделей в верхней части рейтинга.
Из того, что у нас в бэклоге лежит – попытаться найти вариант общения с условным Яндексом, который подымает качество ответов. Будущая статья
Сори за путаницу) случайно смешал два комментария к разным статьям. “9 агентов” это к другому материалу, не к вашему.
По поводу Яндекса и контекстного окна - согласен, маленькое окно усугубляет проблему. Но persistent state работает не через расширение окна, а через внешнее хранилище - граф с decay и spreading activation. В окно попадает только релевантное, отобранное математически. Так что размер окна менее критичен - важнее качество того что в него попадает. Буду следить за вашей будущей статьёй про Яндекс - интересная задача.
Следущая статья опубликована
https://habr.com/en/articles/1016648/

Мы протестировали 34 AI-модели на задачах менеджера. Вот что доступно в России без VPN