Pull to refresh

Comments 18

Спасибо, интересно, не тривиально

А почему кроме DeepSeek не оценивались другие актуальные китайские модели - GLM-4.7 (который сейчас уже 5), MiniMax ?

GLM для коддинга изначально позиционировался же, по этой причине мы его не взяли в изначальную выборку. В следующем блоке мы возьмем GLM 5 уже

MiniMax M1 мы взяли в анализ, она показала результаты лучше, чем Qwen. Но теперь уде MiniMax M2.5 нужно брать

С Qwen небольшая оплошность произошла. Мы взяли Qwen3 235B и он показал результаты хуже, нежели deepseek. Qwen 3.5 вышел, когда мы делали анализ.

А Qwen 3 Max ускользнул из нашего внимания. Сделаем анализ во втором снепшоте скоро

Было бы интерестно посмотреть на сравнение с доступными аналогами зарубежом.

Что именно вы бы хотели увидеть? Какие-то конкретные моменты?
Мы сравнивали все эти результаты с Claude, ChatGPT, Google. Они есть в рейтинге. Но именно эта статья про то, что доступно без VPN из России

вы свой нейрослоп хотя бы иногда вычитываете? Какой еще grok в россии без vpn?

Хорошо, что в каждом периоде жизни на хабре есть в чем обвинять. Последние 2 года тренд – нейрослоп, да. Об этом важно будет поговорить, в отдельной статье.

Относительно доступа grok из России – это данные из нашего реестра, закралась ошибка. Спасибо, что указали на это!

Исправили про Grok. Спасибо

Сделать тесты без Gigachat… Но зато добавить YandexGPT, который просто fine tune Qwen3 это сильно.

Гигачат в следующем будет снепшоте. Но если что, то в основе gigachat’a тоже лежит qwen уже

вы хотя папиру открывали? Какой QWEN? Gigachat это единственный российский pretrain, который обучался с нуля. Хоть и использует ту же архитектуру, что и DeepSeek v3. Архитектуру, не веса.

GigaChat по нашему рейтингу в самом конце. Показал себя хуже моделей Яндекса. На следующей неделе опубликуем статью

GigaChat3 оказася хуже яндексовского yandexgpt pro ???

Да, не уточнил. Мы тестировали GigaChat 2 Pro/Max. 3ю версию мы не разворачивали у себя. В одном из следующих разов :)

Спасибо. Ваша статья сподвигнула написать свою на основе двухдневной беседы с ИИ DeepSeek - Оценка уровня владения языками народов Российской Федерации нейросетью DeepSeek.
Год работаю с DeepSeek, как мой основной помощник. Работаю как через ассистент, так и через API. 6-7 скриптов, более десяти ИИ-агентов по разным направлениям.

Хорошая затея. Предлагаю сначала посмотреть на то, что уже есть. Например, вот такой benchmark есть, как раз для русского языка
https://mera.a-ai.ru/ru/text/leaderboard

Sign up to leave a comment.

Articles