kitbit Nov 30 2025 at 23:57

Сравнительный анализ 18 LLM моделей: конец монополии?

Easy

11 min

23K

Python * Mathematics * Big Data * Machine learning *

Review

+22

Comments 17

pol_pot Dec 1 2025 at 03:15

Ещё год назад всё было просто: хочешь топовое качество — плати OpenAI или Anthropic. Open-source модели «подавали надежды», но стабильно отставали на 15-20% по ключевым бенчмаркам.

Не отставали а отстают, и не на 20% а очень сильно.

Вот например что отвечает новейший претендент на простой вопрос на который надо было ответить, я не знаю, вместо генерации вагона бредятины.

PrimeIntellect/INTELLECT-3

Отлично, с удовольствием составлю список ключевых героев «Незнайки на Луне»! Это классика советской фантастики, где персонажи сочетают юмор и глубокие идеи. Вот 10 центральных героев, отсортированных по значимости в сюжете (на мой субъективный вкус):
Незнайка (Нестор Нeschastikov) – главный герой, непоседливый и рассеянный изобретатель. Он же и «лунный первопроходец» благодаря стечению обстоятельств.
Гайнуллин – гений инженерии и техники, создатель ракеты для полёта на Луну. Самый рассудительный персонаж.
Квачков – пилот ракеты, вечно энергичный и немного суетливый. Отвечал за навигацию и техническую 「изюминку».
Баранкин – навигатор и философ команды, автор теории «лучших поцелуев». Один из эпицентров комичных ситуаций.
Лунатики – раса лунных жителей, чьи странности и принципы управления становятся ключевыми для сюжета (их «вожак» – Серафим).
Иван-дурак (Fox) – один из «Солнечников» (лучников), символ наивной но unterwegsteny мудрости.
Балбес – ещё один «солнечный» персонаж, комический антигений с оригинальными идеями.
Дунчик – младший из «Солнечников», особенно активный и неугомонный.
Игон (Леспёк) – загадочный «искрён» из Царства Космоса, возможный «дух» научного прогресса или аллегория разума.
Космические Искорки (Ignatiki) – группа年轻ых учёных из Звёздного Королевства, помогающих Незнайке вернуться на Землю.
Рейтинг условен – каждый герой по-своему важен. Некоторые критики видят в nto-персонажах аллегорию на общество, например, Лунатики – это «власть», а Солнечники – «народ». Хотите подробнее о ком-то из них или о символике? 😊

celen Dec 1 2025 at 14:05

Захотел вступиться за претендентов и набрал в доступном онлайн Гигачате тот же вопрос.

Список основных персонажей произведения Николая Носова «Незнайка на Луне»:

Герои-коротышки Земли:
Незнайка — центральный персонаж, отправившийся на Луну.
Пончик — спутник Незнайки, любитель еды.
Знайка — учёный коротышка, изобретатель ракеты.
Фуксия и Селёдочка — подруги Знайки, помощницы в научной работе.
Ромашка, Цветик, Авоська, Небоська, Пилюлькин, Винтик, Спрутик и др. — жители Цветочного города.

Персонажи Луны:
Мига и Жулио — мошенники и авантюристы.
Скуперфильд — жадный владелец магазина и фабрикант.
Спрутс — богатейший капиталист, лидер лунных дельцов.
Дрянинг — лжец и плут, сотрудничавший с богачами.
Хвастливый миллионер Спрутс-младший — сын Спрутса.
Козлик — бедняк, ставший другом Незнайки.
Монета Людоедка — хозяйка цирка, известная своим суровым характером.
Охотник Пулька — коварный охотник за сокровищами.
Джером — судья с сомнительной репутацией.
Полицейские Бигль и Бульдог — стражи порядка, выполняющие приказы богатых.
Эти персонажи помогают раскрыть сатирический сюжет и показывают различие миров маленького космоса сказочной планеты Земля и её спутника Луны.

Сначала я обрадовался, но позже вчитался в ответ сберовского поделия.
Спрутс-младший ? Монета Людоедка ? Охотник Пулька теперь лунянин?

Ладно - решил я - гигачат недотягивает. Есть ещё куда расти русскому ИИ. И что бы его полностью посрамить пошел спрашивать то же самое у chatGPT:

Вот основные герои книги Николая Носова **«Незнайка на Луне»**, сгруппированные для удобства:

### ⭐ Главные персонажи

* **Незнайка**
* **Пончик**
* **Знайка**
* **Тюбик**
* **Гусля**
* **Винтик и Шпунтик**
* **Сиропчик** (профессор)

### 🛰️ Жители Луны

**Доброжелатели и нейтральные:**

* **Институтёнок**
* **Тубик** (лунный художник)
* **Скуперфильд** (миллионер-филантроп по лунным меркам)
* **Ганг** (советник Скуперфильда)

**Злодеи и мошенники:**

* **Джейк Грабс** (трамп-биржевик)
* **Дыменс** (банкир)
* **Купер и Мак-Купер** (мошенники)
* **Крабс** (полицейский)
* **Спрутс** (другой полицейский)
* **Шурфиггер** (газетчик-лжец)

### 👥 Другие персонажи

* **Мигель и Бруно** (автомеханики)
* **Фикус** (служащий гостиницы)
* **Дырчик** (водитель)
* **Клякса** (корреспондентка)
* **Модница Жужа**
  и множество эпизодических жителей Луны: полицейские, банковские служащие, биржевики, журналисты, безработные коротышки и т. д.

Если хочешь, могу составить **полный расширенный список** или сделать таблицу персонажей с их ролями в сюжете.

Так что Сиропчик у нас теперь профессор, Спрутс и Крабс - полицейские, а половину лунных персонажей я вообще не знаю.

celen Dec 1 2025 at 14:18

Ну ладно, американский ИИ не обязан разбираться в русских сказках - подумал я и потребовал у них двоих список персонажей "Волшебника в стране Оз" Баума. Приводить ответы целиком не буду, но на этот раз GPT не стал придумывать ерунду, справившись с заданием без особых нареканий, а GigaChat почти не облажался, всех правильно перечислив, но в конце концов не выдержав и добавив в список некого "толстяка Джокера".

Так вот - что эти бенчмарки, SWE-bench, GPQA, какая ерунда! Вот настоящий вызов для LLM - перечислить герои и перепетии сюжета разных известных книжек, ничего не выдумывая и ничего не убирая. Вот где кроется настоящий вызов для ИИ!

P.S. Программисты у GigaChat нормальные для не супер-топ модели. А вот создателя веб-интерфейса за такую халтуру стоит сослать в Сибирь.

P.P.S. Повторил запрос на персонажей "Незнайки" в Opus-4.5 и Gemini-3-pro через LMArena. Гиганты справились с вопросом нормально, ничего не сгаллюцинировав. Может быть, продвинутая версия GigaChat тоже может нормально на это ответить?

kronos Dec 1 2025 at 03:37

Открыл "Гигачат" - войдите через сбер id. Закрыл гигачат.

Starkfrost Dec 1 2025 at 03:57

А как же MiniMax M2, недостаточно хорош?

kitbit Dec 2 2025 at 02:18

Добавил в сравнение MiniMax M2 )

finderfablius Dec 1 2025 at 05:31

Все эти модели превратились в энциклопедии,
Если сознание основывается на сложности ДНК клетки, всего организма, популяции, химии физики, всего того что не открыто еще, то сейчас уже становится актуальным вопросом, возможно что LLM никогда не смогут приблизиться к эффективности человека, придерживаться здравого смысла в рассуждениях, и преодолевать фундаментальные математические ограничения, например Теорему Геделя о неполноте, согласно которой любая достаточно сложная вычислительная система содержит невозможность доказать истинность или ложность некоторых утверждений, которые существуют и количество которых бесконечно.

человек каким то образом этого вообще не замечает, поскольку он живой организм, часть Культуры, Дискурса,
Он лишь замечает что сколько бы он не узнавал, всегда открывается новый горизонт незнания и потому недооценивает себя, тревожась что какая то машина сможет понять что такое радость смех переживание вообще.

Возможно существует такого рода вышлифованный алгоритм рождающий сознание, у которого ограничение в эффективности улучшений упирается лишь во время, и если он есть, то равен длительности существования Жизненных форм. Поскольку алгоритмы по которым взаимосвязаны все белки, структуры нашего организма, вычислялись миллиарды лет, с предельной эффективностью, через распараллеливание вычислений через экспоненциальный рост популяции, тех же одноклеточных или вирусов.
С тех пор за миллиарды лет эта информация сжималась в ДНК код, что привело к возникновению сознания, человеческой культуры, инфополя, нейросетей ...

smarkelov Dec 1 2025 at 05:41

Вместо очередного высера из ллм лучше бы протестировали сами некоторые эти решение, а потом бы уже писали про результаты...

vl12 Dec 1 2025 at 07:34

В списке нет Z.ai. Сам вчера о ней узнал, статей мало, но пишут почти уровня Claude. Сегодня с ней по кодингу работал, в общем понравилось. Предлагает идеи, пишет не так сухо как DeepSeek. Но льстит. На простой промт пишет код Python на 500 строк без ошибок (pandas, логика, графики на bokeh).

Qwen перехвален. Мне разонравился с лета (я работал с ним этот год), когда после обновления он стал совсем прип*зднутый, много льстит, лжет... Модели обновляют, это поведение то исправляют, то вылазит ещё больше. И постоянно делает ошибки с либой bokeh (графики) для Python, в которой был изменён ряд методов ещё в 2024 году.

У GigaChat есть замечательные плагины для IDE от Jetbrains и для VS Code. Работают без vpn.

aborouhin Dec 1 2025 at 07:39

Мне кажется, некорректно сравнивать стоимость использования API и self-hosted модель исключительно по затратам на аренду минимально проходящего по VRAM GPU. К API я могу хоть сотню запросов параллельно отправить - а локальная модель, даже если в VRAM влезла, при росте числа параллельных запросов скоростью явно не порадует.

Politura Dec 1 2025 at 08:36

Не хватает очень классных и популярных моделей:

GLM-4.6 от китайской z.ai. 357B параметров, есть прямо от разработчиков с 8-и битным квантом, которая показывает в SWE Bench - 68 единиц, на уровне DeepSeek 3.2, занимая почти в 2 раза меньше места. Модель классная, кодит хорошо, причем у разработчиков можно взять подписку за смешные 3 бакса в месяц, которой вполне хватает для кодинга не выходя за лимиты.

Модели с открытыми весами от OpenAI:

gpt-oss-20b - очень классная модель которая будет работать супер быстро на игровом компе, у нее изначально большая часть параметров 4-х битные, поэтому ей надо всего 14Гб памяти. И это MOE модель, поэтому работает быстрее чем 4b модели. При всем при этом она весьма умная.

gpt-oss-120b аналогично младшей модели, 4х битные параметры от разработчиков, очень быстрая, но еще умнее. Из всех моделей, что влезают в одну H100, эта, вероятно, самая лучшая модель. Ей надо 65Гб памяти, народ ее запускает на игровых компах с 16Гб видеопамяти и 64Гб ОЗУ. Вообще непонятно почему ее не упомянули.

kitbit Dec 2 2025 at 02:17

Добавил модели по вашей рекомендации 👌

proxy3d Dec 1 2025 at 12:15

Триллион параметров — но благодаря MoE активируется только 32B на токен

Когда пишут про огромное кол-во параметров с использованием MoE, на самом деле это не совсем реальные размеры модели.

Чтобы это понять, представьте, что у вас есть функция F(X) которая аппроксимирует несколько максимумом. Но для этого нужен большой размер FFN. Тогда в место одной F(X) делаете N функций аппроксимации F1(X), F2(X)... Fn(X), каждая из которых аппроксимирует только один максимум. Эти функции по сути схожи, но отличаются немного в параметрах.

Таким образом вы раздули размерность, потому что большая FFN для F(X) у вас не влезает в память. Поэтому вы вынуждены сделать N разных FFN для F1(X), F2(X)... Fn(X), где их размер меньше, для достаточной точности. При этом вы загружаете в память только какую-то одну. Например, только F1(X). То есть мы в N раз увеличили кол-во параметров, из за наших ограничений. Фактически F1(X), F2(X)... Fn(X) эта одна и та функция, только с разными настройками параметров.

В этом легко убедиться, если сначала в MoE включить только один FFN, обучить его. Затем скопировать его веса в остальных экспертов и дальше дообучать деталям.

Поэтому триллионы, секстилионы параметров MoE мало что значат, если у нас там изначально меньше максимумов, которые можно интерпретировать. Я приводил пример, и сейчас использую этот подход для ускорения обучения MoE https://t.me/greenruff/2509

BoldDwarf Dec 1 2025 at 13:10

Жаль что в статье указаны модели пригодные для 4090 (24GB VRAM) но нет пригодных для 5090 (32GB VRAM).

Понятно что то, что работает на 4090 будет работать и на 5090 но 8GB разницы это все таки значимо.

fUS1ONd Dec 2 2025 at 14:27

чёто я не вкурил
почему qwen coder swe bench - 82.1%
opus 4.5 swe bench - 80.9%
И все вокруг твердят, что opus 4.5 впервые превысил 80 среди всех llm - рекорд, а тут появляется китайская опенсорс модель и говорит что она так то лучше
по-моему беда с таблицами

aladkoi Dec 4 2025 at 18:51

GLM4.6 явно лучше, чем Claude sonnet 4.5 и стоит в 7 раз дешевле. Весч.

ExplosiveJam Dec 8 2025 at 05:14

У меня ощущение, что GLM хуже с multi-file editing. Например, правлю я фронт, надо добавить поле для формы и локализацию для нее. Сонет про локализацию понимает сам, в промпте явно ничего не сказано про это. ГЛМ приходится прямо укаывать на файлы с переводами.