Comments / Profile of MKreGGo / Habr

Кстати, да, возможно проблема именно в этом. Так как по тестам которые я сейчас провожу по-моему как раз версия от bartowski показывает себя хуже чем от другого автора.

Upd

Да, у меня сейчас версия mradermacher

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

MKreGGo Dec 29 2025 at 16:25

Не знаю, что с вашей моделью не так :)

Моя с первого запроса ответила что 3.

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

MKreGGo Dec 29 2025 at 15:56

Ну во-первых вы тестируете все же на локальном железе, пусть и доказано что Q4 имеет минимальные потери по сравнению с Q8, потери все же есть.
Во-вторых, пусть и слово разбираете английское, инструкции все же на русском, что создает для модели сложности для работы, так как русский явно для нее не основной язык и она может хуже понимать задачу.
В-третьих, морфологический разбор слов это не написание текстов. Как и в примере выше с "Собачьим сердцем", разбор слов это 100% не целевая задача обучения данной модели.

Не нужно ожидать от всех подряд моделей решения всех ваших задач :) Для узких задач используйте специализированные модели.

Еще два момента важных:
Большинство моделей оптимизированы для работы через vLLM, LMStudio, скорее, удобный, но не лучший вариант.
Судя по тому, что у вас на втором вопросе модель напрочь забыла поставленную задачу, подозреваю, что вы ей дали очень маленький контекст, а потому пока она думала, она уже забыла задачу.

К сожалению в локальном запуске на потребительском железе есть огромное количество "НО", которые не позволяют воспроизвести результаты бенчмарков и в ближайшее время, я скорее всего, об этом напишу.

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

MKreGGo Dec 29 2025 at 15:37

Ахахах, интересное поведение. У меня такого ещё не было :)

Вайбкодинг: Почему полностью автономные ИИ‑агенты для кода — путь в никуда

MKreGGo Dec 28 2025 at 16:56

Вот в этом и состоит основной казус :)

В один момент они могут без ошибок написать практически целиком проект, а потом на какой-то глупой вещи запнуться.

Но лично по моим ощущениям сильно влияет именно инструмент, где работать. По моему опыту Claude Code значительно реже затыкался на глупостях, чем Kilo Code. Kilo наравит вечно переписывать и упрощать. Claude работает аккуратнее как-то. Поэтому мой лично выбор это Claude.

Antigravity очень хорош, но именно Gemini 3 Pro последнее время стала нестабильной, застревает в мыслях, пишет ахинею. Недавно "надеялась что процесс корректно сдохнет, а sqlite стерпит"

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

MKreGGo Dec 28 2025 at 13:16

Это крайне некорректный подход к тестированию.

Модели не обязаны знать все на свете. Данная модель, если вчитаться в логику ее обучения, была ориентирована на математику, науку и вызов инструментов. Ни в одном из этих сценариев нет знания литературы.

Я больше скажу. И огромные модели не будут знать всех произведений и уж тем более их деталей. Для этого есть RAG.

Модели не могут знать того, на чем не обучались. А целенаправленно загружать в модели целые произведения - бессмысленно, это просто раздувание объема информации, которая просто даст знание книги, но не практических навыков.

Если уж планируете проверять на литературность - давайте моделям фрагменты и просите их перефразировать или сделать какие-то выводы/анализы по тексту. Вот тогда вам действительно будет что сравнивать.

+10

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

MKreGGo Dec 28 2025 at 12:20

Ага, значит просто хорошая оптимизация под Nvidia так сильно размывает разницу между 5060 мобильной и 7800xt десктопной.

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

MKreGGo Dec 28 2025 at 12:03

А через что запускаете? Просто даже в Q4 такая модель должна потреблять минимум 15Гб. У меня на RX7800XT с 16Гб она физически не влазит целиком, только при частичной выгрузке. Но правда результат в целом сопоставимый - до 35Tps в начале ответов, потом быстро падает.

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

MKreGGo Dec 28 2025 at 10:36

Да, на 5060 явно будет шустрее, так как qwen 30b просто целиком не влазит на 5060 и потому становится очень медленным из за частично выгрузки на ram, несмотря на то, что активных параметров тоже всего 3b.

Но на самом деле я практически уверен, что на реальных, а не академических задачах, в кодинге эта моделька практически бесполезна, за исключением написания базовых python скриптов, которых хватит для вводного обучения языку. 3b все таки все еще очень маленький размер, даже при хорошем обучении, текущая архитектура llm не позволит прыгнуть сильно выше головы.

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

MKreGGo Dec 27 2025 at 21:38

Да, в вопросах кода топы действительно имеют колоссальный разрыв с локалками, особенно на совсем ограниченном железе.

У меня в планах на будущее есть идея дообучать маленькие модели на своем железе, поэтому если однажды руки дойдут и что-то толковое будет получаться, то, если память не подведет, может свяжусь с вами и поэкспериментируем :)

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

MKreGGo Dec 27 2025 at 21:16

Ой, сам вот немногим больше полгода как влился в тему LLM и удивлен тому как сильно приросли за это время результаты моделей, которые реально запустить дома. Но до уровня Gemini 3 Pro или хотя бы, чтобы их можно было использовать для написания хоть сколько-нибудь внятного кода при размере менее 8B наверное еще год точно придется подождать, если даже не больше.

С другой стороны, если у вас есть конкретная задача - программирование микроконтроллеров, то под это дело можно попробовать дообучить целенаправленно небольшую модель.

Например, точно знаю, что есть LLM целенаправленно обученная делать SLQ запросы и за счет того, что она сделана под конкретную задачу - она и вправду в этом хороша.

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

MKreGGo Dec 27 2025 at 20:56

Такая маленькая нишевая модель вряд ли будет на lmarena. Там обычно только крупные и значимые релизы крутятся. Поэтому скорее всего самим прогонять на тестах придется для проверки соответствия всем заявлениям.

Я как раз на текущий момент, чисто из эксперимента, сижу тестирую свой набор тестов на tool calling для локальных моделей, поэтому, вероятнее всего, в следующей статье поделюсь результатами своих тестов.

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

MKreGGo Dec 27 2025 at 20:35

Да, тоже уже увидел публикацию про экспериментальную версию LFM2. Тоже интересные модельки, но у них ключевая особенность немного в другом - LFM2 это гибридные модели, не чистые трансформеры.

Они заметно дешевле с ростом контекста, так как сложность вычислений у них растет линейно, а не квадратично, как у классических трансформеров, но точность понимания контекста сильнее хромает.

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

MKreGGo Dec 27 2025 at 19:32

Зависит от того, как вы это хотите реализовать, и реализовать самостоятельно или через готовые опенсорс решения.

Через готовые - первое что приходит на ум это Perplexica. Это уже готовое решение с веб-поиском через SearXNG, которое разворачивается через Docker. Запускается Docker, запускаете модель, указываете адрес на ваш порт на котором модель - готово, у вас локальная имитация Perplexity.

Если же самому - то тут пространство для решения задачи полностью свободное. Если запускаете локальные модели, например, через LMStudio, то в него недавно добавили поддержку MCP серверов (их вызов тоже по-сути tool calling), поэтому можно на том же SearXNG сделать MCP сервер, локально захостить и подключить в LMStudio. Но тогда еще понадобится скрейпер чтобы доставать содержание страниц (в Perplexica он уже есть), так как SearXNG не отдает содержание страниц, только ссылки и очень краткое содержание.

ИИ в 2026 году: три основных направления развития

MKreGGo Dec 27 2025 at 16:46

Точно также, как и с правами на созданный с помощью ИИ контент - на том, кто был автором и инициатором действия.

2 3

Information

Specialization