Комментарии / Профиль MKreGGo / Хабр

Вадим@MKreGGo

Пользователь

Рейтинг

Подписчики

ПрофильСтатьи8ПостыНовостиКомментарии58

CorpClaw-Lite или как я сделал безопасный аналог OpenClaw

MKreGGo 7 часов назад

А кто сказал что возможностей больше не будет?

Вопрос реализации и отладки под работу с локальной моделью.

Какой толк от сотни возможностей, если частью ты никогда не воспользуешься, а другая без должного контроля тебе навредит?

Как для энтузиаста для домашнего пользования openclaw бесспорно лучше, но и суть проектов разная, на секундочку)

Собственная облачная LLM на 16 ГБ VRAM — часть 1: базовая сборка, tools и MCP

MKreGGo 8 мар в 07:14

Ну, у нас с вами, видимо, очень разные понимания "прод"а :)

Я вот собираю корпоративную агентную среду и моя RX7800XT позволяет содержать максимум 6 параллельных потоков с 32 000 контекста на Ministral3 3B в Q8.

И в моем понимании, с одной стороны это неплохой задел под параллельную работу (6 потоков явно лучше чем 1, где все пользователи будут стоять в очереди, а кто-то может дать сложную задачу и его все будут обязаны ждать), с другой я прекрасно понимаю как сильно ограничены возможности локальных моделей, так как что-то "вменяемое" начинается где-то от 20B+, а чтобы появились настоящие агентные навыки это 30B+, что на домашнем железе если и запустишь, то либо с частичной выгрузкой на CPU и RAM, либо с крайне ограниченным железом. И это явно не сценарий для какого-то "прод" решения. Это скорее личное пользование для тестов и экспериментов.

Вам же, для своих тестов, я бы порекомендовал попользовать GPT-OSS-20B, она намного быстрее Qwen3-14B работает, нативно обучена в 4-битном квантовании и позволит запустить ее даже с 120 000 контекста (другой вопрос, что для pp 120к понадобится минут 20 времени на запрос, но это уже другой вопрос).

Собственная облачная LLM на 16 ГБ VRAM — часть 1: базовая сборка, tools и MCP

MKreGGo 7 мар в 15:36

Учитывая практические возможности того, что можно запустить на 16Гб это скорее статья ради того, чтобы рассказать как пройти весь путь, но точно не о какой-то практической пользе. Стоимость аренды такого сервера перекроет покупку своего подобного GPU уже через 4-6 месяцев аренды, если не раньше, модели которые можно запустить крайне ограничены. Называть это именно "своим облачным" сервером тоже крайне сомнительно, скорее удаленная локалка, ибо в лучшем случае на модели размером 4b получится поддерживать 4-8 конкурентных потоков без значительной просадки TPS, далее уже кошмар начнется. Ну и если нет необходимости в реально приватности данных, то условная подписка будет в 10 раз дешевле аренды такого сервера и в сотни раз эффективнее по результатам.

Большой бенчмарк: ROCm vs Vulkan в LM Studio 0.4 и добавление параллельных запросов

MKreGGo 31 янв в 15:11

Так мой посыл был как раз таки в том, что сейчас не нужен Linux и танцы с бубном, когда на windows все теперь работает из коробки.

Я сам пытался поставить все на Linux, запустил даже vllm. И все проклял. А там где все же запустилось - TPS был ниже чем в windows на vulkan.

Поэтому возможность запустить на windows ещё и с rocm это очень серьезный прогресс.

Большой бенчмарк: ROCm vs Vulkan в LM Studio 0.4 и добавление параллельных запросов

MKreGGo 31 янв в 11:08

Думаю вы сильно удивитесь, но CUDA будет лучше на 20-30%, но не в х2-х3, как обычно преподносится. Независимо от архитектуры скорость генерации токенов ограничена исключительно пропускной способностью памяти, а память у всех одинаковая.

А оптимизация работы ROCm год от года становится только лучше. Только за 2025 год AMD добились практически двухкратного роста производительности.

Тут в первую очередь речь как раз о том, что теперь создать свой домашний сервер можно на любом железе и ОС.

А король-то голый! Как написать свой Claude Code в 200 строках кода

MKreGGo 11 янв в 08:26

Ну, для написания скрипта hello world подойдет :)

Сбер проник в n8n и фильтрует нам лидов: как мы подключили Отечественную нейросеть к автоматизациям

MKreGGo 8 янв в 09:49

Миллион токенов в год, это не "достаточно для экспериментов". Я на локальной модели миллион за 1 прогон теста трачу :)

Если у вас не высоконагруженная система, рекомендую развернуть локалку, будет дешевле и в разы проще контролировать.

Установка и настройка llama.cpp с ROCm на Ubuntu 24.04 для AMD Radeon RX 7600 XT

MKreGGo 4 янв в 15:49

5060ti будет быстрее, она и новее и поддержка cuda все еще лучше, чем rocm.

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

MKreGGo 29 дек 2025 в 16:56

Значит ребята по-разному квантуют и мне не показалось что модель бартовски как будто бы потупее.

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

MKreGGo 29 дек 2025 в 16:32

Как раз только что обновил выше :)

mradermacher

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

MKreGGo 29 дек 2025 в 16:28

Кстати, да, возможно проблема именно в этом. Так как по тестам которые я сейчас провожу по-моему как раз версия от bartowski показывает себя хуже чем от другого автора.

Upd

Да, у меня сейчас версия mradermacher

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

MKreGGo 29 дек 2025 в 16:25

Не знаю, что с вашей моделью не так :)

Моя с первого запроса ответила что 3.

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

MKreGGo 29 дек 2025 в 15:56

Ну во-первых вы тестируете все же на локальном железе, пусть и доказано что Q4 имеет минимальные потери по сравнению с Q8, потери все же есть.
Во-вторых, пусть и слово разбираете английское, инструкции все же на русском, что создает для модели сложности для работы, так как русский явно для нее не основной язык и она может хуже понимать задачу.
В-третьих, морфологический разбор слов это не написание текстов. Как и в примере выше с "Собачьим сердцем", разбор слов это 100% не целевая задача обучения данной модели.

Не нужно ожидать от всех подряд моделей решения всех ваших задач :) Для узких задач используйте специализированные модели.

Еще два момента важных:
Большинство моделей оптимизированы для работы через vLLM, LMStudio, скорее, удобный, но не лучший вариант.
Судя по тому, что у вас на втором вопросе модель напрочь забыла поставленную задачу, подозреваю, что вы ей дали очень маленький контекст, а потому пока она думала, она уже забыла задачу.

К сожалению в локальном запуске на потребительском железе есть огромное количество "НО", которые не позволяют воспроизвести результаты бенчмарков и в ближайшее время, я скорее всего, об этом напишу.

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

MKreGGo 29 дек 2025 в 15:37

Ахахах, интересное поведение. У меня такого ещё не было :)

Вайбкодинг: Почему полностью автономные ИИ‑агенты для кода — путь в никуда

MKreGGo 28 дек 2025 в 16:56

Вот в этом и состоит основной казус :)

В один момент они могут без ошибок написать практически целиком проект, а потом на какой-то глупой вещи запнуться.

Но лично по моим ощущениям сильно влияет именно инструмент, где работать. По моему опыту Claude Code значительно реже затыкался на глупостях, чем Kilo Code. Kilo наравит вечно переписывать и упрощать. Claude работает аккуратнее как-то. Поэтому мой лично выбор это Claude.

Antigravity очень хорош, но именно Gemini 3 Pro последнее время стала нестабильной, застревает в мыслях, пишет ахинею. Недавно "надеялась что процесс корректно сдохнет, а sqlite стерпит"

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

MKreGGo 28 дек 2025 в 13:16

Это крайне некорректный подход к тестированию.

Модели не обязаны знать все на свете. Данная модель, если вчитаться в логику ее обучения, была ориентирована на математику, науку и вызов инструментов. Ни в одном из этих сценариев нет знания литературы.

Я больше скажу. И огромные модели не будут знать всех произведений и уж тем более их деталей. Для этого есть RAG.

Модели не могут знать того, на чем не обучались. А целенаправленно загружать в модели целые произведения - бессмысленно, это просто раздувание объема информации, которая просто даст знание книги, но не практических навыков.

Если уж планируете проверять на литературность - давайте моделям фрагменты и просите их перефразировать или сделать какие-то выводы/анализы по тексту. Вот тогда вам действительно будет что сравнивать.

+10

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

MKreGGo 28 дек 2025 в 12:20

Ага, значит просто хорошая оптимизация под Nvidia так сильно размывает разницу между 5060 мобильной и 7800xt десктопной.

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

MKreGGo 28 дек 2025 в 12:03

А через что запускаете? Просто даже в Q4 такая модель должна потреблять минимум 15Гб. У меня на RX7800XT с 16Гб она физически не влазит целиком, только при частичной выгрузке. Но правда результат в целом сопоставимый - до 35Tps в начале ответов, потом быстро падает.

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

MKreGGo 28 дек 2025 в 10:36

Да, на 5060 явно будет шустрее, так как qwen 30b просто целиком не влазит на 5060 и потому становится очень медленным из за частично выгрузки на ram, несмотря на то, что активных параметров тоже всего 3b.

Но на самом деле я практически уверен, что на реальных, а не академических задачах, в кодинге эта моделька практически бесполезна, за исключением написания базовых python скриптов, которых хватит для вводного обучения языку. 3b все таки все еще очень маленький размер, даже при хорошем обучении, текущая архитектура llm не позволит прыгнуть сильно выше головы.

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

MKreGGo 27 дек 2025 в 21:38

Да, в вопросах кода топы действительно имеют колоссальный разрыв с локалками, особенно на совсем ограниченном железе.

У меня в планах на будущее есть идея дообучать маленькие модели на своем железе, поэтому если однажды руки дойдут и что-то толковое будет получаться, то, если память не подведет, может свяжусь с вами и поэкспериментируем :)

2 3

В рейтинге: 1 741-й

Откуда: Москва, Москва и Московская обл., Россия

Дата рождения: 21 июня 1994

Зарегистрирован: 4 декабря 2025

Активность: вчера в 22:48

ML разработчик, Вайбкодер

Средний

Python

FastAPI

Nginx

Английский язык

Linux

Базы данных

Разработка программного обеспечения

MySQL

Информация

Специализация