Информация
- В рейтинге
- 5 447-й
- Откуда
- Москва, Москва и Московская обл., Россия
- Дата рождения
- Зарегистрирован
- Активность
Специализация
ML разработчик, Вайбкодер
Средний
Python
FastAPI
Nginx
Английский язык
Linux
Базы данных
Разработка программного обеспечения
MySQL
Ну, у нас с вами, видимо, очень разные понимания "прод"а :)
Я вот собираю корпоративную агентную среду и моя RX7800XT позволяет содержать максимум 6 параллельных потоков с 32 000 контекста на Ministral3 3B в Q8.
И в моем понимании, с одной стороны это неплохой задел под параллельную работу (6 потоков явно лучше чем 1, где все пользователи будут стоять в очереди, а кто-то может дать сложную задачу и его все будут обязаны ждать), с другой я прекрасно понимаю как сильно ограничены возможности локальных моделей, так как что-то "вменяемое" начинается где-то от 20B+, а чтобы появились настоящие агентные навыки это 30B+, что на домашнем железе если и запустишь, то либо с частичной выгрузкой на CPU и RAM, либо с крайне ограниченным железом. И это явно не сценарий для какого-то "прод" решения. Это скорее личное пользование для тестов и экспериментов.
Вам же, для своих тестов, я бы порекомендовал попользовать GPT-OSS-20B, она намного быстрее Qwen3-14B работает, нативно обучена в 4-битном квантовании и позволит запустить ее даже с 120 000 контекста (другой вопрос, что для pp 120к понадобится минут 20 времени на запрос, но это уже другой вопрос).
Учитывая практические возможности того, что можно запустить на 16Гб это скорее статья ради того, чтобы рассказать как пройти весь путь, но точно не о какой-то практической пользе. Стоимость аренды такого сервера перекроет покупку своего подобного GPU уже через 4-6 месяцев аренды, если не раньше, модели которые можно запустить крайне ограничены. Называть это именно "своим облачным" сервером тоже крайне сомнительно, скорее удаленная локалка, ибо в лучшем случае на модели размером 4b получится поддерживать 4-8 конкурентных потоков без значительной просадки TPS, далее уже кошмар начнется. Ну и если нет необходимости в реально приватности данных, то условная подписка будет в 10 раз дешевле аренды такого сервера и в сотни раз эффективнее по результатам.
Так мой посыл был как раз таки в том, что сейчас не нужен Linux и танцы с бубном, когда на windows все теперь работает из коробки.
Я сам пытался поставить все на Linux, запустил даже vllm. И все проклял. А там где все же запустилось - TPS был ниже чем в windows на vulkan.
Поэтому возможность запустить на windows ещё и с rocm это очень серьезный прогресс.
Думаю вы сильно удивитесь, но CUDA будет лучше на 20-30%, но не в х2-х3, как обычно преподносится. Независимо от архитектуры скорость генерации токенов ограничена исключительно пропускной способностью памяти, а память у всех одинаковая.
А оптимизация работы ROCm год от года становится только лучше. Только за 2025 год AMD добились практически двухкратного роста производительности.
Тут в первую очередь речь как раз о том, что теперь создать свой домашний сервер можно на любом железе и ОС.
Ну, для написания скрипта hello world подойдет :)
Миллион токенов в год, это не "достаточно для экспериментов". Я на локальной модели миллион за 1 прогон теста трачу :)
Если у вас не высоконагруженная система, рекомендую развернуть локалку, будет дешевле и в разы проще контролировать.
5060ti будет быстрее, она и новее и поддержка cuda все еще лучше, чем rocm.
Значит ребята по-разному квантуют и мне не показалось что модель бартовски как будто бы потупее.
Как раз только что обновил выше :)
mradermacher
Кстати, да, возможно проблема именно в этом. Так как по тестам которые я сейчас провожу по-моему как раз версия от bartowski показывает себя хуже чем от другого автора.
Upd
Да, у меня сейчас версия mradermacher
Не знаю, что с вашей моделью не так :)
Моя с первого запроса ответила что 3.
Ну во-первых вы тестируете все же на локальном железе, пусть и доказано что Q4 имеет минимальные потери по сравнению с Q8, потери все же есть.
Во-вторых, пусть и слово разбираете английское, инструкции все же на русском, что создает для модели сложности для работы, так как русский явно для нее не основной язык и она может хуже понимать задачу.
В-третьих, морфологический разбор слов это не написание текстов. Как и в примере выше с "Собачьим сердцем", разбор слов это 100% не целевая задача обучения данной модели.
Не нужно ожидать от всех подряд моделей решения всех ваших задач :) Для узких задач используйте специализированные модели.
Еще два момента важных:
Большинство моделей оптимизированы для работы через vLLM, LMStudio, скорее, удобный, но не лучший вариант.
Судя по тому, что у вас на втором вопросе модель напрочь забыла поставленную задачу, подозреваю, что вы ей дали очень маленький контекст, а потому пока она думала, она уже забыла задачу.
К сожалению в локальном запуске на потребительском железе есть огромное количество "НО", которые не позволяют воспроизвести результаты бенчмарков и в ближайшее время, я скорее всего, об этом напишу.
Ахахах, интересное поведение. У меня такого ещё не было :)
Вот в этом и состоит основной казус :)
В один момент они могут без ошибок написать практически целиком проект, а потом на какой-то глупой вещи запнуться.
Но лично по моим ощущениям сильно влияет именно инструмент, где работать. По моему опыту Claude Code значительно реже затыкался на глупостях, чем Kilo Code. Kilo наравит вечно переписывать и упрощать. Claude работает аккуратнее как-то. Поэтому мой лично выбор это Claude.
Antigravity очень хорош, но именно Gemini 3 Pro последнее время стала нестабильной, застревает в мыслях, пишет ахинею. Недавно "надеялась что процесс корректно сдохнет, а sqlite стерпит"
Это крайне некорректный подход к тестированию.
Модели не обязаны знать все на свете. Данная модель, если вчитаться в логику ее обучения, была ориентирована на математику, науку и вызов инструментов. Ни в одном из этих сценариев нет знания литературы.
Я больше скажу. И огромные модели не будут знать всех произведений и уж тем более их деталей. Для этого есть RAG.
Модели не могут знать того, на чем не обучались. А целенаправленно загружать в модели целые произведения - бессмысленно, это просто раздувание объема информации, которая просто даст знание книги, но не практических навыков.
Если уж планируете проверять на литературность - давайте моделям фрагменты и просите их перефразировать или сделать какие-то выводы/анализы по тексту. Вот тогда вам действительно будет что сравнивать.
Ага, значит просто хорошая оптимизация под Nvidia так сильно размывает разницу между 5060 мобильной и 7800xt десктопной.
А через что запускаете? Просто даже в Q4 такая модель должна потреблять минимум 15Гб. У меня на RX7800XT с 16Гб она физически не влазит целиком, только при частичной выгрузке. Но правда результат в целом сопоставимый - до 35Tps в начале ответов, потом быстро падает.
Да, на 5060 явно будет шустрее, так как qwen 30b просто целиком не влазит на 5060 и потому становится очень медленным из за частично выгрузки на ram, несмотря на то, что активных параметров тоже всего 3b.
Но на самом деле я практически уверен, что на реальных, а не академических задачах, в кодинге эта моделька практически бесполезна, за исключением написания базовых python скриптов, которых хватит для вводного обучения языку. 3b все таки все еще очень маленький размер, даже при хорошем обучении, текущая архитектура llm не позволит прыгнуть сильно выше головы.
Да, в вопросах кода топы действительно имеют колоссальный разрыв с локалками, особенно на совсем ограниченном железе.
У меня в планах на будущее есть идея дообучать маленькие модели на своем железе, поэтому если однажды руки дойдут и что-то толковое будет получаться, то, если память не подведет, может свяжусь с вами и поэкспериментируем :)
Ой, сам вот немногим больше полгода как влился в тему LLM и удивлен тому как сильно приросли за это время результаты моделей, которые реально запустить дома. Но до уровня Gemini 3 Pro или хотя бы, чтобы их можно было использовать для написания хоть сколько-нибудь внятного кода при размере менее 8B наверное еще год точно придется подождать, если даже не больше.
С другой стороны, если у вас есть конкретная задача - программирование микроконтроллеров, то под это дело можно попробовать дообучить целенаправленно небольшую модель.
Например, точно знаю, что есть LLM целенаправленно обученная делать SLQ запросы и за счет того, что она сделана под конкретную задачу - она и вправду в этом хороша.