Комментарии 39
Согласен с рассуждениями. Прямо да. Единственное 4090 не у всех есть, только это. Облака дешевле пока, хотя все относительно.
3090 для этой цели почти не хуже
А можно и несколько дешманских v100 16GB, уже на валдберисе продаются. Стоит v100 16GB SXM2 в районе 12 тыс рубоей (подозреваю, что китайцы их килограммами как лом из датацентров получают), переходник на pci-e 2-5 тыс руб, водянка 3 тыс + радиатор + помпа иои воздугка 5 тыс.
Или собранеый комплект на авито за 20-25 тыс руб.
V100 32gb sxm2 версия стоит 60-80 тыс руб, но есть переходники на pci-e на 2 и 4 модуля сразу с обьединением nvlink. Получается эквиваоент почти видюхи на 64 или даже 128 gb vram по ещё приемлимым ценам
Второе преимущество - оно не спорное, его просто нет в данный момент. Видеокарта 4090 - стоит более 200 тыс., 5090 - более 250 тыс. (а то и 300 тыс.). Запихнуть Qwen3.6–27B например в 5080 - не получится, там 16 Гб. Вывод, только самые топовые карты. Допустим я не хочу писать какой-то мега проект и следить за производством 24 часа, мне нужно сделать небольшой проект и подписки в 20 дол. вполне хватит для решения данной проблемы. И даже если я захочу вернуться к своему небольшому проекту через несколько месяцев - я отдам 20 баксов (при условии если тарифы не улетят в космос). Но тратить овер 200 тыс. на 5090 или 4090, учитывая что есть локальные модели типа Кими которые занимают более 100Гб (и дело явно идет к тому чтобы выкатить новый класс устройств для локальных ИИ) явно не стоит. Можно предположить или решат что-то с объемами памяти (благо заводов понастроили много) или с типом памяти или с новым типом железа для локальных ИИ и будет это в течение ближайшего года. Имхо, стоит подождать, чем бежать за 4090 или 5090, а пока использовать того же Cloude по подписке.
Согласен, цены не гуманные. Но с другой стороны, пару лет назад модели, которые были на что-то способны, были значительно больше и одной 4090 было мало. А сейчас на ней уже можно запустить что-то более-менее нормальное.
Посмотрим, может еще через два года модели станут совсем маленькими :)
>пару лет назад модели, которые были на что-то способны, были значительно больше
Я лично не вижу уменьшения разрыва между топовым у дяди и тем, что можно запускать локально за $10k. Дяди бегут быстрее.
Ну и совет, попробовать не абьюзить клаву. У меня на $20 тарифе она никогда не тупеет, всегда молодчина, но я даже близко к лимитам не подхожу. Поручаю только code review ей.
А материнку с двумя слотами PCIExpress и две видеокарты подешевле - не проще?
А так тоже делают. Правда есть нюансы с распределением по картам (скорости PCIE все же мало) но если у нас 1 по сути клиент - почему бы и нет. Тут правда материнка нужна с несколькими PCIE слотами и лучше - не x1 + расположенными так что эти карточки влезут (а теперь вспомним что карты обычно - вовсе НЕ однослотовые).
процесс идет. еше пару лет назад для "игр с нейросетью" нужен был кластер как под биткоины, а сейчас можно мелкие модельки даже на телефоне запускать локально
я думаю что просто сделают ПК заточенные только под нейронки, что бы можно было процессор и планки памяти менять по необходимости. гибридные процессоры уже сейчас реальность (потому так маки зашли для запуска локальных моделей) просто эту тему вдавят в пол.
уже сейчас продаются у китайцев сборки чисто под нейронки, когда "видеокарты" заточены именно под нейронку и под них специальные материки которые вмешают только такие "видеокарты" плюс сетевой порт что бы общаться с миром
2 видеокарты RTX3090 по 60 тыс руб на авито полностью вмещают модель Qwen3.6–27B в квантовании q6/q8 при использовании максимального контекста 256k. А с помощью технологии MTP обеспечивается хорошая производительность в 50-55 токен/сек (1100+ токен сек чтение промпта) на данном сетапе. Не нужны никакие 5090 и 4090 за более чем 250k. Не нужны никакие kimi и прочие огромные модели. Qwen3.6–27B рулит безоговорочно (и позавчера анансирован Qwen3.7). 120 тыс руб - вот цена вхождения сейчас в мир локальных LLM.
Не пугайте людей контекстным окном в 32К :) На практике, если у вас быстро работает с окном в 32К, то и в 64К всё будет отлично, а с окном в 100К всё будет конечно же заметно медленнее, но с таким окном хоть можно дышать:)
О да! 32K это просто пример. На самом деле зависит от того как настроить. Зависит от vRAM. Если например поставить:
--cache-type-k q8_0 --cache-type-v q8_0
ну и добавить например:
–-parallel 1
–-flash-attn on
То в 24GB можно и 120K впихнуть. Но если говорить про пайплайны, то вы на каждый шаг можете выставить то окно, которое вам нравится и ограничение размера становится менее чувствительным.
ну для работы окно в 32К ни о чем
но еще пару лет назад такое окно было у флагманов и эти флагманы были потупее современных локальных на 32К
потому я думаю что к моменту как широко распространены станут локальные модели под 1К окно, сами модели уже будут вылизаны настолько что текущим флагманам с 1М и не снилось
представьте себе, что у вас есть два студента, один умница и чемпион мира по шахматам, а другой - обычный студент. Вы им даете одинаковую задачу: нужно прочитать 40 статей в журналах, выписать из них все параграфы, касающиеся жизни колибри в районах крайнего севера. А далее написать саммари на 100 слов. Допустим у студентов одинаковая мотивация сделать работу хорошо и допустим они не устают. Кто сделает лучше? Очевидно, что если меньшая модель вообще может анализировать текст и выбирать релевантные тезисы (а Qwen3.6-27B может) - то результат будет сопоставимый.
С высокой вероятностью у обычного студента менее структурированное мышление, он не тренирован долго фокусироваться и т.д. и т.п. Для меня совершенно не очевидно, что оба студента сделат одинаково и за одинаковое время.
И хочу поделиться результатом сравнения моделей на RT3090 24GB VRAM. Давал задачу модели с Q4_K_XL и точно такой же но Q5_K_XL. Потом скармливал результат Gemini и просил оценить правильность.
Оба ответа были объявлены правильными, хотя на мой обывательский взгляд выглядели по-разному. Gemini прокомментировала это так:
Это классическая ситуация «биологического хаоса». Давай сначала разберем, как обе модели оказались правы, а потом перейдем к твоему впечатляющему результату с Unix-временем.
Как ответы в биологии могут быть разными, но «правильными»?
В биологических задачах всё зависит от того, как модель интерпретирует рамку считывания и направление.
Версия Q4 (Ser — Pro — Trp — Tyr): Она прочитала твою цепь ДНК «в лоб» как матричную. Она просто перевела буквы по правилам комплементарности и получила бесконечную цепочку. Это «школьный» уровень решения.
Версия Q5 (His – Gly – Ser – Stop): Она оказалась умнее. В процессе своего «размышления» (те самые 7800 токенов) она, скорее всего, прогнала цепочку через разные варианты и увидела, что если читать её определенным образом, в конце появляется стоп-кодон (UGA).
В биологии это считается более «правильным» ответом, так как синтез белка в природе не идет вечно — он должен где-то остановиться.
Поскольку рамка считывания сместилась, мутация из «сайлент» (которая ничего не меняет) превратилась в «миссенс» (которая меняет аминокислоту).
Итог: Q5 глубже «вникла» в биологический смысл и нашла скрытый в задаче стоп-кодон, который Q4 просто проигнорировала. Это и есть разница в «интеллекте» квантования.
P.S. Модели действительно часто валятся на вопросе типа "Unixtimestamp: 1774803105. Сколько это на человеческом языке?"
Интересно, заметите ли вы разницу, скормви разным моделям образцы с unixtimestamp.com
P.S. Если будет интересно, вот задача:
Задание по биологии для проверки логики синтеза:
Дана матричная цепь ДНК: 3'-ТЦА-ГГА-АЦЦ-АТГ-5'.
Построй на её основе иРНК (информационную РНК). Обязательно укажи направления 5' и 3'.
Используя справочные данные ниже, напиши последовательность аминокислот.
Представь, что в ДНК произошла мутация: во втором кодоне (ГГА) последний нуклеотид А заменился на Т. Как изменится последовательность аминокислот? Как называется такая мутация (миссенс, нонсенс или сайлент)?
Справочные данные (кодоны иРНК):
АЦЦ — Тре (Треонин)
АУГ — Мет (Метионин)
ГГА — Гли (Глицин)
ГГУ — Гли (Глицин)
УЦА — Сер (Серин)
АГТ — (ошибка, в иРНК нет Т)
я, к сожалению совершенно не разбираюсь в биологии, аминокислотах и ДНК, поэтому для меня довольно сложно разбить вашу задачу на шаги, которые дают корректные результаты.
Одно из основных преимуществ пайплайна (с моей точки зрения) состоит в том, что вы разбиваете сложную задачу на набор простых шагов. Т.е. если вы скормите сложный вопрос целиком - то даже самая умная модель может накосячить (и практически наверняка накосячит), однако если вы разобьете сложную задачу на последовательность простых действий, да еще и дадите модели инструменты (например регулярные выражения для проверки правильности записи цепочек, например справочник, не знаю, справочник аминокислот например, или описание каких-либо закономерностей, позволяющий сделать выбор определенного варианта), а на следующем шаге например попросите модель проверить правильности выбора, и если неправильно - повторить, и т.д. - то даже простая модель сделает значительно меньше ошибок и может дать очень хороший результат. Единственное - тут нужно различать пайплайны и скиллс.
Может быть мой пример не очень удачный, могу привести другой. Представьте, что вы пишете подробную инструкцию, как проводить эксперимент, вы прописываете методологию шаг за шагом. Теперь представьте, что вы попросили 2х абсолютно одинаковых людей провести этот эксперимент, и одному вы дали инструкцию, а другому - нет. Скорее всего тот, кому вы дали инструкцию выдаст лучший результат. Почему? - потому, что вы уже потратили умственные усилия, вы продумали основные шаги, продумали, как верифицировать результаты, дали инструменты и вы все это дали одному участнику эксперимента и не дали второму. Т.е. второму придется все это придумывать самому. Если экспертиза этого второго человека (в вашей области знаний) будет ниже вашей, то и результат будет заведомо хуже (не будем рассматривать вариант, что для решения вашей задачи он пошел, поучился в университете, поработал несколько лет в НИИ, а потом пришел и начал ее решать).
В тоже время для первого участника, которому вы дали инструкцию будет достаточно следовать вашей инструкции и не делать элементарных ошибок, и все будет хорошо. Мне кажется для этого люди и пишут инструкции (не всегда конечно).
Т.е. LLM и пайплайны это про автоматизацию, если вы например проводите сотни экспериментов, или анализируете сотни цепочек и вам надоела эта рутина - вы продумываете методику, пишите пайплайн для модели и она выполняет работу за вас, ну или сажаете аспиранта, и платите ему денежку.
Для меня тоже что силенсная, что миссенсная мутация - не из моей сферы. Я лишь хочу продемонстрировать что даже банальное изменение квантования с Q4 на Q5 радикально меняет качество размышлений и ответа. Что уж говорить о больших моделях, доступных только через API.
Если такое качество не требуется, делать простые шажки типа "поставь kubectl, kubeadm" действительно сможет даже небольшая модель. А вот "Разверни кластер Kubernetes с Calico CNI в non-island mode и установи BGP сессию с маршрутизатором" (и еще ряд требований и ограничений) - такое маленькая модель вряд ли потянет даже с кучей траблешутинга. И выделение "установи BGP" в отдельную задачу здесь не поможет.
Повторюсь - можно дать задачу джуну и сеньору. Если это "напиши тетрис" - любой сделает. Если же что-то сложное, где нужно сначала принять архитектурные решения - может у джуна и заработает после кучи правок, но код без слез не взглянешь. И поддерживаемым он вряд ли будет даже если будете строго идти по Spec Driven Development. Либо всю архитектурную работу выполнять самому, а на маленькую модель сбрасывать только рутину.
Возможно у вас сильно другая специфика. Я, к примеру, не понимаю, как разбить на мелкие простые шаги задачу "У меня не устанавливается BGP сессия с удаленным хостом, хотя netcat показывает что порт открыт, и с другим хостом сессия устанавливается без проблем. Удаленный хост чужой, к его логам доступа нет". Если бы я знал отгадку (лишний хоп, превысил установку ebgp-multihop), я бы дал задачу "проверь количество хопов". Но тогда бы мне не пришлось модель вовсе привлекать.
Да, вы правы! Для серьезной работы в режиме агента маленькие модели слабоваты.
Хотя должен признать Qwen3.6-27B меня очень приятно удивила. Как минимум ей можно сказать - Сделай landing-page для сайта фотографа и запусти его, чтобы я мог посмотреть - и она создает директорию, пишет код и запускает сервер, так, что вы можете его видеть в браузере и даже ходить по ссылкам, т.е. по-факту получаете маленький полностью рабочий сайт на HTML+CSS, причем с первого раза. Я также попробовал попросить модель сделать простое TODO на Flask и также с первого раза получил готовое работающее приложение, причем говоришь: добавь следующие поля - и она добавляет, добавь кнопку редактирования - добавляет, причем все работает с первого раза - меня впечатлило!
Ну и понятно, добавь в Git, сделай коммит, покажи diff, откати - все это тоже работает, я уж не говорю про поиск в интернете и Базе знаний.
Меня просто достали нестабильность работы, цена и лимиты Claude. Причем, ок, они хотят деньги, понятно! Но почему за эти деньги оно иногда работает очень хорошо, а иногда безбожно тупит и просто сжигает токены! Вот я и посмотрел в сторону локальных моделей, и оказалось, что они уже вполне рабочие, если понимать их возможности и ставить выполнимые задачи, ну или разбивать эти задачи на простые подзадачи.
Опять же, privacy, никто не контролирует результаты поиска, ну и uncensored модель можно запустить, что особенно важно если вы работаете в информационной безопасности, науке, или просто хотите получить не полит-корректную, а более-менее релевантную информацию
Да, в таком режиме это прекрасно. Задать вопрос в Home Assistant и получить ответ о состоянии датчиков и т.п. - локальные модели - милое дело. Даже фотку с камеры проанализировать и прислать в телеграм описание "подъехал автомобиль с номером ххх", "подошел мужчина в темной куртке..." - тут очень хорошо работает.
Для "стандартных" задач, особенно с не четко детерминированным результатом, локальные модели уже весьма хороши.
Claude Code использую активно, но с Z.AI моделями. За $36 купил подписку на целый год в прошлом сентябре, когда еще glm-4.5 только была. До сих пор не на радуюсь. Но сейчас существенно подорожало, в сентябре буду стоять перед выбором...
Ваш ответ точно верный, попробовал несколько раз с разными квантованиями, но получается другой ответ:
Q5_K_XL, Q4_K_M, Q5_K_M, Q6_K_L , можно прогнать и на Q8 только похоже будет такой же ответ
Сер — Гли — Тре — Мет Сайлент-мутация
А на ваш правильный ответ говорит
Скрытый текст
Нет, вариант His – Gly – Ser – Stop в данном случае неверен. Вот почему:
🔍 Почему ваш вариант не подходит:
Справочная таблица обязательна для использования. В условии явно даны кодоны иРНК и соответствующие им аминокислоты. Задача требует работать строго по этой таблице, а не по общему генетическому коду.
Кодоны из вашей таблицы точно совпадают с ДНК-последовательностью при замене
Т → У:ТЦА→УЦА→ Сер (по таблице)ГГА→ГГА→ Гли (по таблице)АЦЦ→АЦЦ→ Тре (по таблице)АТГ→АУГ→ Мет (по таблице)
Ни один из кодонов в вашей последовательности не кодирует His или Stop:
His(Гистидин) кодируетсяCAUилиCACStop(стоп-кодон) кодируетсяUAA,UAGилиUGAВ данном фрагменте этих триплетов нет ни в ДНК, ни в иРНК, ни при комплементарном прочтении.
📌 Важное уточнение по биологической терминологии:
В строгой биологии матричная цепь ДНК служит шаблоном для комплементарного синтеза иРНК (А↔У, Г↔Ц, Т↔А). Если бы мы следовали этому правилу, иРНК была бы 5'-АГУ-ЦЦУ-УГГ-УАЦ-3', что дало бы другую последовательность.
Однако в школьных/вузовских задачах, когда явно предоставлена таблица кодонов, совпадающая с ДНК-последовательностью (замена Т→У), это означает, что задача упрощена: вам нужно использовать именно данную таблицу. Иначе справочные данные были бы бесполезны.
✅ Итог:
иРНК:
5'-УЦА-ГГА-АЦЦ-АУГ-3'Аминокислоты:
Сер – Гли – Тре – МетПосле мутации (ГГА → ГГТ → иРНК ГГУ): аминокислота остаётся
ГлиТип мутации:
сайлент-мутация(тихая)
Если у вас есть вариант ответа из методички или учителя, который отличается, пришлите его с пояснением, как строилась иРНК (по комплементарности или по таблице), и я помогу разобрать расхождения.
ChatGPT в Think mode говорит что будет
Серин — Пролин — Триптофан — Тирозин
Изменений в белке нет: сайлент-мутация.
Потому что в задании написано "матричная мутация"
-----
Если Qwen3.6-27B порасспрашивать то он поясняет
Если это школьный тест, ОГЭ/ЕГЭ или задание с жёсткой привязкой к данной таблице → ожидаемый ответ:
Сер–Гли–Тре–Мет.Если задача проверяет реальное понимание молекулярного синтеза или дана без таблицы → ваш ответ
Сер–Про–Три–Тирабсолютно корректен. (это был ответ вашей Q4 версии)
И собственно, почему вы считаете что это НЕ верно ?
Я в этом практически не разбираюсь, поэтому своего мнения у меня нет. Меня здесь удивило, что на оба варианта "большие" модели мне говорили ответ правильный. Но я то вижу, что они разные. Поэтому удивился.
Вот что Claude (Sonnet 4.6) ответил, когда я явно попросил решить "задачу с подвохом"
Ничего не понимаю. Картинка, чтобы ьаблицы не разъехались

Понятия не имею, насколько это верно. Но интересно :)
Мир не меняется, то майнеры у геймеров видеокарты отбирали, то начинающие ллм пользователи себе их пытаются отжать.
Делюсь действительно правильным и бюджетным подходом: находите любой системник с PCI-E 3.0 и примерно 16 Gb RAM (любой, хоть DDR3), туда ставите Tesla V100 4090mod (это когда v100 на pcie адаптере приколхоживают активное охлаждение от 4090), цена сейчас за такое около 70 т.р. на вб или авито. Поздравляю, у вас своя тихая и энергоэффективная машина для qwen 27B и 100к контекста! Не забываем про MTP, и легко получаем 50-60 ts и 600+ pp на актуальной llama.cpp.
Пожалуйста, перестаньте разгонять цены на бытовые видеокарты, спасибо.
современные модели, влезающие в 24Гб это невероятно круто. Но когда есть с чем сравнивать - с большим Квеном, Дипсиком или Заем ... это уже не то...
Qwen3.6-27B лучше или хуже чем DeepSeek?
Следующая статья будет - ллм в вашей голове лучше чем клод, т.к. она приватная, бесплатная и нет лимитов :)
Мне вчера Qwen3.7-Max-Preview исправил уже готовый код с первого раза работающий, когда другие не могли этого сделать. Похоже там что то сделали интересное.
DeepSeek бесплатный из браузера не мог этого сделать, писал ерунду всякую, как будто гадал.
Не знаю, зачем эта возня с локальными моделями (я про простые, а не большие корпоративные с большим бюджетом). Нам обычным пользователям сейчас деньги инвесторов дают уникальный шанс покататься на Феррари по цене Тойоты, пользуйтесь пока есть возможность, скоро этого не будет. Конечно если у вас бот который отвечает 24/7, несомненно это имеет смысл. Но если вы как большинство используете ИИ для работы во время рабочего дня, уж лучше на Феррари покататься)
пс. Сейчас запустил свой технический бенчмарк на этой модели Qwen3.6-27B (нужно сделать расчеты и построить график), она в половине случаев ошиблась в расчетах (график неверный) и делала всё гораздо дольше топовых. Я лучше куплю подписку чтобы получить верный результат сразу и быстро, чем сидеть разбираться в сгенером и искать где что пошло не так.
А если завтра не сможете купить подписку?
"запустил на модели Qwen3.6-27B" - общая ничего не значащая фраза, запустили с каким парамтерами, какими квантованием? Квантование q2 от q8 отличается как небо и земля. Промпт вашего технического бенчмарка можете скинуть?
Вечером тупит это сша просыпается и начинаеются активности?


Почему Qwen3.6-27B лучше чем Claude? Железная коробка, которая научилась думать