я имею ввиду, что инструменты которые позволяют решать например математику или использовать скрипты одинаково полезны для любой модели, хоть умной хоть не очень.
Очень простой пример: модель сгенерила файл в формате marcdown (например отчет или заметку), а мне этот файл нужен в формате html (например). Я хочу сказать модели - конвертируй в html. Что произойдет если я это скажу? - скорее всего даже умная модель начнет пыхтеть переписывая файл в html. Этот процесс может занять несколько минут (зависит от размера файла), ну и результат может быть не совсем корректный (зависит от размера файла и от модели). Но вместо этого я могу дать модели скилл: прописать в отдельном файле например так:
description: Use whenever the user asks to convert a document from one format to another (markdown to html, md to pdf, html to docx, etc.). Always use pandoc, never rewrite. Example:pandoc [source] -o [output]
после этого каждый раз, когда я буду просить модель преобразовать файл в нужный формат модель будет мгновенно запускать pandoc соответственно преобразование будет произведено мгновенно и без ошибок.
Написать и добавить любой скилл сейчас просто, если возникают вопросы - всегда можно спросить модель или ChatGPT. Можно использовать питон, регулярки, html - шаблоны документов, да все что душе угодно и всегда получать предсказуемый результат.
Не знаю, зачем эта возня с локальными моделями (я про простые, а не большие корпоративные с большим бюджетом). Нам обычным пользователям сейчас деньги инвесторов дают уникальный шанс покататься на Феррари по цене Тойоты, пользуйтесь пока есть возможность, скоро этого не будет. Конечно если у вас бот который отвечает 24/7, несомненно это имеет смысл. Но если вы как большинство используете ИИ для работы во время рабочего дня, уж лучше на Феррари покататься)
ну например я очень люблю использовать локальные модели для проведения исследований в интернете.
Т.е. когда ищешь какую-либо информацию в интернете можно конечно открыть пару сотен сайтов вручную, прочитать все страницы, проанализировать, обобщить и написать ресеч вручную - но это займет пару недель, если только этим заниматься.
Если использовать для этого топовую модель Google, Anthropic, или OpenAI - она: 1. очень быстро съест лимиты, и предложит подождать с другими задачами 2. неизвестно как она ищет, что она на самом деле находит, и какую информацию она не включает в отчет по причине, того, что пользователю знать неположено (все облачные модели censored)
Если же использовать локальную модель - я могу настраивать поиск как мне удобно, сохранять источники локально (если захочу), задавать дополнительные задачи и аспекты, которые модель должна выполнить и проанализировать. Ну и запустил ее - она пашет, а сам пошел работать, вечером пришел - почитал, что интересного она накопала.
пс. Сейчас запустил свой технический бенчмарк на этой модели Qwen3.6-27B (нужно сделать расчеты и построить график), она в половине случаев ошиблась в расчетах (график неверный) и делала всё гораздо дольше топовых. Я лучше куплю подписку чтобы получить верный результат сразу и быстро, чем сидеть разбираться в сгенером и искать где что пошло не так.
попробуйте дать модели инструменты, например возможность использовать Python. Посмотрите в сторону Open-Terminal. Там есть пакеты для анализа данных и вы можете прописать какие и в каких случаях модель должна использовать. Попробуйте написать Skills - как и какие инструменты использовать когда вы просите построить график или проанализировать csv файл. Топовые модели вовсю используют инструменты.
не сравнивал, в целом облачные провайдеры представляют более современные модели, локальные модели отстают примерно на год-полтора. Это значит они сегодня работают на уровне топовых моделей 2025 года. Что для локальной модели, которую можно запустить дома довольно неплохо. Плюсы и минусы я попытался изложить в статье.
У вас всегда есть наготове сумма для покупки сломавшейся карты, а лучше сама карта в ЗИП?Вы учитываете амортизацию карты в своих прогнозах стомости владения или просто скрестили пальцы?
Если для бизнеса - то конечно да - лежит на складе (хотя конечно не 100% бэкап)
Если для меня лично - я не покупал карту для запуска LLM, она у меня была для других задач (SolidWorks, графика и проч). Но если погорит - пойду и куплю новую, т.к. нужна для работы.
Касательно моего домашнего сетапа - пока я просто поставил две виртуалки (QEMU/KVM) одну для графики и дизайна, вторую для экспериментов с LLM и прокинул туда имеющуюся 4090. Работает хорошо, бэкапится замечательно, разворачивается на новом железе ну примерно за час. Покупать новое железо пока не собираюсь.
Да, вы правы! Для серьезной работы в режиме агента маленькие модели слабоваты.
Хотя должен признать Qwen3.6-27B меня очень приятно удивила. Как минимум ей можно сказать - Сделай landing-page для сайта фотографа и запусти его, чтобы я мог посмотреть - и она создает директорию, пишет код и запускает сервер, так, что вы можете его видеть в браузере и даже ходить по ссылкам, т.е. по-факту получаете маленький полностью рабочий сайт на HTML+CSS, причем с первого раза. Я также попробовал попросить модель сделать простое TODO на Flask и также с первого раза получил готовое работающее приложение, причем говоришь: добавь следующие поля - и она добавляет, добавь кнопку редактирования - добавляет, причем все работает с первого раза - меня впечатлило! Ну и понятно, добавь в Git, сделай коммит, покажи diff, откати - все это тоже работает, я уж не говорю про поиск в интернете и Базе знаний.
Меня просто достали нестабильность работы, цена и лимиты Claude. Причем, ок, они хотят деньги, понятно! Но почему за эти деньги оно иногда работает очень хорошо, а иногда безбожно тупит и просто сжигает токены! Вот я и посмотрел в сторону локальных моделей, и оказалось, что они уже вполне рабочие, если понимать их возможности и ставить выполнимые задачи, ну или разбивать эти задачи на простые подзадачи.
Опять же, privacy, никто не контролирует результаты поиска, ну и uncensored модель можно запустить, что особенно важно если вы работаете в информационной безопасности, науке, или просто хотите получить не полит-корректную, а более-менее релевантную информацию
я, к сожалению совершенно не разбираюсь в биологии, аминокислотах и ДНК, поэтому для меня довольно сложно разбить вашу задачу на шаги, которые дают корректные результаты.
Одно из основных преимуществ пайплайна (с моей точки зрения) состоит в том, что вы разбиваете сложную задачу на набор простых шагов. Т.е. если вы скормите сложный вопрос целиком - то даже самая умная модель может накосячить (и практически наверняка накосячит), однако если вы разобьете сложную задачу на последовательность простых действий, да еще и дадите модели инструменты (например регулярные выражения для проверки правильности записи цепочек, например справочник, не знаю, справочник аминокислот например, или описание каких-либо закономерностей, позволяющий сделать выбор определенного варианта), а на следующем шаге например попросите модель проверить правильности выбора, и если неправильно - повторить, и т.д. - то даже простая модель сделает значительно меньше ошибок и может дать очень хороший результат. Единственное - тут нужно различать пайплайны и скиллс.
Может быть мой пример не очень удачный, могу привести другой. Представьте, что вы пишете подробную инструкцию, как проводить эксперимент, вы прописываете методологию шаг за шагом. Теперь представьте, что вы попросили 2х абсолютно одинаковых людей провести этот эксперимент, и одному вы дали инструкцию, а другому - нет. Скорее всего тот, кому вы дали инструкцию выдаст лучший результат. Почему? - потому, что вы уже потратили умственные усилия, вы продумали основные шаги, продумали, как верифицировать результаты, дали инструменты и вы все это дали одному участнику эксперимента и не дали второму. Т.е. второму придется все это придумывать самому. Если экспертиза этого второго человека (в вашей области знаний) будет ниже вашей, то и результат будет заведомо хуже (не будем рассматривать вариант, что для решения вашей задачи он пошел, поучился в университете, поработал несколько лет в НИИ, а потом пришел и начал ее решать). В тоже время для первого участника, которому вы дали инструкцию будет достаточно следовать вашей инструкции и не делать элементарных ошибок, и все будет хорошо. Мне кажется для этого люди и пишут инструкции (не всегда конечно).
Т.е. LLM и пайплайны это про автоматизацию, если вы например проводите сотни экспериментов, или анализируете сотни цепочек и вам надоела эта рутина - вы продумываете методику, пишите пайплайн для модели и она выполняет работу за вас, ну или сажаете аспиранта, и платите ему денежку.
О да! 32K это просто пример. На самом деле зависит от того как настроить. Зависит от vRAM. Если например поставить:
--cache-type-k q8_0 --cache-type-v q8_0
ну и добавить например:
–-parallel 1 –-flash-attn on
То в 24GB можно и 120K впихнуть. Но если говорить про пайплайны, то вы на каждый шаг можете выставить то окно, которое вам нравится и ограничение размера становится менее чувствительным.
Согласен, цены не гуманные. Но с другой стороны, пару лет назад модели, которые были на что-то способны, были значительно больше и одной 4090 было мало. А сейчас на ней уже можно запустить что-то более-менее нормальное. Посмотрим, может еще через два года модели станут совсем маленькими :)
я имею ввиду, что инструменты которые позволяют решать например математику или использовать скрипты одинаково полезны для любой модели, хоть умной хоть не очень.
Очень простой пример: модель сгенерила файл в формате marcdown (например отчет или заметку), а мне этот файл нужен в формате html (например). Я хочу сказать модели - конвертируй в html. Что произойдет если я это скажу? - скорее всего даже умная модель начнет пыхтеть переписывая файл в html. Этот процесс может занять несколько минут (зависит от размера файла), ну и результат может быть не совсем корректный (зависит от размера файла и от модели). Но вместо этого я могу дать модели скилл: прописать в отдельном файле например так:
description: Use whenever the user asks to convert a document from one format to another (markdown to html, md to pdf, html to docx, etc.). Always use pandoc, never rewrite.Example:
pandoc [source] -o [output]после этого каждый раз, когда я буду просить модель преобразовать файл в нужный формат модель будет мгновенно запускать pandoc соответственно преобразование будет произведено мгновенно и без ошибок.
Написать и добавить любой скилл сейчас просто, если возникают вопросы - всегда можно спросить модель или ChatGPT. Можно использовать питон, регулярки, html - шаблоны документов, да все что душе угодно и всегда получать предсказуемый результат.
ну например я очень люблю использовать локальные модели для проведения исследований в интернете.
Т.е. когда ищешь какую-либо информацию в интернете можно конечно открыть пару сотен сайтов вручную, прочитать все страницы, проанализировать, обобщить и написать ресеч вручную - но это займет пару недель, если только этим заниматься.
Если использовать для этого топовую модель Google, Anthropic, или OpenAI - она:
1. очень быстро съест лимиты, и предложит подождать с другими задачами
2. неизвестно как она ищет, что она на самом деле находит, и какую информацию она не включает в отчет по причине, того, что пользователю знать неположено (все облачные модели censored)
Если же использовать локальную модель - я могу настраивать поиск как мне удобно, сохранять источники локально (если захочу), задавать дополнительные задачи и аспекты, которые модель должна выполнить и проанализировать. Ну и запустил ее - она пашет, а сам пошел работать, вечером пришел - почитал, что интересного она накопала.
попробуйте дать модели инструменты, например возможность использовать Python. Посмотрите в сторону Open-Terminal. Там есть пакеты для анализа данных и вы можете прописать какие и в каких случаях модель должна использовать. Попробуйте написать Skills - как и какие инструменты использовать когда вы просите построить график или проанализировать csv файл. Топовые модели вовсю используют инструменты.
не сравнивал, в целом облачные провайдеры представляют более современные модели, локальные модели отстают примерно на год-полтора. Это значит они сегодня работают на уровне топовых моделей 2025 года. Что для локальной модели, которую можно запустить дома довольно неплохо. Плюсы и минусы я попытался изложить в статье.
Если для бизнеса - то конечно да - лежит на складе (хотя конечно не 100% бэкап)
Если для меня лично - я не покупал карту для запуска LLM, она у меня была для других задач (SolidWorks, графика и проч). Но если погорит - пойду и куплю новую, т.к. нужна для работы.
Касательно моего домашнего сетапа - пока я просто поставил две виртуалки (QEMU/KVM) одну для графики и дизайна, вторую для экспериментов с LLM и прокинул туда имеющуюся 4090. Работает хорошо, бэкапится замечательно, разворачивается на новом железе ну примерно за час. Покупать новое железо пока не собираюсь.
Неее - это же очевидно. Никто читать не будет! :)
наверное да, ... но у меня большие Квен и Дипсик локально не запускаются - сравнивать не с чем - радуюсь прогрессу! :)
Вы имеете ввиду deepseek-r1 или что-то другое?
Не знал! Классная идея! Но насколько я понимаю, такой франкенштейн SolidWorks не потянет, в отличии от NVIDIA
Да, вы правы! Для серьезной работы в режиме агента маленькие модели слабоваты.
Хотя должен признать Qwen3.6-27B меня очень приятно удивила. Как минимум ей можно сказать - Сделай landing-page для сайта фотографа и запусти его, чтобы я мог посмотреть - и она создает директорию, пишет код и запускает сервер, так, что вы можете его видеть в браузере и даже ходить по ссылкам, т.е. по-факту получаете маленький полностью рабочий сайт на HTML+CSS, причем с первого раза. Я также попробовал попросить модель сделать простое TODO на Flask и также с первого раза получил готовое работающее приложение, причем говоришь: добавь следующие поля - и она добавляет, добавь кнопку редактирования - добавляет, причем все работает с первого раза - меня впечатлило!
Ну и понятно, добавь в Git, сделай коммит, покажи diff, откати - все это тоже работает, я уж не говорю про поиск в интернете и Базе знаний.
Меня просто достали нестабильность работы, цена и лимиты Claude. Причем, ок, они хотят деньги, понятно! Но почему за эти деньги оно иногда работает очень хорошо, а иногда безбожно тупит и просто сжигает токены! Вот я и посмотрел в сторону локальных моделей, и оказалось, что они уже вполне рабочие, если понимать их возможности и ставить выполнимые задачи, ну или разбивать эти задачи на простые подзадачи.
Опять же, privacy, никто не контролирует результаты поиска, ну и uncensored модель можно запустить, что особенно важно если вы работаете в информационной безопасности, науке, или просто хотите получить не полит-корректную, а более-менее релевантную информацию
я, к сожалению совершенно не разбираюсь в биологии, аминокислотах и ДНК, поэтому для меня довольно сложно разбить вашу задачу на шаги, которые дают корректные результаты.
Одно из основных преимуществ пайплайна (с моей точки зрения) состоит в том, что вы разбиваете сложную задачу на набор простых шагов. Т.е. если вы скормите сложный вопрос целиком - то даже самая умная модель может накосячить (и практически наверняка накосячит), однако если вы разобьете сложную задачу на последовательность простых действий, да еще и дадите модели инструменты (например регулярные выражения для проверки правильности записи цепочек, например справочник, не знаю, справочник аминокислот например, или описание каких-либо закономерностей, позволяющий сделать выбор определенного варианта), а на следующем шаге например попросите модель проверить правильности выбора, и если неправильно - повторить, и т.д. - то даже простая модель сделает значительно меньше ошибок и может дать очень хороший результат. Единственное - тут нужно различать пайплайны и скиллс.
Может быть мой пример не очень удачный, могу привести другой. Представьте, что вы пишете подробную инструкцию, как проводить эксперимент, вы прописываете методологию шаг за шагом. Теперь представьте, что вы попросили 2х абсолютно одинаковых людей провести этот эксперимент, и одному вы дали инструкцию, а другому - нет. Скорее всего тот, кому вы дали инструкцию выдаст лучший результат. Почему? - потому, что вы уже потратили умственные усилия, вы продумали основные шаги, продумали, как верифицировать результаты, дали инструменты и вы все это дали одному участнику эксперимента и не дали второму. Т.е. второму придется все это придумывать самому. Если экспертиза этого второго человека (в вашей области знаний) будет ниже вашей, то и результат будет заведомо хуже (не будем рассматривать вариант, что для решения вашей задачи он пошел, поучился в университете, поработал несколько лет в НИИ, а потом пришел и начал ее решать).
В тоже время для первого участника, которому вы дали инструкцию будет достаточно следовать вашей инструкции и не делать элементарных ошибок, и все будет хорошо. Мне кажется для этого люди и пишут инструкции (не всегда конечно).
Т.е. LLM и пайплайны это про автоматизацию, если вы например проводите сотни экспериментов, или анализируете сотни цепочек и вам надоела эта рутина - вы продумываете методику, пишите пайплайн для модели и она выполняет работу за вас, ну или сажаете аспиранта, и платите ему денежку.
О да! 32K это просто пример. На самом деле зависит от того как настроить. Зависит от vRAM. Если например поставить:
--cache-type-k q8_0--cache-type-v q8_0ну и добавить например:
–-parallel 1
–-flash-attn on
То в 24GB можно и 120K впихнуть. Но если говорить про пайплайны, то вы на каждый шаг можете выставить то окно, которое вам нравится и ограничение размера становится менее чувствительным.
Согласен, цены не гуманные. Но с другой стороны, пару лет назад модели, которые были на что-то способны, были значительно больше и одной 4090 было мало. А сейчас на ней уже можно запустить что-то более-менее нормальное.
Посмотрим, может еще через два года модели станут совсем маленькими :)