Плюс статье поставил, но всё же есть много спорных моментов по выбранным инструментам.
Например: лишние телодвижения с mcp для llama3.1 8b. По сути проблема в моделе, и подстраивать под неё тулсет вместо выбора другой модели, когда этот выбор есть (а он есть и на мал) - довольно странно. Можно было взять gemma 3 4b и он бы работал лучше старой ламы, по крайней мере с вызовом тулов у него проблем нет. В крайнем случае можно было использовать и бесплатные нелокальные модели с openrouter (или даже лучше с cerebras), и для этого не нужно платить ни копейки. Просто настраиваете список фоллбэк моделей на случай выхода за лимиты или недоступности моделей.
Сейчас, совсем недавно, ещё gemma 4 вышла (в вашем случае именно на e4b надо смотреть), она мультимодальная и мультиязычная, то есть можно ещё и без whisper'а обойтись и работать с ней голосом напрямую.
В общем, работу вы провели приличную, но часть её можно было сделать проще)
На счёт того, что виспер не годиться для реалтайма - можно поспорить. Смотря какая модель и как настроена работа с ней. Если видеокарта достаточно мощная, то нормой будет задержка на уровне 150-250мс.
По крайней мере его можно использовать для потока иностранных языков, а для русского взять что-то другое, если качество не устраивает. Но я не спорю, что это усложнение и оно не выглядит универсальным решением.
Раньше на этом тарифе можно было больше чем на 600$ потратить токенов, сейчас только 400 с копейками, но даже так это довольно много. Но уходят всё равно влёт, если использовать формат работы с разделением ролей агентов и их тесном взаимодействии при работе над задачами.
Есть ещё cerebras с их free лимитами. Там модели B-tier, но для вашего случая вполне достаточно. Но вообще, вот люди собрали список сервисов/провайдеров, где есть возможность юзать API LLM'ок бесплатно: https://github.com/mnfst/awesome-free-llm-apis
Может кому полезно будет для пет-проектов или личного пользования.
Это и есть благо для общества, когда это происходит постепенно. Сокращения проходят в небольших количествах и не за раз. Люди успевают переучиться, рынок успевает перераспределить ресурсы по потребностям.
Сейчас же случай совершенно иной. Слишком быстро и массово происходит эта "автоматизация". И не в конкретной стране, а по всему миру.
Помимо спецификаций в таком подходе должны быть прописаны четкие правила написания кода (хотя бы конфиг линтера и форматтера) и подходов к реализации функционала. Описаны паттерны и антипаттерны. Общая архитектура. А также необходим артефакт, содержащий пополняемый список переиспользуемых модулей.
Иначе при вашем подходе у вас будет 127 черных ящиков, внутри которых можно будет часто встретить одинаковый, но не вынесенный функционал, разный код-стайл, разные подходы к чтению, валидации и обработке входных данных и тд.
Привести к единому стилю такие ящики будет довольно сложно. Либо можно этого не делать, но тогда, когда (а не если) что-то пойдет не так, отладить взаимодействие модулей будет достаточно трудоемкой задачей.
Gemini позиционирует свои модели как модели с большим контекстом, но в агентском режиме он размывается просто влёт. Забито только 60-80к контекста, а модель уже перестаёт помнить, что именно попросили, делает то, что не просили, меняет то, что её не касается, подгоняет размышления под результат и список можно продолжать.
Но! На мелких задачах, оторванных от сложной бизнес-логики она (3 - 3.1 pro) зачастую показывает себя лучше, чем даже opus 4.5 и gpt-5.3-codex. И это "лучше" чаще всего касается оптимизации кода и код-стайла проекта.
Для грубого примера, в чем бывает лучше: в ts файле прошу добавить логику сопоставления прав и доступных ресурсов. И opus с codex начинают писать мне if'ы и switch'и в немалых масштабах и почти всё в одной функции. Gemini же делает нормальный типизированный маппинг, затем везде, где это возможно обращается к элементам по ключу, использует set'ы, выделяет относительно сложную логику в отдельные функции, использует каррирование. Да, частично я сам виноват, что не добавил правила написания хорошего кода и правила работы с проектом в их контекст или где-то в проекте, где бы модели могли их взять. Но, согласитесь, они все должны по умолчанию писать таким образом и делать иначе только если есть запрос на говнокод.
Что касается последних opus и sonnet - ну это любимые модели: держат контекст, помнят что ты хотел изначально и сверяются с этим в процессе реализации фич. Хорошо проектируют среднеуровневую архитектуру и дают неплохие советы по общей архитектуре сервиса и межсервисных взаимодействий. Замечают проблемы чаще всего заранее. Могут сказать (в отличие от всех остальных), что твои запросы в начале и в середине конфликтуют между собой и надо что-то решать. Когда хорошо их настаиваешь и даёшь им субагентов на gemini 3.1 pro для реализации минимальных независимых частей, а их самих просишь писать все места межмодульных и межкомпонентных взаимодействий, то эта связка уже куда больше походит на по-настоящему рабочий инструмент.
Ну и codex - факт-чекинг действительно их сильная сторона, старается делать его без подсказок, но зачастую делает лишнее, хуже себя чувствует в архитектуре и проектировании, а потом в процессе реализации может что-то добавить, так как ему вот прям сейчас будет легче так сделать. Контекст держит относительно неплохо, но на сложных задачах начинает противоречить самому себе (его же план и его реализация у него зачастую не совпадают). Зато спеки реализует хорошо и быстро - не задумывается, как opus, ища архитектурные несостыковки, а просто делает, даже если в общем это противоречащие друг другу куски.
Есть несколько довольно хороших, не считая всякий нерабочий в агентском режиме мусор. А также есть агрегирующий "openrouter/free" (который по большому счёту справляется со своей ролью заглушки, когда есть проблемы с остальными моделями).
По тому, что нормально, а что нет в использовании моделей у всех разные представления. Кому-то важна задержка и скорость, а в каком-нибудь сервисе генерации текстов в фоновом режиме вообще без разницы, лишь бы тулы вызывались и качество было подходящее.
Плюс минус всё так, если без нюансов. Только тот же gpt-5.3 сейчас также хорош в агентском режиме, как и opus-4.6. Да и qwen3 с gemini 3 pro хоть и отстают, но с правильным контекстом и промптомагенты на них тоже уже вполне хороши, особенно в простых/средних по сложности повседневных задачах.
Так ведь скилл вполне позволяет добавить конкретную директиву на создание базы данных при первом запросе к скиллу. Если честно, не вижу тут принципиальных ограничений. Наоборот не будет никаких внешних надстроек к боту, которые нужно отдельно руками разворачивать.
Да, насколько быстрое оно на маке будет - не знаю, возможности протестировать не было. Мой кейс для видюх от 6-8gb.
P.S. За статью спасибо)
Плюс статье поставил, но всё же есть много спорных моментов по выбранным инструментам.
Например: лишние телодвижения с mcp для llama3.1 8b. По сути проблема в моделе, и подстраивать под неё тулсет вместо выбора другой модели, когда этот выбор есть (а он есть и на мал) - довольно странно. Можно было взять gemma 3 4b и он бы работал лучше старой ламы, по крайней мере с вызовом тулов у него проблем нет. В крайнем случае можно было использовать и бесплатные нелокальные модели с openrouter (или даже лучше с cerebras), и для этого не нужно платить ни копейки. Просто настраиваете список фоллбэк моделей на случай выхода за лимиты или недоступности моделей.
Сейчас, совсем недавно, ещё gemma 4 вышла (в вашем случае именно на e4b надо смотреть), она мультимодальная и мультиязычная, то есть можно ещё и без whisper'а обойтись и работать с ней голосом напрямую.
В общем, работу вы провели приличную, но часть её можно было сделать проще)
На счёт того, что виспер не годиться для реалтайма - можно поспорить. Смотря какая модель и как настроена работа с ней. Если видеокарта достаточно мощная, то нормой будет задержка на уровне 150-250мс.
По крайней мере его можно использовать для потока иностранных языков, а для русского взять что-то другое, если качество не устраивает. Но я не спорю, что это усложнение и оно не выглядит универсальным решением.
Раньше на этом тарифе можно было больше чем на 600$ потратить токенов, сейчас только 400 с копейками, но даже так это довольно много. Но уходят всё равно влёт, если использовать формат работы с разделением ролей агентов и их тесном взаимодействии при работе над задачами.
Я бы даже сказал 3.7. На подписке в 200$ его можно почти круглосуточно использовать в несколько потоков. Но качество не позволяет.
Есть ещё cerebras с их free лимитами. Там модели B-tier, но для вашего случая вполне достаточно. Но вообще, вот люди собрали список сервисов/провайдеров, где есть возможность юзать API LLM'ок бесплатно: https://github.com/mnfst/awesome-free-llm-apis
Может кому полезно будет для пет-проектов или личного пользования.
Россия и правда страна возможностей. Просто это не про возможности простого народа.
Del
Вы шутите?
Там нет кода, только стопка exe файлов.
Думаю у нас разное понимание о том, что такое "следить за развитием проекта".
Конечно можно!
Для этого даже специальная платформа есть: github.
Не благодарите.
Это и есть благо для общества, когда это происходит постепенно. Сокращения проходят в небольших количествах и не за раз. Люди успевают переучиться, рынок успевает перераспределить ресурсы по потребностям.
Сейчас же случай совершенно иной. Слишком быстро и массово происходит эта "автоматизация". И не в конкретной стране, а по всему миру.
У cursor не один уровень вложенности запуска субагентов. И вроде уже недели 3 как.
Помимо спецификаций в таком подходе должны быть прописаны четкие правила написания кода (хотя бы конфиг линтера и форматтера) и подходов к реализации функционала. Описаны паттерны и антипаттерны. Общая архитектура. А также необходим артефакт, содержащий пополняемый список переиспользуемых модулей.
Иначе при вашем подходе у вас будет 127 черных ящиков, внутри которых можно будет часто встретить одинаковый, но не вынесенный функционал, разный код-стайл, разные подходы к чтению, валидации и обработке входных данных и тд.
Привести к единому стилю такие ящики будет довольно сложно. Либо можно этого не делать, но тогда, когда (а не если) что-то пойдет не так, отладить взаимодействие модулей будет достаточно трудоемкой задачей.
Тогда тоже поделюсь, со стороны разработчика:
Gemini позиционирует свои модели как модели с большим контекстом, но в агентском режиме он размывается просто влёт. Забито только 60-80к контекста, а модель уже перестаёт помнить, что именно попросили, делает то, что не просили, меняет то, что её не касается, подгоняет размышления под результат и список можно продолжать.
Но! На мелких задачах, оторванных от сложной бизнес-логики она (3 - 3.1 pro) зачастую показывает себя лучше, чем даже opus 4.5 и gpt-5.3-codex. И это "лучше" чаще всего касается оптимизации кода и код-стайла проекта.
Для грубого примера, в чем бывает лучше: в ts файле прошу добавить логику сопоставления прав и доступных ресурсов. И opus с codex начинают писать мне if'ы и switch'и в немалых масштабах и почти всё в одной функции. Gemini же делает нормальный типизированный маппинг, затем везде, где это возможно обращается к элементам по ключу, использует set'ы, выделяет относительно сложную логику в отдельные функции, использует каррирование. Да, частично я сам виноват, что не добавил правила написания хорошего кода и правила работы с проектом в их контекст или где-то в проекте, где бы модели могли их взять. Но, согласитесь, они все должны по умолчанию писать таким образом и делать иначе только если есть запрос на говнокод.
Что касается последних opus и sonnet - ну это любимые модели: держат контекст, помнят что ты хотел изначально и сверяются с этим в процессе реализации фич. Хорошо проектируют среднеуровневую архитектуру и дают неплохие советы по общей архитектуре сервиса и межсервисных взаимодействий. Замечают проблемы чаще всего заранее. Могут сказать (в отличие от всех остальных), что твои запросы в начале и в середине конфликтуют между собой и надо что-то решать. Когда хорошо их настаиваешь и даёшь им субагентов на gemini 3.1 pro для реализации минимальных независимых частей, а их самих просишь писать все места межмодульных и межкомпонентных взаимодействий, то эта связка уже куда больше походит на по-настоящему рабочий инструмент.
Ну и codex - факт-чекинг действительно их сильная сторона, старается делать его без подсказок, но зачастую делает лишнее, хуже себя чувствует в архитектуре и проектировании, а потом в процессе реализации может что-то добавить, так как ему вот прям сейчас будет легче так сделать. Контекст держит относительно неплохо, но на сложных задачах начинает противоречить самому себе (его же план и его реализация у него зачастую не совпадают). Зато спеки реализует хорошо и быстро - не задумывается, как opus, ища архитектурные несостыковки, а просто делает, даже если в общем это противоречащие друг другу куски.
То есть вы решили эту проблему вставкой между моделью и поиском ещё одной модели и считаете, что ваш подход лучше, чем описанный в статье?
Если так, то вы истинный вайб-кодер.
Есть несколько довольно хороших, не считая всякий нерабочий в агентском режиме мусор. А также есть агрегирующий "openrouter/free" (который по большому счёту справляется со своей ролью заглушки, когда есть проблемы с остальными моделями).
По тому, что нормально, а что нет в использовании моделей у всех разные представления. Кому-то важна задержка и скорость, а в каком-нибудь сервисе генерации текстов в фоновом режиме вообще без разницы, лишь бы тулы вызывались и качество было подходящее.
Наличие бесплатных моделей в табличку добавте
Плюс минус всё так, если без нюансов. Только тот же gpt-5.3 сейчас также хорош в агентском режиме, как и opus-4.6. Да и qwen3 с gemini 3 pro хоть и отстают, но с правильным контекстом и промптомагенты на них тоже уже вполне хороши, особенно в простых/средних по сложности повседневных задачах.
Так ведь скилл вполне позволяет добавить конкретную директиву на создание базы данных при первом запросе к скиллу. Если честно, не вижу тут принципиальных ограничений. Наоборот не будет никаких внешних надстроек к боту, которые нужно отдельно руками разворачивать.
Или я что-то не так понял? Я могу и ошибаться)