Всё так. Но тут залогом покупки является 10и-миллиардный штраф. Хотя, если Маску что-то не понравится, ему без разницы будет на штраф и сделка не состоится.
Плюс статье поставил, но всё же есть много спорных моментов по выбранным инструментам.
Например: лишние телодвижения с mcp для llama3.1 8b. По сути проблема в моделе, и подстраивать под неё тулсет вместо выбора другой модели, когда этот выбор есть (а он есть и на мал) - довольно странно. Можно было взять gemma 3 4b и он бы работал лучше старой ламы, по крайней мере с вызовом тулов у него проблем нет. В крайнем случае можно было использовать и бесплатные нелокальные модели с openrouter (или даже лучше с cerebras), и для этого не нужно платить ни копейки. Просто настраиваете список фоллбэк моделей на случай выхода за лимиты или недоступности моделей.
Сейчас, совсем недавно, ещё gemma 4 вышла (в вашем случае именно на e4b надо смотреть), она мультимодальная и мультиязычная, то есть можно ещё и без whisper'а обойтись и работать с ней голосом напрямую.
В общем, работу вы провели приличную, но часть её можно было сделать проще)
На счёт того, что виспер не годиться для реалтайма - можно поспорить. Смотря какая модель и как настроена работа с ней. Если видеокарта достаточно мощная, то нормой будет задержка на уровне 150-250мс.
По крайней мере его можно использовать для потока иностранных языков, а для русского взять что-то другое, если качество не устраивает. Но я не спорю, что это усложнение и оно не выглядит универсальным решением.
Раньше на этом тарифе можно было больше чем на 600$ потратить токенов, сейчас только 400 с копейками, но даже так это довольно много. Но уходят всё равно влёт, если использовать формат работы с разделением ролей агентов и их тесном взаимодействии при работе над задачами.
Есть ещё cerebras с их free лимитами. Там модели B-tier, но для вашего случая вполне достаточно. Но вообще, вот люди собрали список сервисов/провайдеров, где есть возможность юзать API LLM'ок бесплатно: https://github.com/mnfst/awesome-free-llm-apis
Может кому полезно будет для пет-проектов или личного пользования.
Это и есть благо для общества, когда это происходит постепенно. Сокращения проходят в небольших количествах и не за раз. Люди успевают переучиться, рынок успевает перераспределить ресурсы по потребностям.
Сейчас же случай совершенно иной. Слишком быстро и массово происходит эта "автоматизация". И не в конкретной стране, а по всему миру.
Помимо спецификаций в таком подходе должны быть прописаны четкие правила написания кода (хотя бы конфиг линтера и форматтера) и подходов к реализации функционала. Описаны паттерны и антипаттерны. Общая архитектура. А также необходим артефакт, содержащий пополняемый список переиспользуемых модулей.
Иначе при вашем подходе у вас будет 127 черных ящиков, внутри которых можно будет часто встретить одинаковый, но не вынесенный функционал, разный код-стайл, разные подходы к чтению, валидации и обработке входных данных и тд.
Привести к единому стилю такие ящики будет довольно сложно. Либо можно этого не делать, но тогда, когда (а не если) что-то пойдет не так, отладить взаимодействие модулей будет достаточно трудоемкой задачей.
Плюс RBAC на токены доступа, чтобы по токенам, которые выдаются AI, был доступ только на определенные самим пользователем действия.
Так у курсора же уже очень давно формат с пакетом долларов, который тратиться на любую модель по стоимости её токенов.
То есть, если подписка за 60$, то можно потратить токенов на 70$ и плюс в пять раз больше лимиты на их composer модели.
На открытках с машинами людей обычно нет. Так что тут не вижу логических дыр. А вот к качеству архитектуры на заднем фоне вопросы есть.
Делегировать отделу кадров
Всё так. Но тут залогом покупки является 10и-миллиардный штраф. Хотя, если Маску что-то не понравится, ему без разницы будет на штраф и сделка не состоится.
Да, насколько быстрое оно на маке будет - не знаю, возможности протестировать не было. Мой кейс для видюх от 6-8gb.
P.S. За статью спасибо)
Плюс статье поставил, но всё же есть много спорных моментов по выбранным инструментам.
Например: лишние телодвижения с mcp для llama3.1 8b. По сути проблема в моделе, и подстраивать под неё тулсет вместо выбора другой модели, когда этот выбор есть (а он есть и на мал) - довольно странно. Можно было взять gemma 3 4b и он бы работал лучше старой ламы, по крайней мере с вызовом тулов у него проблем нет. В крайнем случае можно было использовать и бесплатные нелокальные модели с openrouter (или даже лучше с cerebras), и для этого не нужно платить ни копейки. Просто настраиваете список фоллбэк моделей на случай выхода за лимиты или недоступности моделей.
Сейчас, совсем недавно, ещё gemma 4 вышла (в вашем случае именно на e4b надо смотреть), она мультимодальная и мультиязычная, то есть можно ещё и без whisper'а обойтись и работать с ней голосом напрямую.
В общем, работу вы провели приличную, но часть её можно было сделать проще)
На счёт того, что виспер не годиться для реалтайма - можно поспорить. Смотря какая модель и как настроена работа с ней. Если видеокарта достаточно мощная, то нормой будет задержка на уровне 150-250мс.
По крайней мере его можно использовать для потока иностранных языков, а для русского взять что-то другое, если качество не устраивает. Но я не спорю, что это усложнение и оно не выглядит универсальным решением.
Раньше на этом тарифе можно было больше чем на 600$ потратить токенов, сейчас только 400 с копейками, но даже так это довольно много. Но уходят всё равно влёт, если использовать формат работы с разделением ролей агентов и их тесном взаимодействии при работе над задачами.
Я бы даже сказал 3.7. На подписке в 200$ его можно почти круглосуточно использовать в несколько потоков. Но качество не позволяет.
Есть ещё cerebras с их free лимитами. Там модели B-tier, но для вашего случая вполне достаточно. Но вообще, вот люди собрали список сервисов/провайдеров, где есть возможность юзать API LLM'ок бесплатно: https://github.com/mnfst/awesome-free-llm-apis
Может кому полезно будет для пет-проектов или личного пользования.
Россия и правда страна возможностей. Просто это не про возможности простого народа.
Del
Вы шутите?
Там нет кода, только стопка exe файлов.
Думаю у нас разное понимание о том, что такое "следить за развитием проекта".
Конечно можно!
Для этого даже специальная платформа есть: github.
Не благодарите.
Это и есть благо для общества, когда это происходит постепенно. Сокращения проходят в небольших количествах и не за раз. Люди успевают переучиться, рынок успевает перераспределить ресурсы по потребностям.
Сейчас же случай совершенно иной. Слишком быстро и массово происходит эта "автоматизация". И не в конкретной стране, а по всему миру.
У cursor не один уровень вложенности запуска субагентов. И вроде уже недели 3 как.
Помимо спецификаций в таком подходе должны быть прописаны четкие правила написания кода (хотя бы конфиг линтера и форматтера) и подходов к реализации функционала. Описаны паттерны и антипаттерны. Общая архитектура. А также необходим артефакт, содержащий пополняемый список переиспользуемых модулей.
Иначе при вашем подходе у вас будет 127 черных ящиков, внутри которых можно будет часто встретить одинаковый, но не вынесенный функционал, разный код-стайл, разные подходы к чтению, валидации и обработке входных данных и тд.
Привести к единому стилю такие ящики будет довольно сложно. Либо можно этого не делать, но тогда, когда (а не если) что-то пойдет не так, отладить взаимодействие модулей будет достаточно трудоемкой задачей.