Обзор Harness или агентов для программирования с LLM.
Я пользовался CLine, но потом перешёл на модный RooCode. Недавно RooCode написали, что они закрываются, чтобы развивать Roomote.
Народ пишет: все переходим теперь на KiloCode, но им отвечают что KiloCode - это просто обёртка над OpenCode.
Одна из самых популярных открытых моделей - это Qwen 3.6, а у них есть своей агент - QwenCode.
Свои агенты есть и у Google (AntiGravity), OpenAI (Codex), но только про ClaudeCode я вижу, что народ подсовывает туда свои модели их агенту (чтобы не платить за дорогие модели Claude).
Вот я как раз хотел научиться работать с браузером, чтобы управлять с помощью AI.
В этой статье вроде бы как раз об этом и говорится. Но нет ничего про модель: какая модель управляет этими инструментами? Где она выбирается? Где UI для этого чтобы прописывать задачи?
Вот бы какой-нибудь более полный туториал для этого дела увидеть.
Кстати, для GB/s буквы - заглавные. Это означает - гигабайты.
Если буквы не заглавные - gb/s - это означает гигабиты. То есть в 8 раз меньше.
А ещё GPU отличается от мака тем, что у мака слабая производительность графического процессора по сравнению с GPU. На генерацию токенов это не влияет, в вот промпты обрабатываются раз в 5-10 медленнее.
В общем - доволен, работает шустро, русский язык поддерживается.
Ещё вопрос или предложение: было бы хорошо сделать обзор инструментов, которые в потоковом режиме могли бы переводить звук на другой язык. Есть вот такие проекты для этого:
Футер, который постоянно уезжает из-за того, что всё время подгружаются дополнительные ряды в таблицу - это чтобы специально раздражать посетителей сайта?
В их веб-клиенте написал prompt (я даже не очень-то и просил график):
describe job market for Software Engineer for last 20 years. I mostly want to see which years were market for the employee and which - for the employer
Скорость объединённой памяти на Маках: 200-400 GBps, только на Ultra может достигать 800 GBps.
NVIDIA: от 1 TBps на старой RTX 3090 до 1.8 TBps на RTX 6000. А у моделей для дата-центров - десятки TBps.
Но самая большая проблема у Маков - они тормозные в обработке промптов, потому что у них не хватает мощности GPU/neural процессора для этого. Может у M5 с этим и станет получше, но пока - для программирования вообще не вариант, для каждого запроса надо ждать минуты пока промпт "переварится".
Стало очевидно, что для работы AI нужен капитал на постройку дата-центров, стройку или подключение новых электростанций, покупку GPU,... Nvidia не даст соврать - посмотрите сколько денег идёт им. Возможности наращивать капитал - не безграничны, и один из вариантов - сократить людей, а освободившийся cashflow направить на долгосрочные инвестиции в дата-центры.
То есть получается, что работу теряют из-за AI, но есть ньюанс...
Раньше $$ получали программисты, теперь $$ получают Nvidia и электрики.
Так что сказать то хотели?
Направление интересное, предлагаю тему:
Обзор Harness или агентов для программирования с LLM.
Я пользовался CLine, но потом перешёл на модный RooCode. Недавно RooCode написали, что они закрываются, чтобы развивать Roomote.
Народ пишет: все переходим теперь на KiloCode, но им отвечают что KiloCode - это просто обёртка над OpenCode.
Одна из самых популярных открытых моделей - это Qwen 3.6, а у них есть своей агент - QwenCode.
Свои агенты есть и у Google (AntiGravity), OpenAI (Codex), но только про ClaudeCode я вижу, что народ подсовывает туда свои модели их агенту (чтобы не платить за дорогие модели Claude).
Ещё есть https://openhands.dev/ - довольно интересный проект.
В общем, было бы интересно ориентироваться в этом зоопарке.
Вот я как раз хотел научиться работать с браузером, чтобы управлять с помощью AI.
В этой статье вроде бы как раз об этом и говорится. Но нет ничего про модель: какая модель управляет этими инструментами? Где она выбирается? Где UI для этого чтобы прописывать задачи?
Вот бы какой-нибудь более полный туториал для этого дела увидеть.
Вчера пофиксили:
https://github.com/ggml-org/llama.cpp/pull/22480 webui: fix slow mic stop and WAV encode
Это смотря у какие маков.
Pro - 307 GB/s
Max - 460 GB/s
Ultra - 820 GB/s
Кстати, для GB/s буквы - заглавные. Это означает - гигабайты.
Если буквы не заглавные - gb/s - это означает гигабиты. То есть в 8 раз меньше.
А ещё GPU отличается от мака тем, что у мака слабая производительность графического процессора по сравнению с GPU. На генерацию токенов это не влияет, в вот промпты обрабатываются раз в 5-10 медленнее.
Спасибо, полезный обзор.
Я на своём MacBook Pro M1 использую похожий инструмент, тоже открытый:
https://github.com/EpicenterHQ/epicenter/tree/main/apps/whispering
В общем - доволен, работает шустро, русский язык поддерживается.
Ещё вопрос или предложение: было бы хорошо сделать обзор инструментов, которые в потоковом режиме могли бы переводить звук на другой язык. Есть вот такие проекты для этого:
https://github.com/QuentinFuxa/WhisperLiveKit
https://github.com/homelab-00/TranscriptionSuite
Было бы интересно почитать обзор таких инструментов.
Например вот так:
Футер, который постоянно уезжает из-за того, что всё время подгружаются дополнительные ряды в таблицу - это чтобы специально раздражать посетителей сайта?
Да, есть такая проблема. Отправил им bug report:
https://github.com/ggml-org/llama.cpp/issues/21900 Misc. bug: WebUI audio record button doesn't work
Попробовал запустить у себя на Ubuntu 24 + RTX 4090
Оказывается надо вот так:
Сервер запускается на 127.0.0.1, то есть - недоступен с других устроств. Значит нужно скопировать свой .env и прописать там 0.0.0.0
Запустил. По умолчанию генерация идёт в mp3. Но на Ubuntu mp3 у этой системы не работает. Только WAV: https://github.com/ace-step/ACE-Step-1.5/issues/1018
Сгенерировал WAV файл, но в UI он почему-то недоступен. ок, я открыл его прямо с диска в плеере.
Послушал - музыка неплохо. Процентов 20 слов - неправильное ударение.
В общем - оно как-то работает, но довольно сыро...
Подожду пока допилят этот UI, или добавят модель в какой-нибудь другой UI типа этого: https://github.com/fspecii/ace-step-ui
Можно поставить себе вот такой плагин для OpenWeb UI - он умеет рисовать диаграммы.
https://github.com/Classic298/open-webui-plugins/tree/main/inline-visualizer
Иногда нормально. Иногда слабенько.
Вот для такого же запроса получилось так себе:
У меня платный аккаунт Pro ($20 / month).
В их веб-клиенте написал prompt (я даже не очень-то и просил график):
И Opus решил что надо рисовать график:
Интересная идея.
Я попросил Opus сделать такой же график для USA за последние 20 лет:
В комментариях ещё написано, что в общем сейчас нанимают не особо сильно, но вот для AI / ML сейчас "рынок продавца" - их нанимают, за ними бегают...
Конечно через OpenAI API.
Потому что клиента я запущу на одном компьютере, а GPU у меня может быть на другом.
qwen2.5? Это не просто старая, это уже древняя модель...
Есть же маленькие модели (2B, 4B) серии qwen3.5 - чего их не использовать?
Есть вот такой конкурент:
https://github.com/EpicenterHQ/epicenter/tree/main/apps/whispering
может делать всё локально на Маке, а может через Open API
Пару месяцев назад Гугл выпустил несколько моделей специально для перевода:
https://huggingface.co/google/models?search=translate
Скорость объединённой памяти на Маках: 200-400 GBps, только на Ultra может достигать 800 GBps.
NVIDIA: от 1 TBps на старой RTX 3090 до 1.8 TBps на RTX 6000. А у моделей для дата-центров - десятки TBps.
Но самая большая проблема у Маков - они тормозные в обработке промптов, потому что у них не хватает мощности GPU/neural процессора для этого. Может у M5 с этим и станет получше, но пока - для программирования вообще не вариант, для каждого запроса надо ждать минуты пока промпт "переварится".
Я мало работаю с видео-редакторами.
Но вот сегодня увидел вот этот видео-редактор:
https://github.com/mohebifar/tooscut
Может кто-то напишет обзор на него?
работает прямо в браузере, ничего не надо инсталлировать
может работать с большими видео-файлами
поддерживает ускорение GPU
эффекты
анимация
Есть ещё один сценарий:
Стало очевидно, что для работы AI нужен капитал на постройку дата-центров, стройку или подключение новых электростанций, покупку GPU,... Nvidia не даст соврать - посмотрите сколько денег идёт им. Возможности наращивать капитал - не безграничны, и один из вариантов - сократить людей, а освободившийся cashflow направить на долгосрочные инвестиции в дата-центры.
То есть получается, что работу теряют из-за AI, но есть ньюанс...
Раньше $$ получали программисты, теперь $$ получают Nvidia и электрики.