Pull to refresh

Comments 7

ток начал разбираться в агентах, сток вещей ещё непонятно, но эта статья именно то, что я хотел увидеть, прочитать и осознать, спасибо

Рад что зашло! Если будут вопросы по настройке - пишите, помогу разобраться.

после того, что perplexity сделали со своей подпиской pro (наглухо срезали лимиты) захотел найти какое-то решение, которое бы сделало агентский браузер для автосерфинга. посмотрел разные решения, достаточно грустно: такое ощущение, что софт для ии писали вообще не те, кто остальной. какие-то кривые, сырые, странные поделия выложены как релизы. вместе с гемини допиливаем их, плюемся, особенно примечательно, что "сырое" прозвучало со стороны ии, а я такое слово в чате не писал. ну да ладно

из более-менее юзабельного нашел skyvern и поднял его в докере. может есть лучше варианты?

подключал с openrouter разные модели. впечатление противоречивое, вроде что-то работает, вроде даже бесплатное, но надо все шаги описывать подробно (то есть опыт не как с comet браузером). интересно, что сам гемини посоветовал антигравити распотрошить, но это я еще не вникал. у меня какая-то подписка plus, не знаю что, гугл сам дал бонусов при продлении диска

По поводу агентского браузера - мне тоже не нравятся интегрированные решения для работы с браузером. Они часто делают скриншоты, или гоняют повторяющиеся действия через агента - медленно и жрет лимиты.

У меня другой подход к цикличным автоматизациям: задача агента - не заниматься оркестрацией самому, а создавать сценарии. Если автоматизация уперлась в новый интерфейс - агент анализирует его и генерирует скрипт на основе логической цепочки. Дальше этот скрипт работает быстро без агента, пока не столкнется с изменением UI. Когда интерфейс меняется - срабатывает фолбэк, и агент адаптирует автоматизацию. Такое лучше делать через Chrome Extension. Подумываю опубликовать свое решение в опенсорс.

В Antigravity есть встроенный инструмент для работы с браузером - он решает практически любые задачи: клики, навигация, заполнение форм, скриншоты. Но это автоматизированный Chrome, и сайты с антибот-защитой (Cloudflare и подобные) часто ловят такие сессии и блокируют. Для Antigravity нужна подписка AI Pro ($19.99/мес) или Ultra.

Если задача - собирать информацию из открытых источников, а не автоматизировать UI, то есть вариант проще: в Gemini CLI встроен инструмент google_web_search. А в agent-pool теперь есть cron-планировщик (schedule_task). Вешаешь агента на расписание - он сам ресерчит и складывает результаты.

Сейчас делаю новую статью про свежий функционал agent-pool: пайплайны (автоматические цепочки задач) и cron-расписание для агентов. Скоро выложу.

Я бы вообще большинство задач, которые требуют браузера отправлял в puppeteer, через тот-же MCP. На мой взгляд, это гораздо более надежный способ, очень уж много глюков с расширениями и собственными тулзами агентов.

Отличная идея! А не думали об общей памяти что бы каждый агент уже знал то что знает его предшественник? Просто думаю о том что каждый запуск под агента будет искать информацию которую до него уже знал другой

Да, проблема частая - гонять один и тот же контекст каждому агенту заново получается долго и дорого по токенам.

Сейчас я решаю это несколькими путями. Самый простой - через файловую систему (директория .agents/delegation/). Один воркер ресерчит и пишет выжимку в маркдаун, следующий ее читает.

Если нужно прямо подхватить мысль - при делегации задачи можно передать session_id предыдущего агента. Тогда новый стартует ровно с того места, где закончил первый, со всей историей.

А чтобы это работало на автомате, я как раз добавил пайплайны - выход одного шага автоматически прокидывается на вход следующему. В новой статье покажу на примерах, как агенты передают друг другу контекст.

Sign up to leave a comment.

Articles