
Комментарии 4
Если интегрировать с умным домом голосовой запрос и озвучивание ответа, то может быть интересно. Ну и LLM локальную подключить к этому делу.
Atlas лажа =)
Попробуй Comet браузер. Как бюджетно активировать Pro подписку думаю найдешь)
Современные LLM обрабатывают изображения через набор внутренних «блоков» (image tokens), и биллинг в API считается за такие единицы, поэтому вызовы vision обычно стоят сопоставимо с текстовыми, а при передаче в контекст огромного DOM даже могут выходить дешевле.
Основные прикладные сценарии здесь — умные ассистенты для работы с Google Docs и интеллектуальное тестирование UI, где по уровню зрелости сейчас имеют смысл модели с режимами computer-use вроде Gemini или Claude (в Comet браузере именно он), потому что помимо vision нужен ещё достаточно сильный reasoning для пошагового решения сложной задачи.
ChatGPT Atlas не нужен: Пишем свой AI-«браузер» который не стыдно запустить