Обновить

Комментарии 4

Если интегрировать с умным домом голосовой запрос и озвучивание ответа, то может быть интересно. Ну и LLM локальную подключить к этому делу.

Atlas лажа =)

Попробуй Comet браузер. Как бюджетно активировать Pro подписку думаю найдешь)

  1. Современные LLM обрабатывают изображения через набор внутренних «блоков» (image tokens), и биллинг в API считается за такие единицы, поэтому вызовы vision обычно стоят сопоставимо с текстовыми, а при передаче в контекст огромного DOM даже могут выходить дешевле.​

  2. Основные прикладные сценарии здесь — умные ассистенты для работы с Google Docs и интеллектуальное тестирование UI, где по уровню зрелости сейчас имеют смысл модели с режимами computer-use вроде Gemini или Claude (в Comet браузере именно он), потому что помимо vision нужен ещё достаточно сильный reasoning для пошагового решения сложной задачи.​

да нет, с чего бы) тут один сценарий : "дарова гугл найди мне доку по mtcute.dev" // дока написана по людоедски и ниодин поисковик ее просто не найдет, без прямого захода на сайт и клика по паре кнопочек

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации