
Мы выкинули всё лишнее. Никакого Python, гигабайтных зависимостей и консольных окон.
Это приложение весит всего 600 КБ.
Суть проста: Вы говорите нейросети, что нужно сделать на экране, а она физически перехватывает управление вашей мышью и клавиатурой, чтобы выполнить задачу. Открывает программы, заполняет формы, кликает по кнопкам — делает то, что вы попросили.
1. Запуск
Скачиваете и запускаете https://github.com/mozg4D/Tiny-Agent/raw/main/tinyagent.exe
Никаких установок. Приложение само откроет браузер с интерфейсом управления.
Если вы закроете вкладку браузера — приложение автоматически закроется.
2. Настройка (один раз)
В интерфейсе вставьте ваш Google Gemini API Key.
Ключ берется бесплатно здесь.
Он сохраняется в браузере, каждый раз вводить не надо.
3. Использование
Приложение работает в фоне. Когда нужна помощь ИИ:
Сделайте снимок:
F9 — Скриншот всего экрана.
F10 — Скриншот только активного приложения.
Поставьте задачу:
В появившемся веб-интерфейсе введите запрос. Например: "помести папку "Отчеры" в корзину".
Фича: Можно прямо на скриншоте маркером обвести нужную область, чтобы ИИ обратил на нее внимание.Проверка и правка:
ИИ вернет список действий, а на скриншоте нарисуются траектории движения мыши.Если траектория кажется кривой, вы можете мышкой перетащить точки прямо на картинке, скорректировав путь.
Магия:
Нажмите кнопку Execute. Агент заберет управление и выполнит действия.
Аварийная остановка: Если ИИ «понесло», просто резко дерните мышкой (сдвиг > 100px). Выполнение мгновенно прервется.
Что под капотом?
Весь проект — это один файл на C++ (WinAPI + GDI+). Веб-интерфейс вшит внутрь бинарника.
Чтобы нейросеть (Gemini 3) не промахивалась по кнопкам, мы реализовали несколько хитростей на этапе подготовки изображения:
Линейка: Перед отправкой на скриншот накладываются координатные линейки по краям. Это дает ИИ визуальный ориентир.
Нормализация: Координаты кликов приводятся к единому стандарту, независимо от разрешения вашего монитора.
Визуализация: Траектории, которые строит ИИ, — это не просто список команд, а интерактивный слой поверх скриншота, доступный для редактирования пользователем перед запуском.
