Интерфейс tinyAgent
Интерфейс tinyAgent

Мы выкинули всё лишнее. Никакого Python, гигабайтных зависимостей и консольных окон.
Это приложение весит всего 600 КБ.

Суть проста: Вы говорите нейросети, что нужно сделать на экране, а она физически перехватывает управление вашей мышью и клавиатурой, чтобы выполнить задачу. Открывает программы, заполняет формы, кликает по кнопкам — делает то, что вы попросили.

1. Запуск

Скачиваете и запускаете https://github.com/mozg4D/Tiny-Agent/raw/main/tinyagent.exe
Никаких установок. Приложение само откроет браузер с интерфейсом управления.
Если вы закроете вкладку браузера — приложение автоматически закроется.

2. Настройка (один раз)

В интерфейсе вставьте ваш Google Gemini API Key.

  • Ключ берется бесплатно здесь.

  • Он сохраняется в браузере, каждый раз вводить не надо.

3. Использование

Приложение работает в фоне. Когда нужна помощь ИИ:

  1. Сделайте снимок:

    • F9 — Скриншот всего экрана.

    • F10 — Скриншот только активного приложения.

  2. Поставьте задачу:
    В появившемся веб-интерфейсе введите запрос. Например: "помести папку "Отчеры" в корзину".
    Фича: Можно прямо на скриншоте маркером обвести нужную область, чтобы ИИ обратил на нее внимание.

  3. Проверка и правка:
    ИИ вернет список действий, а на скриншоте нарисуются траектории движения мыши.

    • Если траектория кажется кривой, вы можете мышкой перетащить точки прямо на картинке, скорректировав путь.

  4. Магия:
    Нажмите кнопку Execute. Агент заберет управление и выполнит действия.

Аварийная остановка: Если ИИ «понесло», просто резко дерните мышкой (сдвиг > 100px). Выполнение мгновенно прервется.

Что под капотом?

Весь проект — это один файл на C++ (WinAPI + GDI+). Веб-интерфейс вшит внутрь бинарника.

Чтобы нейросеть (Gemini 3) не промахивалась по кнопкам, мы реализовали несколько хитростей на этапе подготовки изображения:

  1. Линейка: Перед отправкой на скриншот накладываются координатные линейки по краям. Это дает ИИ визуальный ориентир.

  2. Нормализация: Координаты кликов приводятся к единому стандарту, независимо от разрешения вашего монитора.

  3. Визуализация: Траектории, которые строит ИИ, — это не просто список команд, а интерактивный слой поверх скриншота, доступный для редактирования пользователем перед запуском.

https://github.com/mozg4D/Tiny-Agent