Мы с братом создали Sova AI, ИИ агента на Андроиде, который оперирует приложениями и выполняет ваши хотелки таски на телефоне. Это первый ассистент, которому не нужны ADB, USB, PC, root и т.д., просто самое обычно приложение, которое устанавливается на Андроид (пока IOS в разработке) и всегда с вами, куда бы вы не пошли (звучит страшно? 😁).
Зачем еще один ИИ ассистент?
Потому что он единственный в своем роде, все остальные “mobile-use” требуют подключения к PC, и это конечно неудобно и не интересно. Если уже есть PC, то лучше уже на нем и выполнять различные задачи, зачем тогда телефон мучать? Computer-use, browser-use вполне себе прекрасно работают на PC.
Нам хотелось ассистента, который всегда будет на телефоне, а не когда мы с кабелем USB возле компа, ассистента который будет делать на телефоне все, что может делать пользователь, а не еще один умный браузер (привет Perplexity) который будет требовать API чтобы что-то сделать, или кастрированный Gemini assistant который только и твердит что он ИИ модель и не может ничего. Они в большинстве просто бесполезны, как и все чатботы которые всего лишь чатботы, но почему-то называются AI assistant для маркетинга.
Что оно умеет
Как и computer‑use он делает клики, скроллы, открывает приложения, и симулирует любые действия пользователя. Под капотом — работа с Accessibility API Андроида, используем tree экрана и скриншоты. Только на скриншотах мало что сделаешь, модели не очень хорошо с ними работают, оптимизируют картинки каждый по своему и так далее. Поэтому мы сделали определенную комбинацию того и другого, с экономией токенов, чтобы пользователи не продавали себя в рабство из‑за одного заказа еды. Также его можно сделать асситентом по умолчанию и оно будет реагировать на ваши голосовые команды и делать что захотите, без этого всего «Я ИИ модель и ничего не могу делать, хнык‑хнык».
ИИ модели
Мы работаем в BYOK режиме - то есть вы сами вносите свои API key вашего любимого LLM провайдера, мы поддерживаем работу с основными AI сервисами - Google, Anthropic, OpenAI, Grok, Alibaba (Qwen), Deepseek и т.д. Если вашей любимой нет - сообщите, мы добавим. Ключи не сохраняем, они только у вас на телефоне. В планах сделать поддержку локальных моделей на Ollama, LM studio и других, думаем что это было бы прикольно и полезно если не хотите тратиться на облачных провайдеров. Как думаете?
Use cases
Мы уже опробовали с вызовами Uber, заказами еды и мест в ресторане, автоматизацией процессов в Tinder, работой с камерой и приложениями астрономии, написанием сообщений в Телеграм, Твиттер (Х), поиском и созданием плейлистов в Spotify и Youtube, и т.д. и т.п. Пока что границы возможностей неизвестны, надеемся пользователи расширят наши горизонты!
Где оно не будет работать
В рилтайм играх, где нужно реагировать быстро - так как каждый запрос в LLM берет время, и это не оптимальная скорость для рилтайм приложений. Если же игра по ходам, то вполне возможно. Надо будет опробовать с преферансом.
Как установить
К сожалению Google Play нам оказался недоступен 😥 Accessibility API моментально триггернуло их модераторов и приложение завернули, видимо с мыслью “Gemini такого не умеет, зачем нам конкуренты”. Вроде бы они что-то пытаются сделать похожее, но оно будет на самых новых версиях и флагманах. Поэтому мы решили распостранять наш APK с сайта, и ориентироваться больше на аудиторию гиков и ИИ энтузиастов, хотя приложением может пользоваться и ваша бабушка. Однако можно установить с магазинов Samsung и Xiaomi, если у вас есть такие. Если нет - устанавливаете с сайта APK. Пока что все бесплатно, мы только в начале пути.
Мы отвечаем по мере возможности на наших каналах в Телеграм и Discord (МАХа не будет, сорян), будем рады вашему фидбеку!