Комментарии 34
Жаль только их родные модели. Так я использую ChatterUI для любых gguf моделек
Вопрос в том, насколько хороши модели, которые могут работать на смартфонах. На домашние компы, вроде можно установить только сильно дистиллированное. На смарты, по идее, ещё слабее. Есть там что-нибудь полезное?
Тут не могу сказать, на форуме тоже пока еще не много нашли моделей, которые точно можно запускать на телефоне, пока для себя я вижу главную полезную фичу это обработка данных на телефоне, не нужно подрубать впн, и экономия, не нужно тратить запросы в жтп для обработки простых задач.
Зато нужно подрубать нейроку которая греет смарт и при этом весьма тупая. Гугл бесплатно дает 500-1500 запросов в сутки к своим большим моделям, openrouter (если закинуть 10 баксов) дает 1000 запросов к бесплатным моделям среди которых есть тот же дипсик.
Мм локально на смартфоны? Тут на комп с 8vram + 32ram хрен подберешь адекватную модель - довольно все убогие для таких ресурсов (хоть 16vram карту покупай) - а они на смартфон предлагают всадить) Еще и люди обсуждают с серьезными щами это - что мол выбор маленький) А в чем разница то между разными сортами гомна, если их хоть сотню на выбор дать?)
По поводу “все убогие”, так и есть, если ты ожидаешь уровень GPT-4 , выбор важен не ради "разных сорт гомна", а потому что одни маленькие модели лучше умеют в математику, другие диалоги, третьи компиляцию на месте и тд. И все это на своем телефоне.
А зачем мне тупая модель, которая чуть меньше конкурентов тупит в математических задачах, когда есть Wolfram Alpha / Photomath для сложных задач и калькулятор для всех остальных? Тяжеловесный галлюцинатор в точных задачах - это точно максимально неподходящий инструмент, где его ни запускай. Аналогично про диалоги: или используй нормальную модель (которая не запускается на доступном железе), или общайся с живыми людьми. Просто не понятен сценарий, где такие мелкие модели вообще можно использовать. Разве что при обращении в техподдержку сгенерировать предложение, в какую подкатегорию определить ошибку, и то сомнительно
Какое-либо подтверждение что это проект гугла есть? Ау, хабр, технический ресурс?
Я бы не стал доверять какому-то сборщику гугл акков с CEO-ным названием, который аккаунт на гитхабе которого и сам сайт hugco были созданы одновременно в январе, но куда уж мне до специалистов
Хорошее замечание, сейчас поищу, пока найдено это https://ai.google.dev/edge
Изменила новость, с учетом обновленной информации. Спасибо большое, что указали на этот важный момент!
Я поверил по очень простой причине: переходишь по ссылке https://ai.google.dev/edge/mediapipe/framework?hl=ru видишь там ссылку на гитхаб, открываешь гитхаб, видишь, что название аккаунта на гитхаб совпадает с тем, что и у другого проекта(для надёжности открываешь именно этот аккаунт и именно с него выбираешь нужный проект и скачиваешь .apk), то что ссылка относится к гуглу не очень долго проверять.
Но зачем?
Я понимаю рабочие станции, где можно развернуть претрейн модель, где нужна приватность данных, где важны параметры, или покупаешь уже мощности в облаке и тд и тп.
Но для чего нужна слабая локальная модель на смартфоне, сжирающая его ресурсы за часы, когда есть приложение того же чатагпт? Оффлайн? Что может потребоваться делать с нейронкой в месте без интернета?
Пока выглядит как "запустили дум на чайнике, потому что можем".
Это хороший вопрос, но я знаю ответ. Сейчас очень популярны различные ассистенты, которые могут обрабатывать очень чувствительные вопросы - например здоровье, психологические проблемы, банковскую тайну. И обрабатывать такие данные лучше на своем телефоне. Плюс опять же - можно маскировать текстовые данные для отправки в облако. А конкретно данное приложение позволяет протестировать модельки на скорость и качество, не запариваясь с инференсом модельки для проверки гипотез.
Просто все новости по этой теме настолько желтушны и полны хайпа, что ни в одной из них Вы вряд ли найдёте, что главный замут Гугла в этой теме - это API MediaPipe.
Я как-то сразу гуглостраницу до конца долистал и даже на страницу MediaPipe перешёл, поэтому у меня ни одного внутреннего возмущения не было.
Draw Things - имеет приложения под Mac OS и iPhone. Грузит модели и работает локально.
на телефоне не пробовал, но на M3 ноуте Stable Diffusion 3.5 Large Turbo выдает картинки за 1 минуту (1024х1024) при 4 проходах (эта Large заточена под 4 прохода).
Пример изображений:
Скрытый текст







За обзор спасибо. Однако есть приложение, которое можно найти в плеймаркете, как раз для этих целей. Называется PocketPal, причем аккаунт на HugginFace на нужен, как и гугловский.
НО скорость работы небольших моделей, мягко говоря, низкая. Вот какие модели доступны (список больше, но не все поместятся):

А вот например скорость работы на Pixel 8a, как говорится "Спасибо что живой" 😁

Если не ошибаюсь, это была модель Llama 3b (но это не точно). Там кажется нельзя выбрать на чем запускается модель (CPU/GPU), но не могу утверждать так как не изучал все настройки.
Так что, кто хочет может ее опробовать, но будьте готовы к гигабайтам загрузки и высоким требованиям по железу смартфона :)
у вас какие то проблемы наверно.
на Snapdragon 870(более древняя чем в Pixel 8a) модель Llama 3b выдала ответ за "231ms per token, 4.32 tokens per second".
а вообще в PocketPal есть benchmark.(есть сторонние приложения, выдадут производительность для ml на cpu/gpu/npu)
AI Phone Leaderboard - a Hugging Face Space by a-ghorbani
можно запускать локальные модели без цензуры.
3b - очень маленькая модель, а 4 токена в секунда очень низкая скорость.
Что бы запустить унылую qwen3-8b на терпимой скорости 40токенов в секунду нужна видеокарта типа rtx3060.
Меня тоже удивила такая низкая скорость, скорее всего из за процессора. Может какие-то настройки надо крутить, из коробки так завелась.
UPD: Все таки я ошибся, скорость 0.23 t/s была на другой модели, видимо более тяжёлой.
Сейчас поставил Llama-3.2-3b (Q_6K) и вот что выдал пиксель:
Бенчмарк с коробки

Тест в чате

Включил Flash Attention

Увеличил потоки с 7 до 9

Судя по результатам, все действительно упирается в CPU, GPU приложение не видит. Как и NPU которые есть в Tensor G3. Похоже стоит ждать офф. приложения от Гугла, скорее всего они оптимизируют все под свои устройства.
Так конечно можно использовать, но после скоростей гпт это боль 😁
Вообще чем больше пользуюсь ИИшками тем больше нравится:) Хотя в запуске именно на смартфоне смысла не вижу, все чаще возникает желание не зависеть от инета, а запускать локально. Чтобы без цензуры и ограничений, чтобы неограниченная длина контекста, чтобы была возможность дообучать на своем контенте, чтобы можно было делать древовидную историю запросов а не линейную, и т.д. Если с текстовыми еще вполне можно работать через инет (grok весьма неплох, deepdeek по ощущениям чуть хуже но тоже ничего) то вот для генерации картинок я так ничего и не нашел нормального и бесплатного одновременно.
Но покупать видеокарту за полмиллиона... ИМХО все-же перебор. А статей на эту тему очень не хватает. Как найти оптимальное соотношение цены и качества? Каковы перспективы в плане удешевления железа?
Посмотрите в сторону ComfyUI. Пожалуй самый продвинутый OpenSource UI ко многим видам нейронок. Правда чтобы в нем хоть что-то началось получаться нужно будет засесть за документацию и туториалы. Кривая вхождения высока, но этот инструмент даёт широчайшие возможности.
По поводу железа - в сети легко можно найти подборки на каком железе, за сколько и какие результаты люди получают.
К примеру сейчас у них в beta поддержка Mac OS ARM (M1 и выше). К сожалению у pytorch есть проблемы в поддержкой fp8 типа на Apple GPU. Поэтому некоторые модели придется форсить обрабатывать как fp8 на CPU. Это в 10 раз примерно замедлит генерацию. Но если памяти хватает, то грузите 16 битные сетки и будет вам счастье.
https://github.com/comfyanonymous/ComfyUI/issues/6995
Каковы перспективы в плане удешевления железа?
Мне кажется тут больше перспективы запускать всё более крутые сетки на всё более доступном железе. По крайней мере сейчас именно такая тенденция.
Я думаю автор все же про генераторы текста, а не видео и картинок. Для текста самый простой koboldcpp, запускающий пожатые gguf.
Правда чтобы в нем хоть что-то началось получаться нужно будет засесть за документацию и туториалы. Кривая вхождения высока, но этот инструмент даёт широчайшие возможности.
Да прям высокая, закидываешь workflow который по дефолту в каждом файле есть, качаешь нейронки и все работает. А сложный он из-за того что 100500 модулей которые даже нормально не описаны, не то что задокументированы, из-за чего их даже поиском найти сложно. Лучший источник инфы по comfyui - видосы на ютубе.
Я подумывал сделать в ComfyUI свой модуль чтобы можно было UI'но прятать основной flow вытаскивая на интерфейс только отдельные поля компонент. И чтобы это было также гибко настраиваемо.
типа:
Выберите модель
Задайте промпт
Задайте Seed
Задайте размер
Больная синяя кнопка
Получите результат вот здесь
Но вы правы. С документацией у ConfyUI всё туго, к сожалению.
Я думаю автор все же про генераторы текста, а не видео и картинок.
И текста, и картинок. И если с текстом бесплатные сервисы неплохо справляются (да, приходится все сохранять в древовидном редакторе, затем при необходимости подгружать обратно), то с картинками все как-то хуже.
Комфи недавно добавили и запуск llm, не только картинок\видео (оно там под капотом собственно давно уже было, но вытащили поближе к пользователям), так что можно и для текста использовать. Но их UX конечно, кхм.. имеет свои нюансы )
можно поднять в облаке вм (или ноду куба), платишь за время жизни вм. Надо посчитать на гпу - поднял, посчитал, после подсчета удалил
Приветствую,эксперты,подскажите обычному пользователю,в этом приложении только текстовые запросы и работа с картинками? Или есть ещё работа с видео генерациями?
С высокой степенью вероятности это приложение только про LLM, т.е. image/text to text.
Все известные мне опенсорсные локальные видеогенераторы не которые не страшно смотреть начинались с "нууу, возьмите карту с 40gb vram... а лучше 80..", т.е. если вас не интересует получить видео 128х128 за сутки работы телефона, то врядли в ближайшее время на это стоит рассчитывать
Приложение, которое позволяет запускать модели ИИ локально на смартфон, пробуем установить