Как стать автором
Обновить

Комментарии 34

Жаль только их родные модели. Так я использую ChatterUI для любых gguf моделек

О нет, туда можно загрузить в хаггин фейс и не родные, лишь бы телефон потянул.

Как? Я пробовал импортить gguf модельки, пишет, что суппортит только .task файли

Вопрос в том, насколько хороши модели, которые могут работать на смартфонах. На домашние компы, вроде можно установить только сильно дистиллированное. На смарты, по идее, ещё слабее. Есть там что-нибудь полезное?

Тут не могу сказать, на форуме тоже пока еще не много нашли моделей, которые точно можно запускать на телефоне, пока для себя я вижу главную полезную фичу это обработка данных на телефоне, не нужно подрубать впн, и экономия, не нужно тратить запросы в жтп для обработки простых задач.

Зато нужно подрубать нейроку которая греет смарт и при этом весьма тупая. Гугл бесплатно дает 500-1500 запросов в сутки к своим большим моделям, openrouter (если закинуть 10 баксов) дает 1000 запросов к бесплатным моделям среди которых есть тот же дипсик.

да согласна, но локалка выигрывает там, где важны приватность и офлайн-доступ, а еще если впн нет.

Мм локально на смартфоны? Тут на комп с 8vram + 32ram хрен подберешь адекватную модель - довольно все убогие для таких ресурсов (хоть 16vram карту покупай) - а они на смартфон предлагают всадить) Еще и люди обсуждают с серьезными щами это - что мол выбор маленький) А в чем разница то между разными сортами гомна, если их хоть сотню на выбор дать?)

По поводу “все убогие”, так и есть, если ты ожидаешь уровень GPT-4 , выбор важен не ради "разных сорт гомна", а потому что одни маленькие модели лучше умеют в математику, другие диалоги, третьи компиляцию на месте и тд. И все это на своем телефоне.

А зачем мне тупая модель, которая чуть меньше конкурентов тупит в математических задачах, когда есть Wolfram Alpha / Photomath для сложных задач и калькулятор для всех остальных? Тяжеловесный галлюцинатор в точных задачах - это точно максимально неподходящий инструмент, где его ни запускай. Аналогично про диалоги: или используй нормальную модель (которая не запускается на доступном железе), или общайся с живыми людьми. Просто не понятен сценарий, где такие мелкие модели вообще можно использовать. Разве что при обращении в техподдержку сгенерировать предложение, в какую подкатегорию определить ошибку, и то сомнительно

Какое-либо подтверждение что это проект гугла есть? Ау, хабр, технический ресурс?

Я бы не стал доверять какому-то сборщику гугл акков с CEO-ным названием, который аккаунт на гитхабе которого и сам сайт hugco были созданы одновременно в январе, но куда уж мне до специалистов

Хорошее замечание, сейчас поищу, пока найдено это https://ai.google.dev/edge

https://techcrunch.com/2025/05/31/google-quietly-released-an-app-that-lets-you-download-and-run-ai-models-locally/

Изменила новость, с учетом обновленной информации. Спасибо большое, что указали на этот важный момент!

Я поверил по очень простой причине: переходишь по ссылке https://ai.google.dev/edge/mediapipe/framework?hl=ru видишь там ссылку на гитхаб, открываешь гитхаб, видишь, что название аккаунта на гитхаб совпадает с тем, что и у другого проекта(для надёжности открываешь именно этот аккаунт и именно с него выбираешь нужный проект и скачиваешь .apk), то что ссылка относится к гуглу не очень долго проверять.

Но зачем?

Я понимаю рабочие станции, где можно развернуть претрейн модель, где нужна приватность данных, где важны параметры, или покупаешь уже мощности в облаке и тд и тп.

Но для чего нужна слабая локальная модель на смартфоне, сжирающая его ресурсы за часы, когда есть приложение того же чатагпт? Оффлайн? Что может потребоваться делать с нейронкой в месте без интернета?

Пока выглядит как "запустили дум на чайнике, потому что можем".

Это хороший вопрос, но я знаю ответ. Сейчас очень популярны различные ассистенты, которые могут обрабатывать очень чувствительные вопросы - например здоровье, психологические проблемы, банковскую тайну. И обрабатывать такие данные лучше на своем телефоне. Плюс опять же - можно маскировать текстовые данные для отправки в облако. А конкретно данное приложение позволяет протестировать модельки на скорость и качество, не запариваясь с инференсом модельки для проверки гипотез.

Просто все новости по этой теме настолько желтушны и полны хайпа, что ни в одной из них Вы вряд ли найдёте, что главный замут Гугла в этой теме - это API MediaPipe.

Я как-то сразу гуглостраницу до конца долистал и даже на страницу MediaPipe перешёл, поэтому у меня ни одного внутреннего возмущения не было.

Draw Things - имеет приложения под Mac OS и iPhone. Грузит модели и работает локально.

на телефоне не пробовал, но на M3 ноуте Stable Diffusion 3.5 Large Turbo выдает картинки за 1 минуту (1024х1024) при 4 проходах (эта Large заточена под 4 прохода).

Пример изображений:

Скрытый текст

За обзор спасибо. Однако есть приложение, которое можно найти в плеймаркете, как раз для этих целей. Называется PocketPal, причем аккаунт на HugginFace на нужен, как и гугловский.

НО скорость работы небольших моделей, мягко говоря, низкая. Вот какие модели доступны (список больше, но не все поместятся):

А вот например скорость работы на Pixel 8a, как говорится "Спасибо что живой" 😁

Если не ошибаюсь, это была модель Llama 3b (но это не точно). Там кажется нельзя выбрать на чем запускается модель (CPU/GPU), но не могу утверждать так как не изучал все настройки.

Так что, кто хочет может ее опробовать, но будьте готовы к гигабайтам загрузки и высоким требованиям по железу смартфона :)

у вас какие то проблемы наверно.
на Snapdragon 870(более древняя чем в Pixel 8a) модель Llama 3b выдала ответ за "231ms per token, 4.32 tokens per second".
а вообще в PocketPal есть benchmark.(есть сторонние приложения, выдадут производительность для ml на cpu/gpu/npu)
AI Phone Leaderboard - a Hugging Face Space by a-ghorbani

можно запускать локальные модели без цензуры.

3b - очень маленькая модель, а 4 токена в секунда очень низкая скорость.

Что бы запустить унылую qwen3-8b на терпимой скорости 40токенов в секунду нужна видеокарта типа rtx3060.

для каких задач?
условно в тайгу без связи что лучше взять систему с rtx3060 или смартфон?

да и Llama 3b из списка PocketPal работала на cpu, если есть модели работающие на gpu или npu то скорости будут лучше.
на cpu и в пк будет медленно работать.

qwen3-8b на 870 выдавало по 3.6 токена/с

Меня тоже удивила такая низкая скорость, скорее всего из за процессора. Может какие-то настройки надо крутить, из коробки так завелась.

UPD: Все таки я ошибся, скорость 0.23 t/s была на другой модели, видимо более тяжёлой.

Сейчас поставил Llama-3.2-3b (Q_6K) и вот что выдал пиксель:

Бенчмарк с коробки
Тест в чате
Включил Flash Attention
Увеличил потоки с 7 до 9

Судя по результатам, все действительно упирается в CPU, GPU приложение не видит. Как и NPU которые есть в Tensor G3. Похоже стоит ждать офф. приложения от Гугла, скорее всего они оптимизируют все под свои устройства.

Так конечно можно использовать, но после скоростей гпт это боль 😁

Вообще чем больше пользуюсь ИИшками тем больше нравится:) Хотя в запуске именно на смартфоне смысла не вижу, все чаще возникает желание не зависеть от инета, а запускать локально. Чтобы без цензуры и ограничений, чтобы неограниченная длина контекста, чтобы была возможность дообучать на своем контенте, чтобы можно было делать древовидную историю запросов а не линейную, и т.д. Если с текстовыми еще вполне можно работать через инет (grok весьма неплох, deepdeek по ощущениям чуть хуже но тоже ничего) то вот для генерации картинок я так ничего и не нашел нормального и бесплатного одновременно.

Но покупать видеокарту за полмиллиона... ИМХО все-же перебор. А статей на эту тему очень не хватает. Как найти оптимальное соотношение цены и качества? Каковы перспективы в плане удешевления железа?

Посмотрите в сторону ComfyUI. Пожалуй самый продвинутый OpenSource UI ко многим видам нейронок. Правда чтобы в нем хоть что-то началось получаться нужно будет засесть за документацию и туториалы. Кривая вхождения высока, но этот инструмент даёт широчайшие возможности.

По поводу железа - в сети легко можно найти подборки на каком железе, за сколько и какие результаты люди получают.

К примеру сейчас у них в beta поддержка Mac OS ARM (M1 и выше). К сожалению у pytorch есть проблемы в поддержкой fp8 типа на Apple GPU. Поэтому некоторые модели придется форсить обрабатывать как fp8 на CPU. Это в 10 раз примерно замедлит генерацию. Но если памяти хватает, то грузите 16 битные сетки и будет вам счастье.

https://github.com/comfyanonymous/ComfyUI/issues/6995

Каковы перспективы в плане удешевления железа?

Мне кажется тут больше перспективы запускать всё более крутые сетки на всё более доступном железе. По крайней мере сейчас именно такая тенденция.

Я думаю автор все же про генераторы текста, а не видео и картинок. Для текста самый простой koboldcpp, запускающий пожатые gguf.

Правда чтобы в нем хоть что-то началось получаться нужно будет засесть за документацию и туториалы. Кривая вхождения высока, но этот инструмент даёт широчайшие возможности.

Да прям высокая, закидываешь workflow который по дефолту в каждом файле есть, качаешь нейронки и все работает. А сложный он из-за того что 100500 модулей которые даже нормально не описаны, не то что задокументированы, из-за чего их даже поиском найти сложно. Лучший источник инфы по comfyui - видосы на ютубе.

Я подумывал сделать в ComfyUI свой модуль чтобы можно было UI'но прятать основной flow вытаскивая на интерфейс только отдельные поля компонент. И чтобы это было также гибко настраиваемо.

типа:

  • Выберите модель

  • Задайте промпт

  • Задайте Seed

  • Задайте размер

  • Больная синяя кнопка

  • Получите результат вот здесь

Но вы правы. С документацией у ConfyUI всё туго, к сожалению.

Я думаю автор все же про генераторы текста, а не видео и картинок.

И текста, и картинок. И если с текстом бесплатные сервисы неплохо справляются (да, приходится все сохранять в древовидном редакторе, затем при необходимости подгружать обратно), то с картинками все как-то хуже.

А что за древовидные редакторы?

Я себе свой написал уже давно. Сейчас большинство использует Obsidian.

Комфи недавно добавили и запуск llm, не только картинок\видео (оно там под капотом собственно давно уже было, но вытащили поближе к пользователям), так что можно и для текста использовать. Но их UX конечно, кхм.. имеет свои нюансы )

можно поднять в облаке вм (или ноду куба), платишь за время жизни вм. Надо посчитать на гпу - поднял, посчитал, после подсчета удалил

Приветствую,эксперты,подскажите обычному пользователю,в этом приложении только текстовые запросы и работа с картинками? Или есть ещё работа с видео генерациями?

С высокой степенью вероятности это приложение только про LLM, т.е. image/text to text.

Все известные мне опенсорсные локальные видеогенераторы не которые не страшно смотреть начинались с "нууу, возьмите карту с 40gb vram... а лучше 80..", т.е. если вас не интересует получить видео 128х128 за сутки работы телефона, то врядли в ближайшее время на это стоит рассчитывать

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости