Комментарии 9
А почему не использовали уже готовые программы под андроид? Типа этой: https://github.com/a-ghorbani/pocketpal-ai И зачем брать древнюю gemma3, когда уже есть даже gemma4? Она, правда, совсем новая, еще не все косяки вылечили, но есть и другие, более свежие, чем gemma3 модели.
Мне непонятна сама задумка запускать через термукс ллм модели и открывать чат через браузер, когда можно установить ультимативный вариант от гугла - Edge Gallery, где точно так же доступен чат, OCR и возможность прикрутить МСР. И всё это тоже работает в оффлайне. В таком случае можно даже сэкономить несколько сотен МБ ОЗУ.
Вопрос в скорости инференса, если решение через термукс работает быстрее, то в целом ок. Куда интереснее была бы попытка поднять диффузионки, так как решений под Андроид до сих пор нет
Google Ai Edge недоступно в РФ с официальных источников. Про диффузионные модели интересно, посмотрю.
Боюсь с диффузионками в этом плане посложнее все. К памяти у них требования относительно небольшие (не нужны десятки и сотни врама), но вот к CPU/GPU требования очень нехилые. LLM на cpu без видеокарты пользоваться в общем можно, иногда даже вполне сносно по скорости (гоняет память туда-сюда), а SD я запускал на cpu - это одна картинка 1024 на 1024 генерится минут 30. То есть возможно, но есть маленький нюанс.
Хотелось показать то, что можно собрать своими руками. Это же намного интереснее, чем просто поставить чей-то app. Gemma4 вышла недавно, на моем устройстве не взлетела :-)
Ещё есть edge gallery - приложение google для запуска на смартфоне локальной gemma4.
@BlackJackBander каков твой порог входа Gemma3, т.е. что за тело телефона? на что ругалась Gemma4?
Желательно для этого использовать игровой смартфон с активным охлаждением. Под нейронкой процессор греется как не в себя.

Сегодня мы построим свою локальную модель на смартфоне. С блэкджеком и WebUI