Комментарии 31
Идея интересная. Но вроде уже Сэм Альтман с Джони Айвом такое делают.
Главное, это мойкомпаньон, а не чей-то сервер за океаном.
А для ваших покупателей он опять превратится в "чей-то сервер ". Магия )
А вдруг можно будет у себя дома запускать? Как ownCloud. А, @mike_melanin?
Лет 10 назад был в рунете такой проект Cube (или Кубик, уже не помню точно)
Личный ИИ-помошник, массив микрофонов, никакого облака.. Но шли годы, от автономной работы решили отказаться и превратились в инетозависимого. При этом, тогда ИИ был менее сообразительный. Чем закончилось не помню, я перестал следить после отказа от автономности.
Интересные ребята (и блог на Хабре одно время был), кстати. Я бы даже сказал, очень талантливые, но как-то у них не очень ровно вышло. С Кубика попытались переключиться на носимого ассистента, насколько я помню. С ним не очень вышло, переключились на навыки для виртуальных ассистентов в Штатах. На этом месте я тоже перестал за ними следить, а сейчас заинтересовался и загуглил, и там прямо детектив дальше.
РБК нам сообщает, что их наработки (например, микрофонный массив Кубика) взяли в Яндексе для своих станций. Там же одно время трудился над Алисой и один из основателей Кубика - Юрий Буров.
Мне с ними повезло пообщаться в Москве, еще в самом начале кубика. Потому что они случайно подумали, что я крутой инженер, но ошиблись.
Можно сделать автономный без смартфона: модуль на чипе ESP32+карта памяти.
В брелке BLE модуль на чипе TLSR.
Есть вот такой проект (XiaoZhi AI) например https://www.youtube.com/watch?v=cH77RWhq7AM
И вот такой https://aliexpress.ru/item/1005009516438849.html?gatewayAdapt=fra2rus&sku_id=12000049341646388
И вот такой https://aliexpress.ru/item/1005009516438849.html?gatewayAdapt=fra2rus&sku_id=12000049341646388
Это не то. В этом решении часы долго не проработают , объем памяти не позволит разместить LLM.
------------------------
Есть вот такой проект (XiaoZhi AI) например https://www.youtube.com/watch?v=cH77RWhq7AM
Это решение, да и подобные на али требуют подключения к интернет и подписку.
------------------------
Я написал о возможном решении как в статье.
Брелок будет работать долго так как BLE.
А LLM размещается локально в отдельном модуле , который помещается на пояс и имеет более мощный аккумулятор.
Но прикол в том, что LLM DeepSeek не умеет ходить в интернет и использует информацию на момент его создания т е до 2024 года. Это свойство всех LLM.
Так у XiaoZhi все готовое и контроллер под esp32. И Сервера три версии пайтон, жава и еще ктото. Сейчас сам с китайцами поднял тему занимаюсь, адаптацией и русификацией их поделия. Очень большой выбор речь в текст текст в речь и llm
Тоже совсем недавно хотел сделать умный кулон/брелок на базе тех круглых экранов с esp32s3... Напечатал корпус, добавил батарею, и в целом даже запустил демо.
Но платформа сама по себе мне не очень нравится - конфиг по сложности на голову превосходит линуксовый, сборка представляет собой магию, почти везде используется чистый С, энергоэффективность никакущая для микроконтроллера...
Фото


Как по мне, проще взять маленький линуксовый чип - софта больше, дров больше, качество кода выше, потребление сравнимое. SoM полно на рынке, разводятся на двуслойной плате легко.
Тут идеально вписывается RA8P1. Для локального ML это наверно самый сейчас эффективный чип по потреблению и скорости.
И такой дивайс должен иметь уже камеру. Детекция лиц там есть в демке.
Микрофонную решетку тоже поддерживает.
Для низкопотребляющего WiFi - SiWx917M
Для глобального подключения как опция - nRF9151
инференс чистый на девайсе - имхо пока утопия и лишнее усложнение. Про камеры я вообще молчу...
На таком девайсе да.
На более мощном нет. смарты вполне справляются.
Но тогда получается ваш девайс такойже приватный и безопасный как яндекс алиса, и обрабатывает и хранит данные где угодно только не в контролирруемом покупателем месте. пока единственное что может потянуть из "дешевого" железа это малинка последняя и пачка ускрителей helio к ней. но опять же это дешево только условно, а жрет хорошо электричество
не все сразу - в POC принципиально отличий архитектурно от алисы нет, но нужно проверить концепт, что не только мне нужен карманный ИИ дружок.
Как-то эксперемнтировали с google coral, запихнули туда довольно большой сегментатор изображений. Работает медленнее, конечно, чем на V100, но не намного, раза в 1.5 - 2, а штука эта размером с мобилу. Вот сила TPU-шек.
LLM, поди всё равно в него не запихнуть, надо подрезать размер. С другой стороны, LLM для чего такое кол-во параметров? Чтобы у неё в весах осела информация на всех языках и обо всём, до чего дотянулись скраперы. Вряд ли юзеру такой штуки нужно больше, чем пара языков.
А вот классическое обучение там уже не сделать, бэкпроп не работает на целых числах, а TPU ускоряет именно перемножение матриц целых чисел. Т.е. тут если только изобретать свои алгоритмы обучения.
Согласен с вашим комментарием выше, что в текущей постановке в этом нет никакого смысла. Без хотя бы инференса на девайсе, нет никакого заявленного автором "Физический. Мой." А сделать инференс языковой модели на портативной железке это тот ещё челлендж.
Ну эт все равно что предложить делать телегу вместо машины, потому что колеса дешевле.
Не смешите мои наушники.
В них стоят чипы с 8! процессорами в каждом! А они даже в интернет не выходят.
Если сложить их пиковые токи, то ампера 2-3 наберется.
А работают неделями.
А так да, RA8P1 не хватает audio DSP и это максимум что можно найти на публичном рынке. Дальше только дороже.
ESP32 тут и рядом не лежат.
В них стоят чипы с 8! процессорами в каждом! А они даже в интернет не выходят.Если сложить их пиковые токи, то ампера 2-3 наберется.А работают неделями.
Не понял, что смешного Вашим наушникам.
Можете доказать, что работают неделями?
Из статьи не очень понятно, что вы делаете.
В какой-то момент я понял: хватит разговаривать с ИИ через стекло. Хочу, чтобы он был рядом всегда. Настоящий. Физический. Мой.
подумал, что хотите свою железку с LLM. Типа: микрофон -> сетка для распознания речи -> LLM -> ответ на мониторе.
он учится тебе, а не энциклопедии.
Как будто говорится не только об инференсе, но и обучении.
Но потом фразы:
Связка с телефоном
Сначала ответы из облака
разрушают магию
Я – Папа Карло, только вместо Буратино делаю ИИ-кулон