Как стать автором
Обновить

Комментарии 13

Ну кстати в тему того, что на телефоне такую нейронку не развернуть - вроде с iOS 15 и последними яблоками Siri всё распознаёт локально. Разве что за выборкой данных обращается на серваки. Так что нереальность распознавания локально уже далека, при условии что сейчас почти в любой топовый чип закладывают отдельный процессор машинного обучения.

Конечно, я не утверждаю, что невозможно распознавать голос локально, но модель взятая за основу имеет 22 млн параметров, Сберовские насчитывают млрд, развернуть такое на телефоне, если и возможно, то больше ни чего сделать на нем не получиться. Что касается Siri, я не смог найти информацию о ее исполнении локально, наоборот проскакивала информация о том, что это облачный сервис

https://www.macrumors.com/guide/ios-15-siri/ похоже яблоко как-то смогло, если это не голословные утверждения. На презентации это прям сильно пиарили, но по качеству ничего не скажу - набор голосовой работает неплохо, если слова понятные, а сири как таковой не пользуюсь

О да, спасибо, тут есть крутые идеи для реализации))) Это показывает насколько верно, то в какую сторону мы движемся, ведь хочется, чтобы такой ассистент делал не только, то что вложили в него сторонние разработчики. Например: вот у меня есть время и я хочу работать с биржей, круто, когда я могу написать свое приложение (как бота в Telegram) и тем самым наделить его голосовым интерфейсом

Я помню как в 1997-1998 годах, одновременно с рекламой на ТВ про Интел ММХ, вышла игра Rebel Moon, шутер, с интересным тогда голосовым управлением. Прошли годы, но уровень интелекта Алис, Марусь, Олегов,.. на уровне 14 летней Нокии 6300 с голосовым набором номера. Не знаю с чем это связано, с сложной морфологией русского языка, малым финансированием адаптации для русского языка, или это просто маркетинг для достаточно ещё сырой технологии.. но ничего более умнее "позвони Олегу", "разбуди через 2 часа" пока нет.

Очень хороший вопрос, думаю тут дело в модели бизнеса. Мы вкладываем деньги в то, что приносит выгоду, сложно посчитать на сколько больше начало продаваться смартфонов после внедрения голосового помощника.

Тут возникают вопросы по типу:

1) А может это новый рекламный ролик выстрелил?
2) А Может кризис ослаб?

К тому же сторонним разработчикам сложно встроиться в софт. Не знаю как в Apple, но в Android недавно появилась функция смены помощника, что дает возможность заменить стандартного Google, на Алису например.

Ждём продолжения. Отличное начало)

Спасибо, в рамках данного проекта пообщался с крутыми специалистами, так, что идей для нового поста куча, но сначала расскажу про кастомный UI за 5 мин.

На этом этапе мы можем сделать отсеивание информации.

Слишком много информации для нейронки. Напрашиваются dynamic range compression или хотя бы threshold фильтр.

Честно не очень понял ваш комментарий, если говорить о размере входной информации, то DRC не поможет, вед он работает с амплитудой сигнала (как я понимаю), с другой стороны конечно, мы не можем подать на вход 20 000 параметров только для одного маленького "окна" и в общем-то при генерации спектрограммы мы можем задать кол-во выходных параметров, которое я использовал 256

Для сравнения, в классическом варианте примеров нейронке скармливают картинку 28х28. Сравните со своим сэмплом. Он намного больше.

По возможности нужно сузить амплитуду, вырезать частотный диапазон и через трешхолд уменьшить квантование. Полученную "картинку" можно пропустить через дополнительный графический edge фильтр. После этого, уменьшив размер сэмплов до разумных пределов, эти данные "скормить" нейронке, чтобы она адекватно обучалась.

не буду оригинальным, но есть же библиотека vosk от alphacephei.com, она работает локально, и будет распознавать не только ваш голос, но и других людей.

Локальное распознавание голоса и лица есть на чипе esp32. К примеру вотЪ

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории