TripleAVerAlpha21 ноя 2021 в 22:33

Голосовое управление

8 мин

15K

Python * Машинное обучение * Голосовые интерфейсы *

Из песочницы

+11

Комментарии 13

GooG2e 22 ноя 2021 в 05:59

Ну кстати в тему того, что на телефоне такую нейронку не развернуть - вроде с iOS 15 и последними яблоками Siri всё распознаёт локально. Разве что за выборкой данных обращается на серваки. Так что нереальность распознавания локально уже далека, при условии что сейчас почти в любой топовый чип закладывают отдельный процессор машинного обучения.

TripleAVerAlpha 24 ноя 2021 в 08:50

Конечно, я не утверждаю, что невозможно распознавать голос локально, но модель взятая за основу имеет 22 млн параметров, Сберовские насчитывают млрд, развернуть такое на телефоне, если и возможно, то больше ни чего сделать на нем не получиться. Что касается Siri, я не смог найти информацию о ее исполнении локально, наоборот проскакивала информация о том, что это облачный сервис

GooG2e 24 ноя 2021 в 08:59

https://www.macrumors.com/guide/ios-15-siri/ похоже яблоко как-то смогло, если это не голословные утверждения. На презентации это прям сильно пиарили, но по качеству ничего не скажу - набор голосовой работает неплохо, если слова понятные, а сири как таковой не пользуюсь

TripleAVerAlpha 24 ноя 2021 в 09:10

О да, спасибо, тут есть крутые идеи для реализации))) Это показывает насколько верно, то в какую сторону мы движемся, ведь хочется, чтобы такой ассистент делал не только, то что вложили в него сторонние разработчики. Например: вот у меня есть время и я хочу работать с биржей, круто, когда я могу написать свое приложение (как бота в Telegram) и тем самым наделить его голосовым интерфейсом

NikaLapka 22 ноя 2021 в 06:13

Я помню как в 1997-1998 годах, одновременно с рекламой на ТВ про Интел ММХ, вышла игра Rebel Moon, шутер, с интересным тогда голосовым управлением. Прошли годы, но уровень интелекта Алис, Марусь, Олегов,.. на уровне 14 летней Нокии 6300 с голосовым набором номера. Не знаю с чем это связано, с сложной морфологией русского языка, малым финансированием адаптации для русского языка, или это просто маркетинг для достаточно ещё сырой технологии.. но ничего более умнее "позвони Олегу", "разбуди через 2 часа" пока нет.

TripleAVerAlpha 24 ноя 2021 в 08:57

Очень хороший вопрос, думаю тут дело в модели бизнеса. Мы вкладываем деньги в то, что приносит выгоду, сложно посчитать на сколько больше начало продаваться смартфонов после внедрения голосового помощника.

Тут возникают вопросы по типу:

1) А может это новый рекламный ролик выстрелил?
2) А Может кризис ослаб?

К тому же сторонним разработчикам сложно встроиться в софт. Не знаю как в Apple, но в Android недавно появилась функция смены помощника, что дает возможность заменить стандартного Google, на Алису например.

Ukaru 24 ноя 2021 в 08:58

Ждём продолжения. Отличное начало)

TripleAVerAlpha 24 ноя 2021 в 09:01

Спасибо, в рамках данного проекта пообщался с крутыми специалистами, так, что идей для нового поста куча, но сначала расскажу про кастомный UI за 5 мин.

NumLock 24 ноя 2021 в 12:55

На этом этапе мы можем сделать отсеивание информации.

Слишком много информации для нейронки. Напрашиваются dynamic range compression или хотя бы threshold фильтр.

TripleAVerAlpha 24 ноя 2021 в 14:09

Честно не очень понял ваш комментарий, если говорить о размере входной информации, то DRC не поможет, вед он работает с амплитудой сигнала (как я понимаю), с другой стороны конечно, мы не можем подать на вход 20 000 параметров только для одного маленького "окна" и в общем-то при генерации спектрограммы мы можем задать кол-во выходных параметров, которое я использовал 256

NumLock 24 ноя 2021 в 15:03

Для сравнения, в классическом варианте примеров нейронке скармливают картинку 28х28. Сравните со своим сэмплом. Он намного больше.

По возможности нужно сузить амплитуду, вырезать частотный диапазон и через трешхолд уменьшить квантование. Полученную "картинку" можно пропустить через дополнительный графический edge фильтр. После этого, уменьшив размер сэмплов до разумных пределов, эти данные "скормить" нейронке, чтобы она адекватно обучалась.

andreykour 24 ноя 2021 в 15:41

не буду оригинальным, но есть же библиотека vosk от alphacephei.com, она работает локально, и будет распознавать не только ваш голос, но и других людей.

AndyKorg 26 ноя 2021 в 05:53

Локальное распознавание голоса и лица есть на чипе esp32. К примеру вотЪ

Зарегистрируйтесь на Хабре, чтобы оставить комментарий