Совсем недавно приобрел Яндекс.Станцию Мини. Если, кто не знает, это — маленькая умная колонка, управляемая голосом и жестами. Внутри — голосовой помощник Алиса: она включает музыку, отвечает на вопросы и выполняет поручения. Приобреталась как «умный радиоприемник» на кухню, последующего создания умного дома со своими навыками.
После «спаривания» с операционными системами Winodows 7, 10, Ubuntu 16.04, вдоволь поигравшись с ее возможностями, ознакомился с официальной документацией.
После прочтения очень сильно расстроился. С одной стороны — потрясающие возможности речевого управления, создания навыков, умного дома. С другой стороны, используя возможности зарядки от USB 3.0 порта ноутбука, — получаем пульт голосового управления с радиусом дальнобойности хорошей точки Wi-Fi, без особых ухищрений — до 100 метров!
Решил проверить кодовую фразу на колонке, спаренной по Bluetooth с компьютером. «Алиса, включи радио „Маяк“. И радио запело… И параллельно шел звук с компьютера. В итоге, официальная документация опровергнута, устройство с августа 2020 получило новые возможности. Для двух потоков рекомендуется командовать одним потоком как обычно, командами Алисы, потоком по Bluetooth можно управлять регуляторами громкости компьютера, так же задействовав беспроводную клавиатуру с клавишами управления, либо, если есть, отдельными кнопками управления громкости ноутбука с торца устройства.
У кого еще получится провести такой эксперимент?
UPD1. Для анализа, почему есть проблемы с женскими голосами при управлении умной колонкой приведу несколько графиков.
Это график усредненной мощности 20 дикторов русского языка. Как вы видите, речь сильно неравномерна, спектральная плотность сконцентрирована в районе 200...600 Герц.
(илл. взята из „Учебных материалов ОКСО 210000. Электронная техника, радиотехника и связь. Лекции для преподавателей и студентов ВУЗ.“ 3. Речеобразование и характеристики речи)
Теперь посмотрим, чем умная колонка нас слушает.
(взято из видео, пользователь Ютуб Prokhor Ponomarev, пост Измерение АЧХ с помощью iPad, против Behringer ECM8000.
Нас интересует синяя кривая. Это — АЧХ микрофона iPad 4, в принципе, это тот эталон, к которому могла бы стремиться умная колонка. Но такого, скорее всего, за такую цену в нее просто не вложили программно.
Отсюда автор делает вывод. Посмотрите внимательно на графики: мужчины могут говорить команду в нижнем диапазоне речи, и, в силу большей выдыхаемой массы, „дышать ровнее“, при отдаче команды. У женщин — выше средняя частота голоса, наличие большего количества негармонических звуков не позволяет попасть на равномерное плато чувствительность массива из 4-х микрофонов. Отсюда простой бытовой вывод — для женского голоса надо отключать эмоции, стараться говорить „с мужской энергетикой“ баса, опуская нижнюю форманту.
Еще был проведен ряд косвенных измерений голоса, на которых тренировалась распознающая система. Пока общий вывод — она тренировалась на мужских голосах.
Под спойлером несколько технических скриншотов по подключению Яндекс.Станции Мини к Windows.
После «спаривания» с операционными системами Winodows 7, 10, Ubuntu 16.04, вдоволь поигравшись с ее возможностями, ознакомился с официальной документацией.
Использовать Станцию Мини как музыкальную колонку
На Станцию Мини можно транслировать музыку с компьютера, планшета или смартфона через Bluetooth — как на обычную беспроводную колонку:
Скажите: «Алиса, включи Bluetooth» или нажмите кнопку отключения микрофонов и удерживайте ее пять секунд, пока подсветка Станции Мини не замигает.
Включите Bluetooth на компьютере, планшете или смартфоне и запустите поиск устройств Bluetooth.
В списке выберите Станцию Мини и включите музыку.
Пока Станция Мини играет музыку через Bluetooth, Алиса вас не слышит. Чтобы выйти из режима трансляции, разорвите соединение на стороне вашего компьютера, смартфона или планшета.
После прочтения очень сильно расстроился. С одной стороны — потрясающие возможности речевого управления, создания навыков, умного дома. С другой стороны, используя возможности зарядки от USB 3.0 порта ноутбука, — получаем пульт голосового управления с радиусом дальнобойности хорошей точки Wi-Fi, без особых ухищрений — до 100 метров!
Решил проверить кодовую фразу на колонке, спаренной по Bluetooth с компьютером. «Алиса, включи радио „Маяк“. И радио запело… И параллельно шел звук с компьютера. В итоге, официальная документация опровергнута, устройство с августа 2020 получило новые возможности. Для двух потоков рекомендуется командовать одним потоком как обычно, командами Алисы, потоком по Bluetooth можно управлять регуляторами громкости компьютера, так же задействовав беспроводную клавиатуру с клавишами управления, либо, если есть, отдельными кнопками управления громкости ноутбука с торца устройства.
У кого еще получится провести такой эксперимент?
UPD1. Для анализа, почему есть проблемы с женскими голосами при управлении умной колонкой приведу несколько графиков.
Это график усредненной мощности 20 дикторов русского языка. Как вы видите, речь сильно неравномерна, спектральная плотность сконцентрирована в районе 200...600 Герц.
(илл. взята из „Учебных материалов ОКСО 210000. Электронная техника, радиотехника и связь. Лекции для преподавателей и студентов ВУЗ.“ 3. Речеобразование и характеристики речи)
Теперь посмотрим, чем умная колонка нас слушает.
(взято из видео, пользователь Ютуб Prokhor Ponomarev, пост Измерение АЧХ с помощью iPad, против Behringer ECM8000.
Нас интересует синяя кривая. Это — АЧХ микрофона iPad 4, в принципе, это тот эталон, к которому могла бы стремиться умная колонка. Но такого, скорее всего, за такую цену в нее просто не вложили программно.
Отсюда автор делает вывод. Посмотрите внимательно на графики: мужчины могут говорить команду в нижнем диапазоне речи, и, в силу большей выдыхаемой массы, „дышать ровнее“, при отдаче команды. У женщин — выше средняя частота голоса, наличие большего количества негармонических звуков не позволяет попасть на равномерное плато чувствительность массива из 4-х микрофонов. Отсюда простой бытовой вывод — для женского голоса надо отключать эмоции, стараться говорить „с мужской энергетикой“ баса, опуская нижнюю форманту.
Еще был проведен ряд косвенных измерений голоса, на которых тренировалась распознающая система. Пока общий вывод — она тренировалась на мужских голосах.
Под спойлером несколько технических скриншотов по подключению Яндекс.Станции Мини к Windows.
Подключение Яндекс.Станции Мини к Windows
Колонка установилась в Windows.
Структура установившихся драйверов. Ого! Qualcomm внутри!
Колонка установлена в режим работы с двумя звуками.
Колонка установилась в Windows.
Структура установившихся драйверов. Ого! Qualcomm внутри!
Колонка установлена в режим работы с двумя звуками.