Совсем недавно приобрел Яндекс.Станцию Мини. Если, кто не знает, это — маленькая умная колонка, управляемая голосом и жестами. Внутри — голосовой помощник Алиса: она включает музыку, отвечает на вопросы и выполняет поручения. Приобреталась как «умный радиоприемник» на кухню, последующего создания умного дома со своими навыками.
![](https://habrastorage.org/r/w780q1/webt/5t/vy/u4/5tvyu4efv3tjaq6ejcrwe-kttgi.jpeg)
После «спаривания» с операционными системами Winodows 7, 10, Ubuntu 16.04, вдоволь поигравшись с ее возможностями, ознакомился с официальной документацией.
![](https://habrastorage.org/r/w1560/webt/8j/fw/jh/8jfwjhta3f3h5foe3tuy4lsrk0u.png)
![](https://habrastorage.org/r/w1560/webt/8z/qr/ts/8zqrts6kbgdt96wbc-qurwkormk.png)
После прочтения очень сильно расстроился. С одной стороны — потрясающие возможности речевого управления, создания навыков, умного дома. С другой стороны, используя возможности зарядки от USB 3.0 порта ноутбука, — получаем пульт голосового управления с радиусом дальнобойности хорошей точки Wi-Fi, без особых ухищрений — до 100 метров!
Решил проверить кодовую фразу на колонке, спаренной по Bluetooth с компьютером. «Алиса, включи радио „Маяк“. И радио запело… И параллельно шел звук с компьютера. В итоге, официальная документация опровергнута, устройство с августа 2020 получило новые возможности. Для двух потоков рекомендуется командовать одним потоком как обычно, командами Алисы, потоком по Bluetooth можно управлять регуляторами громкости компьютера, так же задействовав беспроводную клавиатуру с клавишами управления, либо, если есть, отдельными кнопками управления громкости ноутбука с торца устройства.
У кого еще получится провести такой эксперимент?
UPD1. Для анализа, почему есть проблемы с женскими голосами при управлении умной колонкой приведу несколько графиков.
![](https://habrastorage.org/r/w780q1/webt/lp/pz/8p/lppz8pb8fjyatmgopzzo6vdokpc.jpeg)
Это график усредненной мощности 20 дикторов русского языка. Как вы видите, речь сильно неравномерна, спектральная плотность сконцентрирована в районе 200...600 Герц.
(илл. взята из „Учебных материалов ОКСО 210000. Электронная техника, радиотехника и связь. Лекции для преподавателей и студентов ВУЗ.“ 3. Речеобразование и характеристики речи)
Теперь посмотрим, чем умная колонка нас слушает.
![](https://habrastorage.org/r/w780q1/webt/ez/v0/gb/ezv0gbrungs7hvo3u2d5wyc0luk.jpeg)
(взято из видео, пользователь Ютуб Prokhor Ponomarev, пост Измерение АЧХ с помощью iPad, против Behringer ECM8000.
Нас интересует синяя кривая. Это — АЧХ микрофона iPad 4, в принципе, это тот эталон, к которому могла бы стремиться умная колонка. Но такого, скорее всего, за такую цену в нее просто не вложили программно.
Отсюда автор делает вывод. Посмотрите внимательно на графики: мужчины могут говорить команду в нижнем диапазоне речи, и, в силу большей выдыхаемой массы, „дышать ровнее“, при отдаче команды. У женщин — выше средняя частота голоса, наличие большего количества негармонических звуков не позволяет попасть на равномерное плато чувствительность массива из 4-х микрофонов. Отсюда простой бытовой вывод — для женского голоса надо отключать эмоции, стараться говорить „с мужской энергетикой“ баса, опуская нижнюю форманту.
Еще был проведен ряд косвенных измерений голоса, на которых тренировалась распознающая система. Пока общий вывод — она тренировалась на мужских голосах.
Под спойлером несколько технических скриншотов по подключению Яндекс.Станции Мини к Windows.
![](https://habrastorage.org/webt/5t/vy/u4/5tvyu4efv3tjaq6ejcrwe-kttgi.jpeg)
После «спаривания» с операционными системами Winodows 7, 10, Ubuntu 16.04, вдоволь поигравшись с ее возможностями, ознакомился с официальной документацией.
Использовать Станцию Мини как музыкальную колонку
На Станцию Мини можно транслировать музыку с компьютера, планшета или смартфона через Bluetooth — как на обычную беспроводную колонку:
Скажите: «Алиса, включи Bluetooth» или нажмите кнопку отключения микрофонов и удерживайте ее пять секунд, пока подсветка Станции Мини не замигает.
Включите Bluetooth на компьютере, планшете или смартфоне и запустите поиск устройств Bluetooth.
В списке выберите Станцию Мини и включите музыку.
Пока Станция Мини играет музыку через Bluetooth, Алиса вас не слышит. Чтобы выйти из режима трансляции, разорвите соединение на стороне вашего компьютера, смартфона или планшета.
![](https://habrastorage.org/webt/8j/fw/jh/8jfwjhta3f3h5foe3tuy4lsrk0u.png)
![](https://habrastorage.org/webt/8z/qr/ts/8zqrts6kbgdt96wbc-qurwkormk.png)
После прочтения очень сильно расстроился. С одной стороны — потрясающие возможности речевого управления, создания навыков, умного дома. С другой стороны, используя возможности зарядки от USB 3.0 порта ноутбука, — получаем пульт голосового управления с радиусом дальнобойности хорошей точки Wi-Fi, без особых ухищрений — до 100 метров!
Решил проверить кодовую фразу на колонке, спаренной по Bluetooth с компьютером. «Алиса, включи радио „Маяк“. И радио запело… И параллельно шел звук с компьютера. В итоге, официальная документация опровергнута, устройство с августа 2020 получило новые возможности. Для двух потоков рекомендуется командовать одним потоком как обычно, командами Алисы, потоком по Bluetooth можно управлять регуляторами громкости компьютера, так же задействовав беспроводную клавиатуру с клавишами управления, либо, если есть, отдельными кнопками управления громкости ноутбука с торца устройства.
У кого еще получится провести такой эксперимент?
UPD1. Для анализа, почему есть проблемы с женскими голосами при управлении умной колонкой приведу несколько графиков.
![](https://habrastorage.org/webt/lp/pz/8p/lppz8pb8fjyatmgopzzo6vdokpc.jpeg)
Это график усредненной мощности 20 дикторов русского языка. Как вы видите, речь сильно неравномерна, спектральная плотность сконцентрирована в районе 200...600 Герц.
(илл. взята из „Учебных материалов ОКСО 210000. Электронная техника, радиотехника и связь. Лекции для преподавателей и студентов ВУЗ.“ 3. Речеобразование и характеристики речи)
Теперь посмотрим, чем умная колонка нас слушает.
![](https://habrastorage.org/webt/ez/v0/gb/ezv0gbrungs7hvo3u2d5wyc0luk.jpeg)
(взято из видео, пользователь Ютуб Prokhor Ponomarev, пост Измерение АЧХ с помощью iPad, против Behringer ECM8000.
Нас интересует синяя кривая. Это — АЧХ микрофона iPad 4, в принципе, это тот эталон, к которому могла бы стремиться умная колонка. Но такого, скорее всего, за такую цену в нее просто не вложили программно.
Отсюда автор делает вывод. Посмотрите внимательно на графики: мужчины могут говорить команду в нижнем диапазоне речи, и, в силу большей выдыхаемой массы, „дышать ровнее“, при отдаче команды. У женщин — выше средняя частота голоса, наличие большего количества негармонических звуков не позволяет попасть на равномерное плато чувствительность массива из 4-х микрофонов. Отсюда простой бытовой вывод — для женского голоса надо отключать эмоции, стараться говорить „с мужской энергетикой“ баса, опуская нижнюю форманту.
Еще был проведен ряд косвенных измерений голоса, на которых тренировалась распознающая система. Пока общий вывод — она тренировалась на мужских голосах.
Под спойлером несколько технических скриншотов по подключению Яндекс.Станции Мини к Windows.
Подключение Яндекс.Станции Мини к Windows
![](https://habrastorage.org/r/w1560/webt/my/pf/e1/mypfe1tlc4lwxnhonu0tav9ptp8.png)
Колонка установилась в Windows.
![](https://habrastorage.org/r/w1560/webt/jq/fd/3o/jqfd3orgrbcda3sxvajnpgff928.png)
Структура установившихся драйверов. Ого! Qualcomm внутри!
![](https://habrastorage.org/r/w1560/webt/ml/pg/oq/mlpgoqumelojadmca_2fqdo-xpm.png)
Колонка установлена в режим работы с двумя звуками.
![](https://habrastorage.org/webt/my/pf/e1/mypfe1tlc4lwxnhonu0tav9ptp8.png)
Колонка установилась в Windows.
![](https://habrastorage.org/webt/jq/fd/3o/jqfd3orgrbcda3sxvajnpgff928.png)
Структура установившихся драйверов. Ого! Qualcomm внутри!
![](https://habrastorage.org/webt/ml/pg/oq/mlpgoqumelojadmca_2fqdo-xpm.png)
Колонка установлена в режим работы с двумя звуками.