Комментарии / Профиль coal / Хабр

Пользователь

Подписчики

Amazon Echo Dot vs. Google Home Mini — какой помощник лучше?

coal 22 мая 2018 в 10:37

я совсем не профессионал в этой области (но профессиональный программист). И захотев сделать себе умный я дом, я размечтался. Но только до тех пор, пока не узнал, что действительно алгоритмы распознавания голоса находятся на уровне чуть выше нуля и дают очень много ошибок. Нормальных алгоритмов нет — все что есть сравнивают среднее по больнице со средним по поликлинике. И если с некоторой вероятностью совпало — то принимается.

Беда в том, что если берем ключевое слово например «Колокол», то повторим его раз 10 получим отклонение в 10 у.е
А потом скажем слово «раз» и получим такое отклонение… И какие только методики я не перепробовал… Есть еще задумки — но в целом всё печально, а я ведь использовал классические алгоритмы из диссертаций с DWT и MFCC и их улучшения.

Только обученная на сотнях тысяч примеров нейросеть справляется, и то не всегда. А так даже не получается сравнить звуковой вход с записанным ранее шаблоном — не придумали как и всё тут…

Вот как раз сетевые сервисы Гугл, Майкрософт и Яндекс — они на нейросетях. Но, заразы, платные и существенно. Бесплатно только от часа до 10 часов в месяц, а значит непрерывный стримминг 24 часа в сутки туда не сделать. А по месту с распознаванием ключевого слова проблема.

Это проблемы только одного микрофона. А если их десяток — проблема усугбляется. Попробуйте положить два телефона в комнате и произнесите «Ок, гугл», они оба начнут слушать вас и оба исполнять команды. Та же ситуация, думаю, с описанными в статье устройствами.

Amazon Echo Dot vs. Google Home Mini — какой помощник лучше?

coal 22 мая 2018 в 06:03

Казалось бы, что сложного распознать голос… Однако вы один раз произнесете «ок гугл» с одними вокальными характеристиками, а второй раз — с другими. И их математически не сопоставить никак, они совсем разные. Математических алгоритмов нормальных нет даже для сравнения с шаблоном. Нормально распознается только хорошо обученной нейросетью, а это доступно только корпорациям.

Вот именно за это сравнение «ок гугл» и берут деньги в этих устройствах на самом деле.

Amazon Echo Dot vs. Google Home Mini — какой помощник лучше?

coal 22 мая 2018 в 05:55

Вот, посмотрите, звуковая иллюзия. Половина людей слышат Йенни, а половина Лорел. Причем лично я каждый день слышу разное.

www.youtube.com/watch?v=7ID87yKEYfI

Если даже люди не могут нормально распознавать — то техника тем более. В видео ниже объяснение почему так

youtu.be/74FOb0ezemc?t=1m41s

Amazon Echo Dot vs. Google Home Mini — какой помощник лучше?

coal 22 мая 2018 в 05:50

Дело в том, что алгоритмический на данный момент невозможно выделить понятие «шум» из звукового потока. Для техники такого понятия не существует и пока не научили… В принципе я для себя, пока пробовал свой кейспоттинг, делал так: каждую секунду анализирую текущий уровень звука и считаю его шумом (тишиной). Все, что выше этого порога — принимается к распознаванию.

Других вариантов найти не смог. Если голос ниже шума (болтающий ТВ) — тут ничего, на мой взгляд, сделать не получится. Или если два человека в комнате говорят между собой, а потом зашел третий и сказал «хей гу гу» — тоже техника с ума сойдет такое распознать. А уж если в комнате дискотека или хотя бы приятная фоновая музыка играет и ты хочешь скомандовать «сделай потише» — тут и наступит облом. Потому что ты от микрофона далеко, а колонки тоже у потолка и поближе. То есть шумом в данном случае становится твой голос, а не музыка.

Вот таких нюансов множество и почти все они не будут работать (я не проверял это по факту, мне хватило того, что реализованный мной кейспоттинг был нерабочим, а я применял лучшие известные на сегодня методики распознавания). В общем, железка просто не знает что есть «голос», а что есть «шум». И даже люди этого не знают пока для себя

Amazon Echo Dot vs. Google Home Mini — какой помощник лучше?

coal 22 мая 2018 в 05:12

Мне тоже так казалось и я мечтал, как нашпигую дом микрофонами и дело в шляпе… Однако сложность тут техническая: стримить звуковой поток (16 тыс семплов в секунду с каждого устройства) на веб-сервис, чтобы тот распознавал на лету — это безумно дорого, бесплатная подписка 10 часов в месяц, а за остальное придется очень дорого доплатить.

Поэтому применяют кейспоттинг, распознавая ключевое слово по месту, потом стримя семпл на веб-сервис. В этом кейспоттинге и проблема. Нужно эти 16 тыс семплов в секунду синхронизировать на каждом устройстве. Если их десять, то это 160 тыс на каждом устройстве и 1.6 млн суммарно байт в секунду сетевого обмена и такая же загрузка процессоров, где она вся уйдет на сетевой обмен.

Только при таком подходе можно найти к какому ты устройству ближе, но устройства типа RPI такое не будут держать, полагаю, производительности не хватит, по крайней мере на Windows 10 IoT, а надо ведь и другие задачи делать. Кроме того, оно будет работать только в идеальном случае, когда ты один дома и тихо. А если комнаты смежные, в одной комнате один человек командует, в другой комнате — другой командует, делают они это не синхронно, а в холле телевизор болтает — тут вся система микрофонов и откажет… Из-за несовершенства алгоритмов даже такого примитивного распознавания ключевого слова. Нет пока алгоритмов, эта задача распознавания не решена пока на нормальном уровне, достаточном для использования хотя бы с допустимым числом ошибок. А без споттинга цена решения настолько дорога — что в принципе непрактична даже для собственного умного дома.

Собственно, вся фишка описанных выше устройств — это данный кейворд споттинг, где вся цена платится за правильную реакцию на «ок, гугл» и даже на «хей, гу гу!», благодаря нейросети, натренированной на миллионах семплов. Но и это только на одном устройстве, причем близко к нему (выше уровня шума).

В общем, пока это всё игрушка. Пока не будет найдено психоакустических алгоритмов или не будет выложена альтруистами нейросеть на миллиарде семплов с распознаванием голоса сильно ниже уровня шума.

Amazon Echo Dot vs. Google Home Mini — какой помощник лучше?

coal 21 мая 2018 в 20:29

про установку на RPI3 интересно, я делал на Windows 10 IoT подобное, программа на c#, с использованием веб-сервиса гугл (а также яндекс и майкрософт). Сложного тут ничего нет, но есть проблема — это всё платное в использовании, а число бесплатных запросов ограничено.

Кроме того, оно всё работает так себе, если не говорить прямо в рупор, а расположить устройство под потолком в большой комнате. А если еще и ТВ включен… С этим большая проблема и алгоритмов распознавания голоса хозяина с отделением от шума пока не создано, насколько мне известно. То есть пока это просто игрушка, непрактичная, поиграться недельку и забросить. Потому что перед ее использованием надо выключить ТВ, подойти к ней, прокричать в рупор, заплатить за это, еще и с русским дела хуже, чем с английским.

Но через пару лет ситуация будет много лучше, полагаю.

Роскомнадзор снимает блокаду. Пострадавшие могут подавать в суд

coal 28 апр 2018 в 13:26

Это для вас он герой, но довольно приличная часть России не очень поняла что это было. И на всякий случай устроили вуду

www.youtube.com/watch?v=rSgd6jQekHQ

Учёные продержали мозг свиньи в живом состоянии 36 часов после обезглавливания

coal 28 апр 2018 в 06:24

И вот оно, пришло беляевское будущее — от головы свиньи к голове профессора Доуэля. Правда есть мнение, что как раз электричество в теле и является тем, что называют «живой».

EmDrive — это просто

coal 26 апр 2018 в 13:11

вопрос «почему» наукой вполне рассматривается. Сначала наука фиксирует факты, наблюдения. Затем создается теория, которая описывает посредством чего происходит то или иное наблюдаемое явление, его механику. Об этом я и написал — вы не сможете описать этот механизм, так как он пока неизвестен. Но зато, не подумав, отсылаете к школьным учебникам…

EmDrive — это просто

coal 23 апр 2018 в 19:26

Дело в том, что в учебниках оно дается как эмпирический факт. То есть наблюдаемый. А вот причину явления вряд ли кто-то сможет описать. В виде — почему движение электронов приводит к возникновению поля. И почему переменное поле (нематериальное) приводит к току физических (материальных) электронов в проводнике. Это наблюдаемый экспериментальный факт, да, он не оспаривается. А вот причина этого вряд ли кому-то понятна и вряд ли где-то описана. Хотя, я просто, как дилетант, могу не знать — но это точно описано не в школьных учебниках.

-1

EmDrive — это просто

coal 23 апр 2018 в 19:14

UPD: Хотя почитал ваши комментарии по поводу всякого экстрасенсорного… пожалуй, тут беседа «в одну калитку будет»…

И, опять же, по той теме (и теме предвзятости)… Как вы относитесь к тому, что во времена СССР Ленинградским Государственным Ленинским Университетом по распоряжению руководства была выпущена научная книга экспериментального исследования телепатии посредством электромагнетизма, как среды передачи? Книга указана в комментариях той темы. Вот она

Экспериментальные исследования мысленного внушения

Это научная книга, выпущенная научным заведением. С корректно поставленными экспериментами.

EmDrive — это просто

coal 23 апр 2018 в 19:09

Раз вы уделили мне время благосклонно — можно ли еще спросить, как импульс относится к току и напряжению? Я не оспариваю это, правда не понимаю. В формуловке импульса ведь фигурирует масса? Но как масса (материальное) связана с током (нематериальное, электромагнетизм)?

Прошу понять, я не хочу спорить, просто интересно, как дилетанту.

EmDrive — это просто

coal 23 апр 2018 в 19:04

UPD: Хотя почитал ваши комментарии по поводу всякого экстрасенсорного… пожалуй, тут беседа «в одну калитку будет»…

попробуйте почитать непредвзято ту ветку. Ведь в этой ветке вы ошиблись, не поняв, что хотел сказать автор, а все перевернув наизнанку (автор здесь доказал, что EmDrive не работает, пока комментаторы думали, что он доказывает обратное). Может быть вы ошиблись и в интерпретации тех комментариев и речь там шла не о магии и экстрасенсорике? Как знать…

EmDrive — это просто

coal 23 апр 2018 в 18:59

Я не профессионал в данной области, не очень помню физику. И сам, к примеру, верного ответа почему так быть не может — дать не мог. Но увидел в комментариях ответ, что ток переменный и, следовательно, знак силы будет меняться, давая суммарно нулевую тягу. Возможно, статья, как и задачка была для таких, как я (не забываем, что профессионалом во всем быть нельзя, каждый спец в своей области). Хотя, дебют, конечно, был не самый удачный, такие розыгрыши может позволить себе только мастистый автор, а новичка конечно заминусуют…

EmDrive — это просто

coal 23 апр 2018 в 18:50

прочитайте пожалуйста постскриптум, автор дописал. Он на самом деле описал в статье, что EmDrive не работает, и он это проверил экспериментально. При этом, случайно или намеренно, он всех развел (задал задачку на подумать почему не работает, всего лишь не написав результат своего эксперимента и дописав это только сейчас). Но в целом видно, что человек адекватный и с хорошей теоретической подготовкой, а сама статья была просто ошибочно интерпретирована комментаторами. Неплохой урок в чем-то… Не спешить осуждать, а просто поправить человека, если он ошибся (не в данном случае).

EmDrive — это просто

coal 23 апр 2018 в 18:45

извините, ошибся веткой для ответа

EmDrive — это просто

coal 23 апр 2018 в 18:13

Занятно, что теории мультивселенных, повсеместно публикуемые на гиктаймс, не вызывают никаких нареканий, а вызывают сплошную радость и положительную карму. А идею примерно того же рода заминусовали в плинтус. Хоть бы объяснили автору в чем ошибка заключается, а то как-то голословно минуса выглядят.

-1

ДНК глазами программиста

coal 19 фев 2018 в 20:21

Несмотря на абсолютную логичность ваших доводов про самоорганизацию — ваш оппонент точно так же прав, как и вы. Данный парадокс вполне успешно решается, нужно всего лишь выйти в область над-логики.
1 ступень логики: ИЛИ-ИЛИ
2 ступень: И-И
3 ступень: НИ-НИ
4 ступень: И-И и НИ-НИ

Парадокс действительно имеет решение и когда вы найдете его решение в синтезе — это будет одно из самых ярких открытий в вашей жизни.

с уважением

Человеческое сознание. Перенести нельзя скопировать?

coal 22 дек 2017 в 08:52

Разверну мысль поподробнее… Коллективное бессознательное (термин, введенный Юнгом) — это ничто иное как тело. Оно состоит из триллиона клеток, которые выросли из одной клетки и решили затусить. Коллективно. А бессознательное — потому что мы не осознаем это, они сами там что-то делают себе, но при этом все работает на удивление слаженно чаще всего.

Психика — это нервная система, опять же развернутая той же молекулой днк и в процессе жизни копирующая внешний мир, создающая его слепок. Можно сказать — нейросеть. Но в нейросетях сознания нет, это просто копии, как и нервная система.

До сего момента всё сказанное — биологическое. А вот сознание — это уже интересный момент. Какая-то общеобразующая единица одновременно и для коллективного бессознательного (набора клеток) и для нервной системы и психики — сила, которая заставляет всё работает вместе и слаженно.

Здесь идея такая, что мыслим мы посредством тока в наших проводах — он дает возможность мыслить. Ток создает электромагнитное поле по законам физики, которое мы излучаем — поле дает возможность триллиону клеток находиться в общей работе.

Но что, если каким-то образом ток и электромагнитное поле человека могут создать некоторую структуру (со-знание, совместное знание мысли и бессознательного), которая сможет не распасться после смерти? Естественно, ее образование происходит только в процессе жизни и структура с тем же успехом может быть и не образована, тогда человек остается приматом, без сознания.

Здесь может быть возражение, мол, энергию и для тока, и для поля мы получаем химическую и получение ее со смертью прекращается. Но ведь электромагнетизма окружающего полным полно, где искусственный электромагнетизм (радио, тв, сотовые волны) всего лишь крошечная доля. И электромагнитная структура вполне может питаться полем Земли, например.

Человеческое сознание. Перенести нельзя скопировать?

coal 22 дек 2017 в 08:21

Если считать, что «я» полностью биологическое — то действительно всё написано по делу. Но некоторый практически опыт, оцененный максимально критически, заставляет думать, что возможно не только биологическое.

Что вы думаете, например, о форме существования «я» в виде электромагнитной нераспадающейся структуры? Например, в ИК-диапазоне человек излучает 100-900Вт электромагнитного излучения около 30-40 ТГц. В других диапазонах наверное тоже излучает — и это тоже электромагнетизм.

К сожалению, я пока не смог за всё время найти открытий о существовании нераспадающейся электромагнитной структуры, но тема достаточно интересная для раздумий.

1 2