я совсем не профессионал в этой области (но профессиональный программист). И захотев сделать себе умный я дом, я размечтался. Но только до тех пор, пока не узнал, что действительно алгоритмы распознавания голоса находятся на уровне чуть выше нуля и дают очень много ошибок. Нормальных алгоритмов нет — все что есть сравнивают среднее по больнице со средним по поликлинике. И если с некоторой вероятностью совпало — то принимается.
Беда в том, что если берем ключевое слово например «Колокол», то повторим его раз 10 получим отклонение в 10 у.е
А потом скажем слово «раз» и получим такое отклонение… И какие только методики я не перепробовал… Есть еще задумки — но в целом всё печально, а я ведь использовал классические алгоритмы из диссертаций с DWT и MFCC и их улучшения.
Только обученная на сотнях тысяч примеров нейросеть справляется, и то не всегда. А так даже не получается сравнить звуковой вход с записанным ранее шаблоном — не придумали как и всё тут…
Вот как раз сетевые сервисы Гугл, Майкрософт и Яндекс — они на нейросетях. Но, заразы, платные и существенно. Бесплатно только от часа до 10 часов в месяц, а значит непрерывный стримминг 24 часа в сутки туда не сделать. А по месту с распознаванием ключевого слова проблема.
Это проблемы только одного микрофона. А если их десяток — проблема усугбляется. Попробуйте положить два телефона в комнате и произнесите «Ок, гугл», они оба начнут слушать вас и оба исполнять команды. Та же ситуация, думаю, с описанными в статье устройствами.
Казалось бы, что сложного распознать голос… Однако вы один раз произнесете «ок гугл» с одними вокальными характеристиками, а второй раз — с другими. И их математически не сопоставить никак, они совсем разные. Математических алгоритмов нормальных нет даже для сравнения с шаблоном. Нормально распознается только хорошо обученной нейросетью, а это доступно только корпорациям.
Вот именно за это сравнение «ок гугл» и берут деньги в этих устройствах на самом деле.
Дело в том, что алгоритмический на данный момент невозможно выделить понятие «шум» из звукового потока. Для техники такого понятия не существует и пока не научили… В принципе я для себя, пока пробовал свой кейспоттинг, делал так: каждую секунду анализирую текущий уровень звука и считаю его шумом (тишиной). Все, что выше этого порога — принимается к распознаванию.
Других вариантов найти не смог. Если голос ниже шума (болтающий ТВ) — тут ничего, на мой взгляд, сделать не получится. Или если два человека в комнате говорят между собой, а потом зашел третий и сказал «хей гу гу» — тоже техника с ума сойдет такое распознать. А уж если в комнате дискотека или хотя бы приятная фоновая музыка играет и ты хочешь скомандовать «сделай потише» — тут и наступит облом. Потому что ты от микрофона далеко, а колонки тоже у потолка и поближе. То есть шумом в данном случае становится твой голос, а не музыка.
Вот таких нюансов множество и почти все они не будут работать (я не проверял это по факту, мне хватило того, что реализованный мной кейспоттинг был нерабочим, а я применял лучшие известные на сегодня методики распознавания). В общем, железка просто не знает что есть «голос», а что есть «шум». И даже люди этого не знают пока для себя
Мне тоже так казалось и я мечтал, как нашпигую дом микрофонами и дело в шляпе… Однако сложность тут техническая: стримить звуковой поток (16 тыс семплов в секунду с каждого устройства) на веб-сервис, чтобы тот распознавал на лету — это безумно дорого, бесплатная подписка 10 часов в месяц, а за остальное придется очень дорого доплатить.
Поэтому применяют кейспоттинг, распознавая ключевое слово по месту, потом стримя семпл на веб-сервис. В этом кейспоттинге и проблема. Нужно эти 16 тыс семплов в секунду синхронизировать на каждом устройстве. Если их десять, то это 160 тыс на каждом устройстве и 1.6 млн суммарно байт в секунду сетевого обмена и такая же загрузка процессоров, где она вся уйдет на сетевой обмен.
Только при таком подходе можно найти к какому ты устройству ближе, но устройства типа RPI такое не будут держать, полагаю, производительности не хватит, по крайней мере на Windows 10 IoT, а надо ведь и другие задачи делать. Кроме того, оно будет работать только в идеальном случае, когда ты один дома и тихо. А если комнаты смежные, в одной комнате один человек командует, в другой комнате — другой командует, делают они это не синхронно, а в холле телевизор болтает — тут вся система микрофонов и откажет… Из-за несовершенства алгоритмов даже такого примитивного распознавания ключевого слова. Нет пока алгоритмов, эта задача распознавания не решена пока на нормальном уровне, достаточном для использования хотя бы с допустимым числом ошибок. А без споттинга цена решения настолько дорога — что в принципе непрактична даже для собственного умного дома.
Собственно, вся фишка описанных выше устройств — это данный кейворд споттинг, где вся цена платится за правильную реакцию на «ок, гугл» и даже на «хей, гу гу!», благодаря нейросети, натренированной на миллионах семплов. Но и это только на одном устройстве, причем близко к нему (выше уровня шума).
В общем, пока это всё игрушка. Пока не будет найдено психоакустических алгоритмов или не будет выложена альтруистами нейросеть на миллиарде семплов с распознаванием голоса сильно ниже уровня шума.
про установку на RPI3 интересно, я делал на Windows 10 IoT подобное, программа на c#, с использованием веб-сервиса гугл (а также яндекс и майкрософт). Сложного тут ничего нет, но есть проблема — это всё платное в использовании, а число бесплатных запросов ограничено.
Кроме того, оно всё работает так себе, если не говорить прямо в рупор, а расположить устройство под потолком в большой комнате. А если еще и ТВ включен… С этим большая проблема и алгоритмов распознавания голоса хозяина с отделением от шума пока не создано, насколько мне известно. То есть пока это просто игрушка, непрактичная, поиграться недельку и забросить. Потому что перед ее использованием надо выключить ТВ, подойти к ней, прокричать в рупор, заплатить за это, еще и с русским дела хуже, чем с английским.
Но через пару лет ситуация будет много лучше, полагаю.
И вот оно, пришло беляевское будущее — от головы свиньи к голове профессора Доуэля. Правда есть мнение, что как раз электричество в теле и является тем, что называют «живой».
вопрос «почему» наукой вполне рассматривается. Сначала наука фиксирует факты, наблюдения. Затем создается теория, которая описывает посредством чего происходит то или иное наблюдаемое явление, его механику. Об этом я и написал — вы не сможете описать этот механизм, так как он пока неизвестен. Но зато, не подумав, отсылаете к школьным учебникам…
Дело в том, что в учебниках оно дается как эмпирический факт. То есть наблюдаемый. А вот причину явления вряд ли кто-то сможет описать. В виде — почему движение электронов приводит к возникновению поля. И почему переменное поле (нематериальное) приводит к току физических (материальных) электронов в проводнике. Это наблюдаемый экспериментальный факт, да, он не оспаривается. А вот причина этого вряд ли кому-то понятна и вряд ли где-то описана. Хотя, я просто, как дилетант, могу не знать — но это точно описано не в школьных учебниках.
UPD: Хотя почитал ваши комментарии по поводу всякого экстрасенсорного… пожалуй, тут беседа «в одну калитку будет»…
И, опять же, по той теме (и теме предвзятости)… Как вы относитесь к тому, что во времена СССР Ленинградским Государственным Ленинским Университетом по распоряжению руководства была выпущена научная книга экспериментального исследования телепатии посредством электромагнетизма, как среды передачи? Книга указана в комментариях той темы. Вот она
Раз вы уделили мне время благосклонно — можно ли еще спросить, как импульс относится к току и напряжению? Я не оспариваю это, правда не понимаю. В формуловке импульса ведь фигурирует масса? Но как масса (материальное) связана с током (нематериальное, электромагнетизм)?
Прошу понять, я не хочу спорить, просто интересно, как дилетанту.
UPD: Хотя почитал ваши комментарии по поводу всякого экстрасенсорного… пожалуй, тут беседа «в одну калитку будет»…
попробуйте почитать непредвзято ту ветку. Ведь в этой ветке вы ошиблись, не поняв, что хотел сказать автор, а все перевернув наизнанку (автор здесь доказал, что EmDrive не работает, пока комментаторы думали, что он доказывает обратное). Может быть вы ошиблись и в интерпретации тех комментариев и речь там шла не о магии и экстрасенсорике? Как знать…
Я не профессионал в данной области, не очень помню физику. И сам, к примеру, верного ответа почему так быть не может — дать не мог. Но увидел в комментариях ответ, что ток переменный и, следовательно, знак силы будет меняться, давая суммарно нулевую тягу. Возможно, статья, как и задачка была для таких, как я (не забываем, что профессионалом во всем быть нельзя, каждый спец в своей области). Хотя, дебют, конечно, был не самый удачный, такие розыгрыши может позволить себе только мастистый автор, а новичка конечно заминусуют…
прочитайте пожалуйста постскриптум, автор дописал. Он на самом деле описал в статье, что EmDrive не работает, и он это проверил экспериментально. При этом, случайно или намеренно, он всех развел (задал задачку на подумать почему не работает, всего лишь не написав результат своего эксперимента и дописав это только сейчас). Но в целом видно, что человек адекватный и с хорошей теоретической подготовкой, а сама статья была просто ошибочно интерпретирована комментаторами. Неплохой урок в чем-то… Не спешить осуждать, а просто поправить человека, если он ошибся (не в данном случае).
Занятно, что теории мультивселенных, повсеместно публикуемые на гиктаймс, не вызывают никаких нареканий, а вызывают сплошную радость и положительную карму. А идею примерно того же рода заминусовали в плинтус. Хоть бы объяснили автору в чем ошибка заключается, а то как-то голословно минуса выглядят.
Несмотря на абсолютную логичность ваших доводов про самоорганизацию — ваш оппонент точно так же прав, как и вы. Данный парадокс вполне успешно решается, нужно всего лишь выйти в область над-логики.
1 ступень логики: ИЛИ-ИЛИ
2 ступень: И-И
3 ступень: НИ-НИ
4 ступень: И-И и НИ-НИ
Парадокс действительно имеет решение и когда вы найдете его решение в синтезе — это будет одно из самых ярких открытий в вашей жизни.
Разверну мысль поподробнее… Коллективное бессознательное (термин, введенный Юнгом) — это ничто иное как тело. Оно состоит из триллиона клеток, которые выросли из одной клетки и решили затусить. Коллективно. А бессознательное — потому что мы не осознаем это, они сами там что-то делают себе, но при этом все работает на удивление слаженно чаще всего.
Психика — это нервная система, опять же развернутая той же молекулой днк и в процессе жизни копирующая внешний мир, создающая его слепок. Можно сказать — нейросеть. Но в нейросетях сознания нет, это просто копии, как и нервная система.
До сего момента всё сказанное — биологическое. А вот сознание — это уже интересный момент. Какая-то общеобразующая единица одновременно и для коллективного бессознательного (набора клеток) и для нервной системы и психики — сила, которая заставляет всё работает вместе и слаженно.
Здесь идея такая, что мыслим мы посредством тока в наших проводах — он дает возможность мыслить. Ток создает электромагнитное поле по законам физики, которое мы излучаем — поле дает возможность триллиону клеток находиться в общей работе.
Но что, если каким-то образом ток и электромагнитное поле человека могут создать некоторую структуру (со-знание, совместное знание мысли и бессознательного), которая сможет не распасться после смерти? Естественно, ее образование происходит только в процессе жизни и структура с тем же успехом может быть и не образована, тогда человек остается приматом, без сознания.
Здесь может быть возражение, мол, энергию и для тока, и для поля мы получаем химическую и получение ее со смертью прекращается. Но ведь электромагнетизма окружающего полным полно, где искусственный электромагнетизм (радио, тв, сотовые волны) всего лишь крошечная доля. И электромагнитная структура вполне может питаться полем Земли, например.
Если считать, что «я» полностью биологическое — то действительно всё написано по делу. Но некоторый практически опыт, оцененный максимально критически, заставляет думать, что возможно не только биологическое.
Что вы думаете, например, о форме существования «я» в виде электромагнитной нераспадающейся структуры? Например, в ИК-диапазоне человек излучает 100-900Вт электромагнитного излучения около 30-40 ТГц. В других диапазонах наверное тоже излучает — и это тоже электромагнетизм.
К сожалению, я пока не смог за всё время найти открытий о существовании нераспадающейся электромагнитной структуры, но тема достаточно интересная для раздумий.
Беда в том, что если берем ключевое слово например «Колокол», то повторим его раз 10 получим отклонение в 10 у.е
А потом скажем слово «раз» и получим такое отклонение… И какие только методики я не перепробовал… Есть еще задумки — но в целом всё печально, а я ведь использовал классические алгоритмы из диссертаций с DWT и MFCC и их улучшения.
Только обученная на сотнях тысяч примеров нейросеть справляется, и то не всегда. А так даже не получается сравнить звуковой вход с записанным ранее шаблоном — не придумали как и всё тут…
Вот как раз сетевые сервисы Гугл, Майкрософт и Яндекс — они на нейросетях. Но, заразы, платные и существенно. Бесплатно только от часа до 10 часов в месяц, а значит непрерывный стримминг 24 часа в сутки туда не сделать. А по месту с распознаванием ключевого слова проблема.
Это проблемы только одного микрофона. А если их десяток — проблема усугбляется. Попробуйте положить два телефона в комнате и произнесите «Ок, гугл», они оба начнут слушать вас и оба исполнять команды. Та же ситуация, думаю, с описанными в статье устройствами.
Вот именно за это сравнение «ок гугл» и берут деньги в этих устройствах на самом деле.
www.youtube.com/watch?v=7ID87yKEYfI
Если даже люди не могут нормально распознавать — то техника тем более. В видео ниже объяснение почему так
youtu.be/74FOb0ezemc?t=1m41s
Других вариантов найти не смог. Если голос ниже шума (болтающий ТВ) — тут ничего, на мой взгляд, сделать не получится. Или если два человека в комнате говорят между собой, а потом зашел третий и сказал «хей гу гу» — тоже техника с ума сойдет такое распознать. А уж если в комнате дискотека или хотя бы приятная фоновая музыка играет и ты хочешь скомандовать «сделай потише» — тут и наступит облом. Потому что ты от микрофона далеко, а колонки тоже у потолка и поближе. То есть шумом в данном случае становится твой голос, а не музыка.
Вот таких нюансов множество и почти все они не будут работать (я не проверял это по факту, мне хватило того, что реализованный мной кейспоттинг был нерабочим, а я применял лучшие известные на сегодня методики распознавания). В общем, железка просто не знает что есть «голос», а что есть «шум». И даже люди этого не знают пока для себя
Поэтому применяют кейспоттинг, распознавая ключевое слово по месту, потом стримя семпл на веб-сервис. В этом кейспоттинге и проблема. Нужно эти 16 тыс семплов в секунду синхронизировать на каждом устройстве. Если их десять, то это 160 тыс на каждом устройстве и 1.6 млн суммарно байт в секунду сетевого обмена и такая же загрузка процессоров, где она вся уйдет на сетевой обмен.
Только при таком подходе можно найти к какому ты устройству ближе, но устройства типа RPI такое не будут держать, полагаю, производительности не хватит, по крайней мере на Windows 10 IoT, а надо ведь и другие задачи делать. Кроме того, оно будет работать только в идеальном случае, когда ты один дома и тихо. А если комнаты смежные, в одной комнате один человек командует, в другой комнате — другой командует, делают они это не синхронно, а в холле телевизор болтает — тут вся система микрофонов и откажет… Из-за несовершенства алгоритмов даже такого примитивного распознавания ключевого слова. Нет пока алгоритмов, эта задача распознавания не решена пока на нормальном уровне, достаточном для использования хотя бы с допустимым числом ошибок. А без споттинга цена решения настолько дорога — что в принципе непрактична даже для собственного умного дома.
Собственно, вся фишка описанных выше устройств — это данный кейворд споттинг, где вся цена платится за правильную реакцию на «ок, гугл» и даже на «хей, гу гу!», благодаря нейросети, натренированной на миллионах семплов. Но и это только на одном устройстве, причем близко к нему (выше уровня шума).
В общем, пока это всё игрушка. Пока не будет найдено психоакустических алгоритмов или не будет выложена альтруистами нейросеть на миллиарде семплов с распознаванием голоса сильно ниже уровня шума.
Кроме того, оно всё работает так себе, если не говорить прямо в рупор, а расположить устройство под потолком в большой комнате. А если еще и ТВ включен… С этим большая проблема и алгоритмов распознавания голоса хозяина с отделением от шума пока не создано, насколько мне известно. То есть пока это просто игрушка, непрактичная, поиграться недельку и забросить. Потому что перед ее использованием надо выключить ТВ, подойти к ней, прокричать в рупор, заплатить за это, еще и с русским дела хуже, чем с английским.
Но через пару лет ситуация будет много лучше, полагаю.
www.youtube.com/watch?v=rSgd6jQekHQ
И, опять же, по той теме (и теме предвзятости)… Как вы относитесь к тому, что во времена СССР Ленинградским Государственным Ленинским Университетом по распоряжению руководства была выпущена научная книга экспериментального исследования телепатии посредством электромагнетизма, как среды передачи? Книга указана в комментариях той темы. Вот она
Экспериментальные исследования мысленного внушения
Это научная книга, выпущенная научным заведением. С корректно поставленными экспериментами.
Прошу понять, я не хочу спорить, просто интересно, как дилетанту.
попробуйте почитать непредвзято ту ветку. Ведь в этой ветке вы ошиблись, не поняв, что хотел сказать автор, а все перевернув наизнанку (автор здесь доказал, что EmDrive не работает, пока комментаторы думали, что он доказывает обратное). Может быть вы ошиблись и в интерпретации тех комментариев и речь там шла не о магии и экстрасенсорике? Как знать…
1 ступень логики: ИЛИ-ИЛИ
2 ступень: И-И
3 ступень: НИ-НИ
4 ступень: И-И и НИ-НИ
Парадокс действительно имеет решение и когда вы найдете его решение в синтезе — это будет одно из самых ярких открытий в вашей жизни.
с уважением
Психика — это нервная система, опять же развернутая той же молекулой днк и в процессе жизни копирующая внешний мир, создающая его слепок. Можно сказать — нейросеть. Но в нейросетях сознания нет, это просто копии, как и нервная система.
До сего момента всё сказанное — биологическое. А вот сознание — это уже интересный момент. Какая-то общеобразующая единица одновременно и для коллективного бессознательного (набора клеток) и для нервной системы и психики — сила, которая заставляет всё работает вместе и слаженно.
Здесь идея такая, что мыслим мы посредством тока в наших проводах — он дает возможность мыслить. Ток создает электромагнитное поле по законам физики, которое мы излучаем — поле дает возможность триллиону клеток находиться в общей работе.
Но что, если каким-то образом ток и электромагнитное поле человека могут создать некоторую структуру (со-знание, совместное знание мысли и бессознательного), которая сможет не распасться после смерти? Естественно, ее образование происходит только в процессе жизни и структура с тем же успехом может быть и не образована, тогда человек остается приматом, без сознания.
Здесь может быть возражение, мол, энергию и для тока, и для поля мы получаем химическую и получение ее со смертью прекращается. Но ведь электромагнетизма окружающего полным полно, где искусственный электромагнетизм (радио, тв, сотовые волны) всего лишь крошечная доля. И электромагнитная структура вполне может питаться полем Земли, например.
Что вы думаете, например, о форме существования «я» в виде электромагнитной нераспадающейся структуры? Например, в ИК-диапазоне человек излучает 100-900Вт электромагнитного излучения около 30-40 ТГц. В других диапазонах наверное тоже излучает — и это тоже электромагнетизм.
К сожалению, я пока не смог за всё время найти открытий о существовании нераспадающейся электромагнитной структуры, но тема достаточно интересная для раздумий.