Apple и Университет Карнеги-Меллона научили ИИ определять по звукам, что происходит в доме



    Команда исследователей из Apple и Университета Карнеги-Меллона представила систему обучения ИИ, которая позволяет умным динамикам определять по звукам, что происходит, и предлагать пользователю варианты действий. По замыслу авторов, благодаря системе не нужно будет приобретать множество интеллектуальных устройств — достаточно будет одного умного динамика, например, HomePod.

    Система под названием Listen Learner распознаёт окружающие звуки и интерпретирует их. Для этого система однократно взаимодействует с пользователем, спрашивая, что она только что услышала, и маркирует звук. Предварительно обученная модель Listen Learner также даёт системе возможность предположить, что может означать тот или иной шум. Это позволяет уменьшить взаимодействие с пользователем, сделать его менее открытым: услышав шум, система задаст уточняющий вопрос, например, «это закрылась дверь?», который потребует от пользователя только ответа «да» или «нет». CNN (сверточная нейронная сеть), которая использовалась при создании Listen Learner, была обучена на наборе данных YouTube-8M и дополнена библиотекой профессиональных звуковых эффектов.

    Уточняющие вопросы могут быть более развёрнутыми в некоторых ситуациях — например, когда звуки похожи, но всё же означают разные события, скажем, когда системе нужно определить, закрылась входная дверь или дверца шкафа. Со временем система сама сможет сделать предположение о природе звука и представить его пользователю для подтверждения. Интерпретировав звук, система предложит владельцу варианты соответствующих действий.

    Как указывают исследователи, благодаря Listen Learner необязательно заменять все устройства в доме на дорогие интеллектуальные — достаточно будет одного умного динамика, например, HomePod, который за счёт мощного микрофона будет улавливать звуки, определять, что происходит, и сообщать владельцу. В видео, посвящённом Listen Learner, показано, как умный динамик благодаря Listen Learner распознаёт сигнал микроволновки и предупреждает пользователя, что еда готова. В другом примере динамик распознаёт стук в дверь и предлагает несколько вариантов действий. Также динамик может распознать звук включённой воды. Впоследствии динамик сможет понять, как долго должна набираться ванна, и предупреждать владельца, если он забудет выключить кран.



    Ещё один вариант применения системы заключается в распознавании шагов отдельных членов семьи. По замыслу авторов разработки, отпадёт необходимость в интеллектуальной системе камер с распознаванием лиц, вместо неё HomePod будет определять, кто идёт, по звуку шагов.

    В статье, посвящённой исследованию, авторы разработки указывают на то, что, хотя интеллектуальные устройства появляются всё чаще домах и офисах, им, как правило, не хватает точности в восприятии контекста — понимание того, что происходит вокруг них, «минимально». Система Listen Learner, таким образом, поможет определять звуки точнее без чрезмерной нагрузки на пользователя.

    Помимо этого, авторы также коснулись и вопросов конфиденциальности, которые могут возникнуть при внедрении такой системы, если учесть, как часто будет включаться микрофон и какой объём данных об окружении пользователя будет обрабатывать система. Как отмечают исследователи, обработать всю информацию локально на устройстве не всегда будет возможно.

    «Хотя наша система распознавания акустической активности повышает точность классификации звуков и даёт больше возможностей для дополнительного обучения, захват и передача аудиоданных, особенно разговоров, должны вызывать вопросы, связанные с конфиденциальностью. В идеальном варианте все данные будут храниться на устройстве. Тем не менее, для обучения могут потребоваться значительные вычисления. Они могут проводиться в облаке с помощью анонимных пользовательских меток, которые могут храниться локально».

    Комментарии 33

      +8
      Система будет вызывать полицию во время просмотра жильцами дома какого-нибудь экшена?
        +11
        В России — когда убьют :)
          +1
          Было бы смешно, если бы не было страшно
          +4

          Нет, она будет спрашивать "вас убивают? (да/нет)"

            +4
            И через 10 секунд молчания автоматически отвечать «нет»…
              0
              Такое уже было в аниме «Психопаспорт»…
                0

                А как Яндекс попал в аниме?

                  0
                  Там был свой «Яндекс», который контроллил все вокруг.
              0
              Не будет, насколько я знаю, программы, которые вызывают 911 автоматически в США запрещены.
              +7
              чего мелочиться, ставьте уже сразу камеры и привет 1984
                +1
                Зачем такие сложности? Проще товарища Майора в каждый дом на довольствие принимающей стороны.
                  0

                  Что значит "ставьте"? Платить за это кто будет?


                  Хотите — покупайте, не хотите — не покупайте.

                  0
                  Как будут обстоять дела во время просмотров фильмов?
                    0
                    Локализация источника звука (колонки мультиканальной системы) известна, по ней можно легко фильтровать звуки фильмов. В HomePod массив микрофонов координаты источника звука вычислить сможет. Кроме того, если система интегрирована (homepod, apple home, контроллёр apple home в телевизоре), то ей и так будет известно, что вы только что включили фильм с iTunes/AppleTV/Netflix/etc.
                    +8

                    Как я читаю заголовок: учёные X научились определять Y по Z.
                    Как я его понимаю: учёные X собрали набор данных, где вход Z, а выход Y, обучили простейший классификатор, и выдали всё это за прорыв.

                      +1

                      Это РОС, они доказали, что этого простейшего классификатора достаточно для выполнения описанных действий.

                    • НЛО прилетело и опубликовало эту надпись здесь
                        +3
                        Нормальный ход. Этак сидишь дома, а умный динамик тебе всё время: а чего это у вас дверь открылась? А кто это там в соседней комнате ходит? А почему не на работе? А с чего бы у вас сегодня шаги такие зловещие?

                        Маленький домашний параноик при исполнении.
                          0
                          Зато представьте, насколько повысится процент выявления шизофреников на ранней стадии! Судя по голливудским образчикам походка и голос носителя могут меняться весьма существенно.
                          +5
                          При обнаружении нового женского/мужского голоса — сразу алерт жене/мужу с записью сэмпла и данными на этого человека, собранными по всему миру за все время его соприкосновения с инфраструктурой apple.
                            +4
                            «показано, как умный динамик благодаря Listen Learner распознаёт сигнал микроволновки и предупреждает пользователя, что еда готова. В другом примере динамик распознаёт стук в дверь и предлагает несколько вариантов действий. Также динамик может распознать звук включённой воды.»
                            А сам человек, без подсказки умного динамика это уже сделать значит не может? ну ну…
                              +1
                              Вы можете проснуться сами, зачем же вам будильник?
                                0
                                Очень некоректный пример. Будильник — это «раздражитель», сигнализирующий вам. Постоянный писк микроволновки, стук в дверь такие же раздражители и, если человек на них не реагирует, значит либо не надо, либо пофик.
                                  0
                                  звука этих раздражителей может быть недостаточно. а тут берёшь условные две колонки одна на кухне другая в другой дальней комнате вот она и сообщит
                                +1
                                По выбору вариантов ответа давно есть
                                готовый компонент

                                0
                                Вот ещё бы они это крутили на самом динамике, а не на чёртовых облаках.
                                  +1

                                  Дорого, я боюсь.

                                    +1

                                    Ну если в колонку засунуть пару ксеонов, штук 16 кулеров серверных и блок питания ватт на эдак 800, может и взлетит...


                                    А вообще на чипе Bionic вполне можно крутить какую-то упрощённую версию нейросетки, лить в облако при неуверенности в локальном результате.

                                    0
                                    — А это что за звук?
                                    — На этот звук не обращай внимания
                                    — Повторите пожалуйста несколько раз для запоминания
                                      0
                                      Зачем спрашивать юзера, если весь набор звуков можно изучить в лаборатории, и зашить в программу?
                                      Лично я озверею, если этот тостер будет меня спрашивать по каждому поводу.
                                        +1

                                        Я так понимаю, им надо отличать звук скрипа двери в вашу ванну от скрипа двери шкафа. В лаборатории такому не обучишь.

                                          0
                                          Значит там тупой псевдо-ИИ. Мы учим звуки по последовательностям — звук двери+шум воды — значит ванная. Звук двери+«опять одеть нечего» — шкаф. А учить один конкретный звук — ерунда какая то, не стоящая затраченых усилий.
                                        +2
                                        позволяет умным динамикам определять по звукам, что происходит, и предлагать пользователю варианты действий
                                        В общем те кто беззвучно бздят в туалете будут оставаться без туалетной бумаги, потому что умная колонка не услышала и не предложила её купить.

                                        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                        Самое читаемое