Google прослушивает пользователей через умные колонки



    Компания Google официально признала, что её подрядчики систематически прослушивают аудиофайлы, записанные умными колонками Google Home и приложением для смартфонов Google Assistant.

    Первые сообщения об этом появились бельгийской прессе. Журналисты издания VRT NWS прослушали более тысячи записей, и значительная часть из них сделана случайно, то есть без команды пользователя.

    С момента начала продаж в 2016 году по всему миру проданы миллионы умных колонок Google Home. Они позволяют общаться с компьютером голосом, задавая ему всевозможные вопросы, которые начинаются с фразы «Окей, Google» — и получая ответы. Так же работает приложение Google Assistant на смартфоне, которое похоже на голосового ассистента Siri от Apple.

    Однако не каждый пользователь знает, что все произнесённые фразы после кодовых слов «Окей, Google» записываются и сохраняются. Но это чётко указано в условиях пользования Google. Хотя люди подписываются под такими условиями не читая, они уж точно не знают, что сотрудники Google прослушивают отрывки из этих записей. Собственно, это и не упоминается в условиях пользования.

    Сотрудникам VRT NWS удалось раздобыть и прослушать более тысячи отрывков, записанных с помощью Google Assistant. В этих записях отчётливо слышны адреса и другая конфиденциальная информация. Это позволило легко найти владельцев колонок и дать им прослушать файлы. Люди с удивлением узнали на записях свои голоса.

    Репортаж с фрагментами аудиозаписей


    Журналисты говорят, что начали разбираться с этим делом после недавнего скандала с Amazon, когда выяснилось, что аудиозаписи с голосами пользователей передаются подрядчикам для распознавания с целью дальнейшего улучшения систем распознавания речи. После того дела им удалось связаться с источником, который работает на субподрядчика Google. Он позволил взглянуть на систему, которая собирает аудио через Google Assistant. Оказывается, тысячи сотрудников по всему миру используют эту систему для прослушивания аудиоматериалов. В Нидерландах и Фландрии (область на территории Франции, Бельгии и Нидерландов, население которой говорит преимущественно на голландском языке) около десятка человек слушают голландские записи, сообщает издание.

    Почему Google хранит эти записи и зачем их слушают сотрудники? На самом деле их интересует не содержание разговоров, а лингвистические особенности произношения. Это специально нанятые Google эксперты (носители языка), которые выполняют лингвистическую работу. Компьютерная система Google включает в себя самообучающиеся алгоритмы, которым необходима помощь, чтобы разобрать тонкие различия и особенности голландского языка.

    «Иногда поисковая система Google испытывает трудности с анализом определённой речевой команды. Когда такое происходит, они передают эту команду в онлайновый инструмент Google Crowdsource, — пишет VRT NWS. —Кстати, если вы хотите помочь Google в распознавании изображений и выражений лица, все могут бесплатно использовать этот инструмент». Издание получило независимые подтверждения от трёх источников, что в Google работа организована именно так.

    В общедоступной бесплатной утилите нет аудиозаписей. Google передаёт задачу по их транскрибированию сторонним специалистам. Они авторизуются в специальном защищённом разделе. Там они видят список аудиофрагментов, которые нужно проанализировать.

    Сотрудники должны дважды проверить каждый аудиофрагмент и подробно описать его в программе: голос женский, мужской или детский? Что конкретно он говорит? Они записывают каждый кашель и указывают каждую паузу. Затем описания используются для обучения системы распознавания речи Google, что приводит к лучшей реакции на команды. То есть в конечном итоге это делается для всеобщего блага.

    После публикации отчёта VRT NWS компания Google признала, что работает с лингвистами по всему миру, чтобы улучшить свои речевые технологии. «Это происходит путём расшифровок небольшого количества аудиофайлов», — сказал представитель Google в Бельгии. Он добавил, что «эта работа имеет решающее значение для разработки технологий, лежащих в основе таких продуктов, как Google Assistant». Google заявляет, что лингвисты оценивают только «около 0,2% всех аудиофрагментов», они не связаны с какой-либо личной или идентифицируемой информацией.

    Теоретически, записи анонимизированы. В файлах нигде не указаны имена людей или их адреса. Google заменяет имена анонимными серийными номерами. Но в реальности восстановить эту информацию очень легко: достаточно просто внимательно слушать, всё это произносится в записях.


    Google Home Mini, Google Home и Google Home Max

    Более того, когда сотрудники не уверены, как именно пишется адрес, фамилия или название компании, они должны искать эту информацию в Google или Facebook. Таким образом, часто они вскоре обнаруживают личность говорящего.

    «[Транскрибирование] является важной частью процесса создания речевой технологии, — написал в блоге Дэвид Монсес (David Monsees), менеджер по продуктам подразделения поисковых технологий в Google. — Мы только что узнали, что один из сотрудников, выполняющих эту лингвистическую работу, нарушил нашу политику безопасности данных, допустив утечку конфиденциальных аудиоданных на голландском языке. Наши группы безопасности и конфиденциальности уведомлены об этой проблеме, будет проведено расследование и приняты меры. Мы проводим полный пересмотр мер безопасности, чтобы предотвратить повторение подобных проступков».

    Случайные записи


    VRT NWS пишет, что они прослушали более тысячи отрывков, из них 153 фрагмента явно были записаны непреднамеренно, без чёткой команды «Окей, Google». Просто если кто угодно издаёт звук, напоминающий «Окей, Google», колонка начинает записывать. Ошибка также может произойти, если пользователь случайно нажимает неправильную кнопку на смартфоне.

    Сами сотрудники, которые прослушивают конфиденциальные записи пользователей, тоже сталкиваются с трудными ситуациями. Один из них сказал VRT NWS, что однажды ему для транскрибирования попалась запись, на которой можно было распознать насилие против женщины, она кричала. Что ему нужно было делать в такой ситуации? Google не даёт чётких инструкций в отношении таких случаев, хотя это серьёзный этический вопрос. Сотрудникам дали только конкретные указания по номерам счетов и паролей: они не транскрибируются, а помечаются как «конфиденциальная информация».

    Архив приватных разговоров, записанных через умные колонки, выявил много интересного, пишет VRT NWS: «Записи также поразительно подтверждают одно из правил интернета: мужчины много ищут порно, даже через умные колонки».

    В записи и хранении конфиденциальных аудиозаписей обвиняют не только Google. Недавно выяснилось, что колонка Amazon Echo с голосовым помощником Alexa тоже хранит аудиозаписи до тех пор, пока пользователь не удалит их вручную, а некоторые текстовые расшифровки никогда не удаляются.

    Ни Amazon, ни Google не уведомляют пользователей о том, как конкретно используются их аудиозаписи и о том, что для прослушивания приглашаются субподрядчики. Но если покупатель подписал условия использования и добровольно установил в свой дом устройство с постоянным сетевым подключением, облачным хранением данных и под управлением «ИИ», то ничего удивительного здесь нет.

    На форумах некоторые комментаторы выражают удивление лишь тем, как в Google организовано хранение аудиозаписей, если подрядчику удалось «слить» более тысячи файлов.
    Поделиться публикацией

    Комментарии 24

      +7
      Святая наивность. А на что рассчитывали покупатели умных колонок, что гугл, который зарабатывает анализом данных, не будет их слушать 24/7 и хранить аудиозаписи?) А еще в определенный момент выяснилось, что вся инфа, включая аудиозаписи, хранится на серверах гугла и амазона вечно, даже после «удаления» пользователем и удаления аккаунта.
      Привет Яндекс.Станции.
        +8

        А Гугл слушает записи 24х7?
        В статье не написано ничего нового, что и так знают люди, которые в этой теме более менее разбираются:


        1. Умные колонки отправляют записанный голос на сервер для дальнейшей расшифровки. Сами они этого делать не могут. Они заточены только под активационную фразу.
        2. То что голос хранится и может быть использован для улучшения качества работы сервисов, как бы написано в пользовательском соглашении.
        3. Нейросети, которые натасканы на активационную фразу, иногда сбоят и срабатывают не только на активационную фразу. Но это как бы происходит не скрытно и любой владелец умной колонки это знает.
          +1
          А Гугл слушает записи 24х7?

          Возможность у него для этого есть, если колонка всё время подключена к сети. То есть, если захочет может и 24/7 слушать. Вопрос наверное только насколько вы интересны ему (или американским спецслужбам).

          В статье не написано ничего нового, что и так знают люди, которые в этой теме более менее разбираются.

          Тот, кто в теме разбирается, наверное не будет устанавливать у себя дома этот «жучок». Только если для каких нибудь экспериментов. (Да, я знаю, что они так же через смарт прослушивать могут).
            +2

            Ну приехали… Если захочет, то сможет и так далее. Факт 24х7 прослушки через колонку очень легко отследить. Кроме колонки, дома есть ещё полно девайсов, которые в теории могут сделать тоже самое. Тот же мобильный телефон, например. Вы им не пользуетесь?
            Не устанавливают "жучок" скорее больше параноики, у которых эта самая паранойя преобладает над логическим мышлением.

              +3
              На мобильном телефоне батарею сразу больше станет есть. А как на колонке отследить?
                0

                Как минимум, проверить трафик. WiFi сеть же под вашим контролем.
                Хабр технический ресурс, должно быть много хороших специалистов. Но в подобных постах почему то вылезают совсем другие люди.

                  0
                  А если гугл «подслушивает» не 24х7, а только тогда, когда нужно, и так, что однозначно определить «подслушку» невозможно?
                  При малейшем подозрении всем срочно избавляться от девайсов с «окейгуглом» и аналогами? Сомневаюсь, что большинство пользователей на это пойдет.

                  Да, некоторая часть хабро-читателей может «проверить» трафик на наличие.
                  Часть этой части наверное может попытаться его проанализировать.
                  Часть этой части возможно обнаружит «подозрительный» трафик.

                  А остальным как жить?-)

                  Баста, карапузики, кончилися танцы !(с)
                  Будущее уже наступило, кушайте не обляпайтесь, т.е. адаптируйтесь и интегрируйтесь-))

                  ЗЫ.Кстати, говорят, опытные «контразведчики» не уничтожают обнаруженные каналы утечки информации, а используют из для дезинформации (ой! спалился-)).
                    +1
                    Так в том то и дело, трафик то есть. Никто не будет лить его потоком. Тишина вырезается, области интереса можно хорошо сжать и слать пачками, само пристальное внимание включаться дистанционно. Современные кодеки позволяют сжать разборчивую речь в 200бит/c. Это как с телеметрией, во времена XP следить можно было, а в Windows 10 — оно постоянно что-то делает, никто не знает что, и никого это уже не напрягает. Вот и попробуй тут проверь трафик.
                  +1
                  Факт 24х7 прослушки через колонку очень легко отследить.

                  Большая часть пользователей этого не сможет сделать из-за нехватки знаний.

                  Кроме колонки, дома есть ещё полно девайсов, которые в теории могут сделать тоже самое. Тот же мобильный телефон, например. Вы им не пользуетесь?

                  По диагонали комментарии читаете? Специально для этого написал последнее предложение в предыдущем комментарии. И есть LinеageOS без Google-сервисов.

                  Не устанавливают «жучок» скорее больше параноики, у которых эта самая паранойя преобладает над логическим мышлением.

                  При чём тут паранойя? Вам в лоб говорят, что вас слушают и записывают якобы «случайно», а для вас всё божья роса. Или вы из тех кому «скрывать нечего»? Ну так дайте нам логины и пароли от вашей почты, соцсетей итд, если вам всё равно на вашу конфиденциальную информацию и кто её читает/слушает. Могу вам как Google бумажку написать, что честное пионерское никому не расскажу, что прочитаю и буду использовать эту информацию только в личных целях. Ну как?

                  www.youtube.com/watch?v=pcSlowAhvUk
                +2
                А Гугл слушает записи 24х7?

                Ну да, в статье прямым текстом написано:
                Просто если кто угодно издаёт звук, напоминающий «Окей, Google», колонка начинает записывать.

                А уж какую фразу гугл посчитает похожей на «Окей, гугл», это только гуглу решать)
                В статье кстати приводится хороший пример — запись криков женщины в результате домашнего насилия. Как вы думаете, какая фраза может звучать похожей на «Окей, гугл» в подобной ситуации?
                Но это как бы происходит не скрытно и любой владелец умной колонки это знает.

                Если бы каждый владелец это знал, этой статьи бы не было.
                  +2

                  'Стань в угол', 'эй пугало'… тысячи их.

                    0
                    Об этом и речь.
              +16

              "Моя жена спросила меня, почему я так тихо разговариваю в доме. Я сказал, что боюсь, что Марк Цукерберг слушает. В ответ она засмеялась. И я тоже засмеялся. И Алиса засмеялась. И Сири засмеялась. "

                0
                Странно, а почему Олег и Маруся не смеются?
                  0

                  Пока не смеются.
                  А вот молчание Алексы и Картаны подозрительно.

                +3
                Нее, ну этож гугол… гуглу можно…
                  –2

                  Я тут google home mini почти бесплатно получил по акции, боялся ее на долго оставлять включенной. Мои догадки подтвердились.

                    +1
                    Есть такая штука Яндекс.Толока. Там тоже нужно слушать и анализировать голосовые записи с Навигатора и, возможно, с с их колонки. Причем, не нужно быть сотрудником Яндекса, регистрируйся в Толоке, бери задание и слушай.
                      0
                      Для ограничения поисковика был создан файл robots.txt, куда описывалось то, к чему поисковику доступ запрещен
                      Каково же было удивление, когда в поиск попали тысячи миллионов данных, запрещенных к поиску. И внезапно оказалось, что информация о странице, которая передается Гуглу для улучшения — может спровоцировать бота проиндексировать ее. И плевал он на robots.txt

                      После этого события я все понял.
                        0

                        Так то robots.txt это скорее совет для бота, чем команда. Если, например, автор сайта считает, что некоторые url сканировать бесполезно. Авторы бота могут считать иначе.

                        0
                        Ну что? Все кто паранойил по поводу Яндекс Станции и Алисы, что теперь скажете, мм? Никто в этой игре не святой.
                          +3

                          Устройство, созданное, чтобы отправлять голос на удаленный сервер, отправляет голос на удаленный сервер. Удивительно.

                          0
                          Дорогие пользователи, Ваша конфиденциальность является основным приоритетом для нашей компании! Поэтому, для получения нового бесплатного расширенного набора анимированных эмодзи и других полезных функций, просим Вас поставить видеокамеры в каждом помещении Вашего жилища а также установить анальный зонд.
                            +1
                            Это всё для исключительно для того чтоб новые эмодзи были самыми качественными и выразительными! Вдруг оригинальное выражение лица проскочит вне видимости камеры?

                          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                          Самое читаемое