Распознавание фраз в зашифрованном VoIP-потоке

    Группа исследователей из Массачусетского технологического института, Google, университета Северной Каролины и университета Джона Хопкинса опубликовали окончательную версию доклада с описанием метода распознавания ключевых фраз в зашифрованном VoIP-потоке с переменным битрейтом. Они заявляют, что средняя точность распознавания составляет 50%, а для некоторых фраз — до 90%.

    Распознавание возможно благодаря анализу битрейта зашифрованного потока, в котором разные звуки кодируются с разным битрейтом. Например, гласные кодируются с большим битрейтом, а свистящие и шипящие представляют собой шум, для которого достаточно минимального битрейта.

    Если в VBR используется четыре скорости битрейта, то человеческая речь превращается в «четырёхбитный» поток цифровых символов, где каждый из четырёх символов соответствует одному звуку — на первый взгляд, это довольно простой шифр. Наверное, теоретически можно произвести статистический анализ этого потока, сравнив вероятности сочетаний букв с базой данных всех существующих слов и фраз в английском языке. Такую базу несколько лет составила компания Google и выложила в открытый доступ. Но на практике это слишком сложная задача, хотя вполне решаемая.

    В данной научной работе исследователи не используют криптографию и не анализируют полученный «шифр» по словарю. Они просто демонстрируют принципиальную возможность распознавания фраз на любом случайном голосе. Для этого они взяли группу добровольцев и заставили их произнести 122 предложения одинаковой длины через VoIP-канал с VBR. Потом те же самые предложения произнесла другая группа людей тоже через VoIP — и система выбрала правильную фразу из 122 вариантов в среднем в 50% случаев.

    Хотя данный метод вряд ли можно использовать в практических целях (точность распознавания слишком низкая и вряд ли система хоть как-то будет работать на полной языковой базе, а не на выборке в 122 предложения), но он представляет собой замечательный пример, как криптографический анализ находит утечки в информационных системах, которые защищены даже хорошими на первый взгляд шифрами.

    Работа опубликована в платном разделе журнале ACM Transactions on Information and System Security (doi:10.1145/1880022.1880029), но предварительные версии этой работы можно найти в бесплатном доступе (PDF1, PDF2 с листингами): они были представлены на тематических конференциях в 2008 и 2009 гг. Сам метод обсуждался на Хабре летом 2008-го.

    Similar posts

    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 23

      –2
      Абсолютной защищенности в сети нет и скорее всего никогда не будет.
        +3
        Абсолютной защищенности и не бывает. Просто стоимость расшифровки на порядки превышает стоимость информации.
        +2
        Исследование прямо по мотивам «В круге первом» Солженицина.
          0
          Хоть бы вычитали статью.
          Желтый заголовок, машинный перевод… Что дальше?
            +9
            ализарже
              +4
              У него, к тому же, еще и склероз: habrahabr.ru/blogs/crypto/27688/
                0
                Перепечатка — это серьезно.
                  +1
                  Вы еще посмотрите на автора статьи по ссылке. :)
                    +2
                    Издание второе, исправленное и дополненное.
                +4
                Сообщение полезное, несмотря на перечисленные Вами недостатки. Да и не в первый раз у автора такое замечается.
                Но лучше пусть будет так, чем никак.
                0
                Странный формат «зашифрованный VBR». Это, видимо, специально подобранный формат, который позволяет сохранять длительность гласных/согласных при шифровке.
                При SRTP/ZRTP такого сохранения длительности, что удивительно, не наблюдается.
                  +2
                  VBR = Variable bitrate
                  При отправке меньшего количества данных в секунду, шифроваться также будет меньшее количество данных и передано будет также меньшее количество. Степень пропорциональности зависит от алгоритма.

                  Итог =
                  1. При передаче шифрованого голоса нельзя использовать VBR
                  2. При использовании шифрования поверх VBR, трубется модель создания избыточности траффика в целях конспирации, что уменьшает ценность VBR
                  3. При использовании шифрования поверх VBR, требуется алгоритм создания ложного контура VBR поверх реального, эффектом чего является увеличение траффика либо снижение качества синала

                    0
                    Спасибо, я в курсе, что такое VBR.

                    По пунктам не соглашусь:
                    1) Для двух основных существующих систем шифрования VoIP на базе SRTP/ZRTP непринципиально VBR или CBR.

                    Из 1) вытекает, что шифрование, при котором по VBR можно восстановить звук, не является шифрованием в обычном смысле этого слова.

                      0
                      image
                      VBR вас выдаст :-)
                        0
                        Мдя? Откуда этот график? Чем конкретно кодировался звук?

                        SRTP/ZRTP энтропию уводят в единицу, VBR не сыграет роли.
                        0
                        image
                          +4
                          Не тормозить, читайте топик, никто звук не восстанавливает, смотрят на паттерны трафика.
                          2. Ничего не вытекает.
                          3. При CBR проблема исчезает.
                            –2
                            Какие в шифрованном траффике паттерны? Откуда вы такую ересь взяли? Трафик потому шифрованным называется, что в нем нельзя найти тишину и речь. Окститесь.

                            Если бы в шифрованном траффике были бы хоть намеки на какие-то зависимости, то любой бы шифр ломался бы частотной таблицей.

                              +2
                              Из статьи: Распознавание возможно благодаря анализу битрейта зашифрованного потока.
                              Вы статью читали?
                                +3
                                Давайте на пальцах покажу, когда тишина, то битрейт падает, когда кто то говорит битрейт выше. Ещё раз говорю никто звук не анализировал.
                                  +1
                                  Вы правы, обычных паттернов быть не должно.
                                  Но этого в самом сообщении и не утверждается.
                                  Выводы делаются лишь на анализе битрейта, поэтому и точность низкая.
                                  А вот зависимости (не обязательно частотные по паттернам) в любом шифре есть, идеальной энтропии добиться невозможно.
                                    +1
                                    Паттерны не в трафике, а в скорости его передачи. Даже CBR трафик может многое сказать одним фактом своего наличия в определенное время. Поэтому каналы важной военной и правительственной связи используют покрывающий трафик, т.е. по ним всегда передается информация и всегда с одной скоростью, что не позволяет даже установить сам факт передачи чего-либо.
                            0
                            сравнив вероятности сочетаний букв с базой данных всех существующих слов и фраз в английском языке. Такую базу несколько лет составила компания Google и выложила в открытый доступ.

                            А покажите пожалуйста эту базу.

                            Only users with full accounts can post comments. Log in, please.