alizar Mar 16 2011 at 12:00

Распознавание фраз в зашифрованном VoIP-потоке

2 min

Группа исследователей из Массачусетского технологического института, Google, университета Северной Каролины и университета Джонса Хопкинса опубликовали окончательную версию доклада с описанием метода распознавания ключевых фраз в зашифрованном VoIP-потоке с переменным битрейтом. Они заявляют, что средняя точность распознавания составляет 50%, а для некоторых фраз — до 90%.

Распознавание возможно благодаря анализу битрейта зашифрованного потока, в котором разные звуки кодируются с разным битрейтом. Например, гласные кодируются с большим битрейтом, а свистящие и шипящие представляют собой шум, для которого достаточно минимального битрейта.

Если в VBR используется четыре скорости битрейта, то человеческая речь превращается в «четырёхбитный» поток цифровых символов, где каждый из четырёх символов соответствует одному звуку — на первый взгляд, это довольно простой шифр. Наверное, теоретически можно произвести статистический анализ этого потока, сравнив вероятности сочетаний букв с базой данных всех существующих слов и фраз в английском языке. Такую базу несколько лет составила компания Google и выложила в открытый доступ. Но на практике это слишком сложная задача, хотя вполне решаемая.

В данной научной работе исследователи не используют криптографию и не анализируют полученный «шифр» по словарю. Они просто демонстрируют принципиальную возможность распознавания фраз на любом случайном голосе. Для этого они взяли группу добровольцев и заставили их произнести 122 предложения одинаковой длины через VoIP-канал с VBR. Потом те же самые предложения произнесла другая группа людей тоже через VoIP — и система выбрала правильную фразу из 122 вариантов в среднем в 50% случаев.

Хотя данный метод вряд ли можно использовать в практических целях (точность распознавания слишком низкая и вряд ли система хоть как-то будет работать на полной языковой базе, а не на выборке в 122 предложения), но он представляет собой замечательный пример, как криптографический анализ находит утечки в информационных системах, которые защищены даже хорошими на первый взгляд шифрами.

Работа опубликована в платном разделе журнале ACM Transactions on Information and System Security (doi:10.1145/1880022.1880029), но предварительные версии этой работы можно найти в бесплатном доступе (PDF1, PDF2 с листингами): они были представлены на тематических конференциях в 2008 и 2009 гг. Сам метод обсуждался на Хабре летом 2008-го.

Hubs:

Development of communication systems