igorek_seccode Nov 12 2014 at 09:09

Статистическая проверка случайности двоичных последовательностей методами NIST

16 min

62K

Код Безопасности corporate blogCryptography*

+29

Comments 22

vilgeforce Nov 12 2014 at 09:38

Позволяют ли результаты этих тестов говорить о том, какая именно связь существует внутри последовательности?

igorek_seccode Nov 12 2014 at 09:47

Конечно, каждый тест заточен на поиск определённой взаимосвязи.

vilgeforce Nov 12 2014 at 09:48

Про «o6hb8qgkbkcupvhag42astgqcruzkmgmxkry2q8u17r5g5r2v7» что-нибудь скажут тесты? Алгоритм получения такой последовательности известен, интересно что скажут другие методы про него…

igorek_seccode Nov 12 2014 at 10:05

На сайте Ниста она выкладывают исходники этих всех тестов. Скачайте и прогоните через тесты ))

vilgeforce Nov 12 2014 at 10:07

Тесты мне покажут какие-то «странные» цифры. Даже скажут что последовательность неслучайная, но как эти результаты использовать для определения алгоритма создания последовательности?

igorek_seccode Nov 12 2014 at 10:19

Вопрос интересный Получается так, что если тест пройден, то об алогритме ничего сказать и нельзя! А если НЕ пройден, то уже можно строить догадки. Например если тест на LFSR показал плохой результат, то в алгоритме скорее всего затесался регистр сдвига. Или если не прошёл спектральный тест, то наложились некие пероидические сигналы.

vilgeforce Nov 12 2014 at 10:23

Спасибо за интрепретацию! Наиболее интересный вопрос — понять какой генератор использовался: линейный конгруэнтный, Type3 или вообще Mersenne. Правда, гипотеза о LC-RNG проверяется за несколько часов для самых распространенных.

NeverWalkAloner Nov 12 2014 at 09:59

Спасибо, интересно.
Не понял какая связь между P-значением и вероятность ошибки первого рода. Почему P-значение сравнивают именно с α? Можете прояснить этот момент?
И почему альфа выбирается такой маленькой. Т.е. если P-значение равно всего 0.02, то последовательность все-равно считается случайной несмотря на такую низкую вероятность?

И еще одно у вас в тексте написано:

В дальнейшем P-значение сравнивается с α, и если она меньше α, то нулевая гипотеза принимается и последовательность признается случайной.

это опечатка, и следует читать «и если она больше α»?

igorek_seccode Nov 12 2014 at 10:04

Злобная опечатка! Поправил, спс.

igorek_seccode Nov 12 2014 at 10:12

И отвечаю по P-значениям. Alpha — это как бы «уровень строгости». Чем оно меньше, тем «сложнее» последовательностям проходить тесты, но уж если тест пройден, то с более высоким уровнем доверия.

NeverWalkAloner Nov 12 2014 at 10:52

Вот это вот меня как раз и смущает.
Если мы задаем такой низкий уровень строгости, то по элементарной логике (возможно ложной) создается впечатление, что 99 последовательностей из 100 пройдут тест.
Интуитивно просто кажется, что такое маленькое значение было бы оправдано, если бы последовательность принималась в случае если P<α, а не наоборот.

И поэтому я так понял, что тесты отбраковывают только самые очевидно неправильные последовательности, пропуская остальные. Это так? Или все-таки там какой-то подвох в матане?

igorek_seccode Nov 12 2014 at 11:06

А, понял причину вашего смущения. Попробую пояснить. Пример: взяли α = 0.001. Это всего лишь означает, что из 1000 последовательностей мы готовы незаслуженно отбраковать одну. (Та самая ошибка первого рода). Это конечно же не означает, что из этих 1000 мы заапрувим 999. В криптографии обычно берут 0.001 < α < 0.01.

Meklon Nov 12 2014 at 10:29

Вопрос. А в чем состоит проблема создания аппаратного генератора? Смесь шумящего микрофона, дребезжащего контакта, сканера радиочастот и света на Марсе. Все перемешать в равномерную кашу. Правда интересно.

0xC0CAC01A Nov 12 2014 at 10:38

Чтоб убедиться что с вашей конструкцией не случится вот это

Uint32 Nov 12 2014 at 10:42

В скорости.
Поток у аппаратных генераторов, как правило, хилый

igorek_seccode Nov 12 2014 at 10:45

Проблема в предсказуемости. Ваш микрофон может шуметь похожим образом с микрофоном вашего соседа. Или они узнают, какая у вас аудиокарта, купят такую же, и будут развлекаться )). Свет на марсе и радиоэфир более или менее одинаков для группы людей.

Наиболее реально, это всяческие шумящие диоды и их лавинные пробои. Вот они дают «кошерные» числа. Например как тут: holdenc.altervista.org/avalanche/

0xC0CAC01A Nov 12 2014 at 10:41

Вопрос в тему. Раньше была ещё батарея тестов Diehard, кто какие ещё знает?

Atakua Nov 12 2014 at 16:11

Diehard и сейчас есть. Есть ещё Dieharder. Есть тесты от NIST, о которых эта статья. Я в своей статье проверял свои же велосипеды, а также аппаратный RDRAND с помощью TestU01.

KvanTTT Nov 12 2014 at 12:20

Хорошая статья. В свое время обнаружил, что случайные последовательности можно проверять на степень сжимаемости с помощью стандартных архиваторов, я использовал 7zip с LZMA.
Есть исходники, может кому интересно будет: Random-Sequence-Analysis (также там реализованы другие простые тесты).

P.S. На хабре все-таки не хватает поддержки либы для отрисовки математических формул, например MathJax. Представляю, как могло быть муторно делать все это в виде картинок.

igorek_seccode Nov 13 2014 at 17:40

Не всё так плохо )
pdflatex в купе с convert -trim

vasiatka Nov 26 2014 at 09:03

Использую данные тесты для тестирования большого объема данных в качестве дополнительной методики.
Для тех кто, решит использовать этот пакет:
1. Программные коды представленные на сайте NIST далеко не оптимальны по скорости и памяти. Лучше реализовать самостоятельно.
В моем случае ускорение измеряется десятками раз. Для меня это критично, ибо объемы данных у меня таковы, что их реализацией будет считаться около двух лет, а мой оптимизированный вариант считает 1-2 недели. Думаю разница очевидна.
Причем ускорение достигается элементарными оптимизациями кода.
2. некоторые тесты содержат ошибки (в реализации на сайте ниста). То есть если ваши последовательности не проходят тест, не спешите с выводами — проверьте реализацию.
3. Там для вычисления вероятностей значимости в некоторых тестах используется функция igamc. Сравнивал полученные значения с данными Maple — погрешность составляла до 0,1. Последний факт сильно искажает результаты тестирования, распределение вероятностей значимости не проходит проверку на равномерность.
4. Поищите дополнительные публикации. Например, тест преобразования Фурье с ростом длины последовательностей начинает давать ошибку (так как реальное распределение статистик начинает отличаться от используемого приближения)

KaminskyIlya Mar 27 at 09:08

статья вызвала у меня неоднозначные чувства. с одной стороны - монументальный труд, явно выходящий за рамки простого обзора. Чего стоят только формулы, выложенные в виде картинок (да. Тогда еще хабр не позволял вставлять формулы - автор, мягко сказано, знатно помучился). При внимательном чтении все вроде бы сходится. Но при попытке реализовать самостоятельно тесты по описанным алгоритмам, сразу бросаются в глаза грубые опечатки с первой же главы. Например решил я реализовать Частотный блочный тест. и впал в ступор. а как рассчитываются числа pi?

считаю так - не сходится, считаю по-другому - не сходится. нарыл исходники тестов с сайта nist.gov - стало чуть понятнее, но не сильно. и подобных косяков в статье море. чтобы все их вскрыть, потребуется писать новую отдельную и не менее монументальную статью. я не готов, сорян.

И да - вишенка на торте. В середине статьи автор признается, что последовательность,
которую он гонял в тестах - вообще ни разу не случайна, и автор привел формулы, ее порождающие (читай главу Тест на линейную сложность).
Но внимание: все предыдущие тесты проходили очень успешно. И сразу доверие к таким тестам куда-то испарилось. Масло мне в огонь подкинул комментатор @vasiatka, после чего
доверие к тестам NIST вообще упало.
Неслучайность последовательности, перманентно мелькавшей в тексте, на мой проф.деформированный взгляд
видна невооруженным глазом, однако проходит все тесты. Вот взгяните на такие последовательности:
1011010101 - предложенная в статье
11011001111111011110010101011110001010101111101101110001001100000 - цифры числа Пи
110010001111100011001010001010001101111100011100000111 - цифры корня из двух
Не знаю, как по мне, видно что нижние 2 последовательности более сложны и имеют меньше повторяющихся паттернов.

А вообще статья шикарна, несмотря на выявленные недостатки. Автору плюс в карму. Хабр - торт.