Vayun Jun 16 2009 at 21:29

Случайные числа из звуковой карты

15 min

13K

Python*

+131

Comments 72

sysprg Jun 16 2009 at 21:44

Возможно, что качество возрастет, если иначе получить 1 бит из каждого отсчета, например, принимая за 0 отклонение значения в данном отсчете от среднего значения в данном окне/фрейме в меньшую сторону, и за 1 — отклонение значения отсчета от среднего значения для окна/фрейма в большую сторону.

Vayun Jun 16 2009 at 22:05

В смысле группировать сэмплы и брать по одному биту от группы? Это немного лишнее усложнение, приведенный пример unbiasing'а хоть и примитивный, но надежный. Если он не даст равномерное распределение, то последовательность не случайная 100%.

Сказанное справедливо для записи «тишины». Если есть сигнал, то можно/лучше не делать unbiasing, а замешать порцию данных чем-нибудь вроде SHA1 и использовать как seed для качественного генератора ПСЧ.

sysprg Jun 17 2009 at 08:26

Разные схемы аналого-цифровых преобразователей могут давать свои индивидуальные асимметрии в младших битах. Плюс могут использоваться разные техники для преобразования истинной частоты дискретизации при оцифровке в ту частоту, которую отдают софту, и они тоже внесут свои особенности в младшие биты.
В итоге может оказаться, что младший бит в каждом сэмпле всегда равен нулю. Или, например, что три младших бита принимают только значения {5, 6, 7}. Поэтому думаю, что лучше не использовать младший бит напрямую (даже с последующей заменой по шаблону). Вместо этого попробовать для какого-то «окна» (например, для одного считанного фрейма) рассчитать среднее (как вещественное число) и далее смотреть, в какую сторону каждый из семплов отклоняется от этого среднего, и в зависимости от этого генерировать 0 или 1, а точное попадание на середину игнорировать.

Vayun Jun 17 2009 at 08:45

Согласен, я писал что структура случайности зависит даже от софтовых настроек (они могут включить предобработку внутри карты). Поэтому статью не стоит рассматривать скорее, как направление, в котором надо копать, а не безапелляционное руководство к действию. Условия в которых описанный подход работает с моими звуковыми картами четко указаны, я не отрицаю возможность существования других ситуаций)

Если установлено, что случайность содержится в битах {5,6,7}, то проще к ним применить туже процедуру, что и в статье (возможно лучше рассматривать их три независимых канала, надо тестировать). Т.к. взятие среднего все равно не обеспечит равномерного распределения.

Если же известно что в потоке есть случайность но не известно в каких именно битах (или она плавает между битами), то надо брать все целиком и скармливать SHA1)

sysprg Jun 17 2009 at 10:02

Согласен, что звуковая карта дает дополнительный источник случайных битов. Но на качество этого источника сложно полагаться.
Например, я замечал, что старые АЦП хорошо улавливали различные шумы от работы оборудования внутри компьютера, например, от HDD, да и вообще от 50/60 Hz. :)
Если бы шум при оцифровке нулевого сигнала был идеален, то Ваша процедура unbiasing была бы вообще ненужна… Если она нужна — значит там не совсем шум. Скорее всего там спектр будет совсем неровным (если взять исходные данные без обработки).
А вообще Ваша статья — понравилась.

Vayun Jun 17 2009 at 11:00

> Если бы шум при оцифровке нулевого сигнала был идеален, то Ваша процедура unbiasing была бы вообще ненужна… Если она нужна — значит там не совсем шум.

Полагаю что «идеальным» вы считаете т.н. «белый шум». Проблема в том, что в природе он практически не встречается.

То что распределение процесса не равномерно, отнюдь не значит, что он не случайный. Абсолютно все аппаратные ГСЧ (будь то радиоактивный распад, оцифровка «голосов космических цивилизацай» или пролет фотонов через полупрозрачное зеркало), требуют последующего unbiasing. Даже если источник идеальный, процесс оцифровки вносит сдвиг в распределение (тот самый bias).

Сама идея выравнивания распределения и алгоритм использованный в статье были предложены фон Нейманом, при описании экспериментов с неидеальной монетой (а идеальных монет как мы знаем не бывает).

> Если бы шум при оцифровке нулевого сигнала был идеален, то Ваша процедура unbiasing была бы вообще ненужна… Если она нужна — значит там не совсем шум.

В принципе можно попробовать устранить подобные вещи, путем оцифровки в стереорежиме. В полученных двух каналах затем необходимо удалить общую составляющую.

Спасибо за интересные комментарии.)

maxshopen Jun 16 2009 at 22:10

>> К сожалению, 100%-ых критериев в статистике нет, тк с определнной вероятность ваша звуковая карта может сгенерировать эту статью (собственно так я её и получил — шучу).

Только за одну эту шутку я готов инкрементировать ваши персональные хабрапараметры, спасибо за настроение :)
Ну и за статью конечно!

Vayun Jun 16 2009 at 22:14

спасибо, это моя первая статья на хабре
(о! и я опечатку заметил, ща пофиксим)

Ferroman Jun 17 2009 at 16:24

Весьма неплохое начало, так держать.

DnV Jun 17 2009 at 18:14

Эта шутка полностью отражает смысл статьи. Суть — сведение мозга у теоретика. Нет ни одного практического примера, где качественный генератор ПСЧ не может быть применён. И уязвимость его как раз и будет равна вероятности генерации этой статьи звуковой картой.

elanc Jun 16 2009 at 23:21

Нашел готовые решения для windows и *nix, если кому интересно, как и мне:
www.cyotec.com/resources/cyorand/ — для windows
www.digital-scurf.org/software/randomsound — для *nix

elanc Jun 16 2009 at 23:26

Имею ввиду готовые исполняемые файлы для windows. Для *nix придется собрать.

awf Jun 17 2009 at 08:57

Для Debian (lenny, squeeze, sid) есть готовый пакет randomsound

Vayun Jun 16 2009 at 23:50

randomsound — судя по описанию, передает данные в random pool ядра линукса. Это специальная часть ядра, которая может принимать «случайность» данных в любых формах из разных источников. Внутри (ядра линукса) применяется ряд алгоритмов, чтобы равномерно распределить «случайность» среди битов массива (кажется там MD5 или что-то на подобии), также ведется учет имеющихся битов случайности.

Единственная возможная проблема (в код не смотрел) может быть, что надо каким-то образом оценить «количество случайности» перед передачей данных ядру.

cyorand — для именно исследования поведения аудиокарт на мой взгляд подходит слабо, т.к. там применен некий доморощенный алгоритм смешения исходных данных, который случайности не добавляет (ибо это не возможно:) ), а картину запутывает. Интересно было бы посмотреть на тесты более продвинутыми пакетами типа diehard или NIST.

Если вырезать алгоритм смешивания, то получится аналог описанного в статье, только на Си. Я люблю Си и первый вариант моей программы тоже был на нем, но он не так нагляден, как Питон (желающие могут заглянуть в код cyorand).

OLS Jun 17 2009 at 02:57

Статья интересная, хорошая.

Вот это не всегда верно:
В режиме записи 16 бит случайную информацию несет только самый младший бит из каждого сэмпла, в 24 битном режиме — несколько младших, но надежней всего всегда брать только один самый младший бит.

В 2004-м году я своим студентам специальности «Программное обеспечение» на курсовую по «Защите информации» давал задание сделать то же самое, что делаете Вы (с тестированием случайности по FIPS). Результаты следующие:
самые младшие биты шумового потока не всегда достаточно случайны, на некоторых звуковых картах
самый младший бит даже банально не распределен равномерно. Наибольшую энтропию несут 2-3-4 бит при 16 битном семплировании.

Vayun Jun 17 2009 at 07:11

Скажем так, в том месте статьи, где это утверждение стоит, его можно считать гипотезой (достаточно разумной :) ).

А в целом по статье это результат эксперимента) В случае аудиокарты (моих двух) и записи «тишины», 2-3-4 бит не могут нести случайные данные, так они банально всегда равны нулю, а меняется только самый младший.

Равномерность распределения это не проблема, она практически ни в одном аппаратном ГСЧ не достигается «из коробки». У меня равномерность лечится алгоритмом фон Неймана, можно также криптографические хеши использовать, но только после того как установлена случайность источника.

DIDJER Jun 17 2009 at 08:10

В жизни нет ничего случайного и физика нам это доказывает с каждым днём. Но данная имитация полезна, но где она может применяться на практике?

OLS Jun 17 2009 at 08:12

после соответствующей обработки — при генерации одноразовых (сессионных) криптографических ключей

DIDJER Jun 17 2009 at 08:23

А может случится такой вариант что, воссоздать уровень шумов влияющих на получение уникального значения получится сторонним лицам?

dime Jun 17 2009 at 09:09

Гипотеза утверждает, что содержимое младшего бита сигнала после АЦП — это результат теплового шума (хаотичного движения электронов), поэтому, принимая данную гипотезу, повлиять на это не возможно. В реальности, прямой доступ к младшему разряду АЦП может быть сильно затруднён или вовсе невозможен. Поэтому, для какого-то набора аппаратуры, такое, наверное, можно сделать. Поэтому, применять напрямую эту схему в ответственных местах нельзя — нужно тщательно исследовать каждый конкретный набор аппаратных и программных средств. Как-то так.

Vayun Jun 17 2009 at 09:46

Естественно для серьезного применения желательно комбинировать несколько независимых источников.

Еще можно поиграть в теорию заговора и предположить, что производители звуковых карт в сговоре с ...(подставить нужное) вычищают случайность и подставляют предсказуемую последовательность ПСЧ)

Vayun Jun 17 2009 at 08:28

Как теорфизик (еще и работающий по специальности) я бы сказал, что в нашей жизни всё случайно. Но вероятность разных событий естественно подчиняется физическим законам (а касательно жизни — здравому смыслу). Т.е. если учиться в университете умным 100% не станешь, но вероятность поумнеть там значительно выше, чем если вместо универа лежать на диване и смотреть сериалы.

Данная имитация полезна тем, что просто интересна) Ну и в принципе, после должной проверки может использоваться как дополнительный источник случайности там, где она нужна (в криптографии например).

В качестве развлечения, я реализовал шифрование RC4, где данные шифруются случайным ключом (полученным как в статье), а ключ шифруется паролем. Таким образом обходится уязвимость RC4 к повторному использованию одного пароля.

DIDJER Jun 17 2009 at 08:37

Просто мы ( люди ) очень многое ещё не объяснили, но я уверен что за каждым следующим событием ( «случайным» ) стоит череда причин его появления.

Vayun Jun 17 2009 at 08:48

Это скорее философский вопрос восприятия мира. Кому-то так удобней, кому-то по другому.

Если подумать то в практическом отношении разницы нет) В науке это называется «теория скрытых параметров». См. ru.wikipedia.org/wiki/Теория_скрытых_параметров

DIDJER Jun 17 2009 at 10:33

Но вы наверно согласны с тем, что методы подсчёта вероятности очень уж погрешны и требуют альтернатив?

Vayun Jun 17 2009 at 11:06

Это вопрос больше философский) Задача физики — описать эксперимент и предсказать резульат аналогичного эксперимента в будущем.

В данный момент, для определенного класса процессов (квантовых) мы можем предсказать лишь распределение вероятности результата, но не результат каждого отдельно измерения.

Да что в квантовую физику лезть? Пример из классической: нелинейная динамика с.м. ru.wikipedia.org/wiki/Эффект_бабочки

DIDJER Jun 17 2009 at 12:17

«Задача физики — описать эксперимент и предсказать резульат аналогичного эксперимента в будущем.»

Этот эксперимент ещё нужно создать, задача физики создать предпосылке к эксперименту а потом и сам эксперимент а описать и предсказать могут и техники.

Vayun Jun 17 2009 at 12:23

Главной предпосылкой к эксперименту, является окружающий нас мир) Эксперимент это изучение явлений природы в контролируемых, повторяемых условиях (определение «из головы», на истину в последней инстанции не претендую).

«Описать» не смысле записать числа на бумажку, а ответить (постараться) на вопросы «как» и «почему».

DIDJER Jun 17 2009 at 12:55

Тогда всё сводится к поиску новых явлений природы и это основная задача физики :)

pixxxel Jun 17 2009 at 08:29

Раз вы с физикой на ты, может быть сможете объяснить принцип квантовой неопределенности?

DIDJER Jun 17 2009 at 08:46

Пошёл писать диссертацию.

Vayun Jun 17 2009 at 09:54

В двух словах описать я не возьмусь, тряпками закидают) Гляньте Википедию или какие-нибудь популярные статьи.

mezastel Jun 17 2009 at 08:27

Чего я не понимаю так это зачем все это было писать на питоне. Чем С++ не подходит?

Vayun Jun 17 2009 at 08:32

На Питоне короче, легче и быстрее вносить изменения, т.к. это эксперимент и параметры приходится варьировать) Считайте, что прототип мы пишем на Питоне, чтобы потом реализовать сразу как надо на С++ (если нужна скорость например, или хотим сделать библиотеку)

coocheenin Nov 25 2011 at 10:48

Большое вам спасибо за адаптацию кода на python!
Для людей без специальной академической подготовки (высшего мат. или физ. образования) код на питоне доступнее, нагляднее и элементарно понятнее.

caston Jun 17 2009 at 08:28

1. Преобразование случайной величины её функцией распределения u =F(x) даст равномерное на [0, 1]. То есть полученную выборку можно просто ранжировать.
2. Коэффициент коррелляции (Пирсона, Кендалла, Спирмана) равный нулю не свидетельствует о независимости пары случайных величин.

caston Jun 17 2009 at 08:31

опечтк. корреляции

Vayun Jun 17 2009 at 08:35

1. Функция распределения у звуковой карты нам не известна. Так же не известно является ли она постоянной во времени или зависит от температуры/ветра на Марсе или еще чего.

2. Но вы не отрицаете, что он стремится к нулю для случайных величин? Как минимум он позволяет отсеять величины явно не случайные. Более сложные статистические тесты приведены по ссылкам.

caston Jun 17 2009 at 08:47

1. Значение в выборке предлагается заменить рангом = место в отсортированном по возрастанию массиве / объем выборки. То есть преобразовать эмпирической функцией распределения.
2. Я хотел сказать, что это не критерий. Для независимых СВ корреляция равна нулю, обратное не верно. Но отсеять можно, вы правы.)

Vayun Jun 17 2009 at 09:50

1. Чтобы преобразовать эмпирической функцией распределения, придется групировать биты в числа и в даже в этом случае будет ошибка дискретизации в равномерности ответа (это не критично, но зачем?).

Сами биты так преобразовать не получится. Например функция распределения (0 — 13%, 1 — 87%), что делать?

bolk Jun 17 2009 at 08:29

а в Linux/BSD есть urandom.

bolk Jun 17 2009 at 08:46

Товарищи минусующие, это не holywar, а дополнение к статье.

kolen Jun 17 2009 at 08:52

Зато в вашем Линуксе нет DirectX, поддерживающего 24-битный звук!

bolk Jun 17 2009 at 08:56

Он не «наш». У меня все десктопы — Windows (дома — Windows 7, на работе — Windows XP), а вот сервера — Hardy.

icee Jun 17 2009 at 11:35

Насколько мне помнится, urandom как раз и пополняется из random pool, про который упоминали выше в контексте randomsound. Кроме того, туда падают движения мышью и нажатия клавиш.

darkk Jun 18 2009 at 00:02

urandom — ГПСЧ.

Vayun Jun 18 2009 at 00:18

Если быть точным то urandom становится чистым ГПСЧ, после того как накопленный ядром запас энтропии будет исчерпан. А вот random в этом случае просто приостановит вывод.

kolen Jun 17 2009 at 08:52

Когда на компьютеры будут ставить встроенные звуковые карты с очень хорошим АЦП, как сейчас на профессиональных конвертерах, тогда все начнут скупать старые аудиокарты, потому что они дают очень хорошие случайные числа!
Это так же как сейчас с допотопными ламповыми усилителями и проигрывателями виниловых дисков.

bolk Jun 17 2009 at 08:57

Возможно, сделают специальный шумящий выход для получения случайных чисел.

OLS Jun 17 2009 at 10:32

Об аппаратных ГСЧ время от времени вспоминают все производители чипсетов — там побывали и Intel и AMD и VIA…
К сожалению нормального единого стандарта так и не разработали.
Microsoft CryptoAPI умеет в случае установленного на материнке чипа и драйверов предоставлять доступ к такому ГСЧ.
Последнее веяние, которое я слышал, может меня поправят, — это стандарт TPM от Trusted Computing Group.

Vayun Jun 17 2009 at 09:53

У хороших карт разрешение выше. В 24 битах избежать шума практически не возможно (да и не рационально). А вот вырезать/подменять могут.

DarkPhoenix Jun 17 2009 at 09:02

Очень хочется запостить картинку с летчиком (ну, которую на дёрти любят постить).

sindrom Jun 17 2009 at 13:47

А вы попробуйте. Может быть многе вас поддержат :)

DarkPhoenix Jun 17 2009 at 14:31

Хорошо бы, да карма слита. Может, вы? :)

sindrom Jun 17 2009 at 21:07

Ладно, можно рискнуть :)

bethoven Jun 17 2009 at 10:39

хорошая статья ;) в свое время bass.dll использовал из delphi для получения начального seedа для обычного дельфийского ГСЧ. Было это в системе пакетного тестирования различных ГА для задачи о рюкзаке. Но насколько улучшается точность тестов при задании таким образом seedа осталось для меня загадкой.$)))
А первоначально использовалось что-то в духе md5 от GetTickCount xor GetCurrentProcessID.

Vayun Jun 17 2009 at 11:08

В таком варианте большую роль играет качество ГПСЧ.

ssve Jun 17 2009 at 11:23

500 кБ !== 500000 байт

Vayun Jun 17 2009 at 11:44

Несомненно. Где я утверждал обратное?)

TimTim Jun 17 2009 at 12:47

Можно суммировать плюсики за топики, чем не случайное число (вот только маленькое)…

protrener Jun 17 2009 at 13:10

Попробуйте протестировать полученные с аудио-карты случайные числа набором тестов Die Hard (http://en.wikipedia.org/wiki/Diehard_tests).

и после этого сравните, например, с тестами набора случайных чисел Marsaglia (целый CD-ROM с шумом) (http://www.stat.fsu.edu/pub/diehard/).

Вы будете неприятно удивлены.

Вы можете сколько угодно долго оттачивать программные алгоритмы и аппаратную часть, но Ваши труды не будут ничего стоить, т.к. на другой такой же звуковой карте (той же модели и даже из той же серии) вы получите совсем другие результаты и не факт, что они будут отличаться в лучшую сторону.

Vayun Jun 17 2009 at 15:21

Лично я удивлен не буду, тк тестировал)

Die Hard'ом тестировался вывод SB Live 24bit (когда она у меня была) в 24 битном режиме. Данные прошли тест, уже не помню точно вероятность, но близко к 99%.

Сейчас мне было лень его пересобирать, поэтому я использовал «NIST Statistical Test Suite», который не хуже, я бы сказал лучше, тк их методика подробно расписана в статье csrc.nist.gov/publications/nistpubs/800-22-rev1/SP800-22rev1.pdf (англ.). В моем тесте использовалась выборка из 100 последовательностей по 5000000 бит. Преодолен установленный порог для всех тестов, кроме двух (по понятным причинам, для них нужны очень длинные последовательности). Генератор случайный с 99% вероятностью.

К тому же, никто не запрещает использовать алгоритмы для неидеальных источников, тк случайность там присутуствует, даже если она засорена чем-то (а еще можно уменьшить/убить корреляции записью в стерео режиме, что тут не обсуждалось). Идея статьи использовать минимум обработки, чтобы оценить кол-во энтропии в сигнале как таковом.

А то что для разного харда, разные результаты, я не отрицаю (хотя формулировочка у вас далека от нейтральной). И шифровать государственные тайны этими ключами не агитирую)

DrImp Jun 17 2009 at 15:45

Звуковые карты особенно распространены на серверах, в стойках.

kolen Jun 19 2009 at 06:40

А что, действительно бывают аудиоинтерфейсы, монтирующиеся в стойку.

Throwable Jun 17 2009 at 16:46

Младший бит не всегда будет случайным, потому что после АЦП может производиться округление и нормализация. На неслучайность также сильно может повлиять наводка сигнала от какой-нибудь микросхемы (мало их чтоли). Вообще, кому уж очень нужен сильно рандомный генератор, лучше купить для этого соответствующий хард.

Vayun Jun 17 2009 at 17:19

Статья не для тех кому сильно нужно, а для интересующихся. Тема младших битов, наводок и тд раскрыта к комментариях.

p4s8x Jun 17 2009 at 21:49

Безумно интересная статья! Побольше бы таких! Спасибо. Как раз занимаюсь имитационными моделями с стохастическими параметрами, есть над чем задуматься!

Vayun Jun 17 2009 at 22:18

Если понравилось, рекомендую почитать и комментарии (те что без картинок). В них затронуты несколько интересных моментов не освещенных в статье.

klimin007 Jun 18 2009 at 02:33

Помню, в чипсете Intel 815, кажется, был аппаратный генератор случайных чисел, основанный на тепловом шуме и т.д. Ну неужели нельзя встраивать такой во все современные чипсеты и даже процессоры? Решили бы много проблем в тех областях, где нужны истинно случайные последовательности. Есть ведь подобные аппаратные решения от третих лиц.

OLS Jun 18 2009 at 06:17

habrahabr.ru/blogs/python/62237/#comment_1717330

Vayun Nov 25 2011 at 09:42

В качестве доп. литературы habrahabr.ru/blogs/python/62237/ )
Там заодно написано как получить равномерное распределение.

Vayun Nov 25 2011 at 09:46

упс, мимо) habrahabr.ru/blogs/DIY/133320/