Специалист по анализу больших данных и независимый ИБ-исследователь Ата Хакчил (Ata Hakçıl) собрал и проанализировал более миллиарда строк с логинами и паролями, дампы которых разрознено находились в сети и были получены в результате различных утечек. Результаты своей работы Хакчил выложил на GitHub под лицензией MIT.
Хакчил отфильтровал из этой большой базы данных из более чем миллиарда записей поврежденные данные, а так же убрал тестовые записи или строки в некорректном формате. В итоге он смог из нее выделить 168 919 919 паролей и 393 386 953 логинов. Причем около 7 миллионов строк были с паролем «123456». По словам специалиста, этот «пароль» является самым распространенным у пользователей последние пять лет.
Дальнейший анализ данных Хакчила показал, что:
- самый распространенный пароль — «123456», он встречается примерно в 0,722% случаев, далее идут «123456789», «password», «qwerty», «12345678»;
- 1000 самых распространенных паролей, это примерно 6,607% от всех изученных паролей;
- 8,83% из общей базы паролей являются уникальными, остальные встречаются два и более раза;
- средняя длина пароля составляет 9,4822 символа;
- только 12,04% паролей содержат специальные символы;
- 8,79% паролей содержат только буквы;
- 26,16% паролей содержат символы только в нижнем регистре;
- 13,37% паролей содержат только цифры;
- 34,41% всех паролей заканчиваются цифрами, но только 4,522% паролей начинаются с цифр (тут, вероятно, имеются в виду смешанные пароли — с буквами и цифрами).
Вдобавок Хакчил выложил на GitHub четыре выборки с данными о частоте применения типовых паролей, а также и файлы, содержащие сборники (1 тыс., 10 тыс., 100 тыс., 1 млн и 10 млн) самых популярных паролей. Эти данные можно использовать для различных исследований и ускорения подбора паролей, например, при работе с некоторыми инструментами в Kali Linux.
Также Хакчил опубликовал списки из 150-ти самых слабых паролей среди пользователей, которые говорят на различных языках, например, на русском, украинском и других 27-ми языках.
Исследователь пообещал, что будет и далее проводить анализ данных из дампов и выкладывать их регулярные обновления на GitHub.
См. также: