Комментарии 36
спецсимволы, не имеющиеся на клавиатуре например такой: §
⌥ + 6 в латинской раскладке на OS X
0
Для этого я вычислил ожидаемые значения столбцов 6, 8, 10, просто построив сглаженную кривую – а затем найшел разницу с реальными величинами. Итог: примерно 2 миллиона (то есть, третья часть) паролей сгенерирована искусственно.Почему сразу искусственно? Уверен что эти значения выделяются из-за требований к минимальной длине пароля на момент регистрации.
+19
Либо, как вариант, возникают благодаря прогресс-бару с надписью «ненадежный пароль», меняющемуся по мере добавления новых символов.
+7
Если бы это было так, не было бы провалов в значениях 7 и 9. Было бы наложение таких же гладких кривых, только начинающихся со значения 6 и 8 (а значит, значения в точке 7 были бы всегда больше, чем в точке 6)
-5
Не соглашусь. Допустим, минимальная длина пароля — 6 символов. Это значит, что очень много пользователей поставят себе именно 6-значный пароль, 7-значных будет гораздо меньше, т.е. на 7-ми будет именно провал. То же самое и с 8 символами — если стоит такое ограничение, то большая часть использует именно 8 символов, а на 9-ти будет провал.
Причем, будет не плавный спад от минимально допустимого к более длинным, а именно резкий, т.к. люди ленивы, и очень часто длина пароля просто дополняется, чтобы соответствовать требованиям системы.
Кстати, можете это проверить на 8-знаках, если интересно. Поищите 8-значные пароли, начало которых совпадает с 6-значными (и 7-значными). Проанализируйте последние символы таких паролей. Потом поищите полученные из анализа последних двух символов (для 7-значных — последнего символа) паттерны в оставшихся восьмизнаках. Если моя логика верна, то вы получите наиболее типичные символы, которыми люди добивают пароль, чтобы система его приняла (наверняка там будет 0, 1, 7 или какой-нибудь символ типа $ или @).
Причем, будет не плавный спад от минимально допустимого к более длинным, а именно резкий, т.к. люди ленивы, и очень часто длина пароля просто дополняется, чтобы соответствовать требованиям системы.
Кстати, можете это проверить на 8-знаках, если интересно. Поищите 8-значные пароли, начало которых совпадает с 6-значными (и 7-значными). Проанализируйте последние символы таких паролей. Потом поищите полученные из анализа последних двух символов (для 7-значных — последнего символа) паттерны в оставшихся восьмизнаках. Если моя логика верна, то вы получите наиболее типичные символы, которыми люди добивают пароль, чтобы система его приняла (наверняка там будет 0, 1, 7 или какой-нибудь символ типа $ или @).
+8
Нет я всё понимаю, но почему пароль «lopata» такой частый мне не понять.
+2
По мне так размер пароля в 6, 8, 10 символов может быть вызван еще и всяческими генераторами паролей. Всяческие робоформс или тот же pwgen наверняка генерят пароли определенной длинны. pwgen например по умолчанию у меня дает те самые 8 символов.
Было бы интересно посмотреть нет ли паролей аля lopata1 lopata2 и тд. То есть когда идет какая-то явная для человека последовательность. Вот тут точно были бы боты
Было бы интересно посмотреть нет ли паролей аля lopata1 lopata2 и тд. То есть когда идет какая-то явная для человека последовательность. Вот тут точно были бы боты
0
Да. Поэтому я и написал в выводах: «сгенерирована искусственно», но не уточнил про ботов. Увы, способа определить ботов только по паре логин-пароль не существует.
0
Вот тут точно были бы ботыИМХО, боту проще сгенерировать пароль полностью случайно, взяв, например, первые 10 символов от md5(timestamp) с добавлением случайного символа из набора [@#$%^&*]. А (lopata1, lopata2, ...) больше похоже на человека, который регистрирует несколько аккаунтов вручную.
0
К вопросу парсинга: (.+)@([^@:]+):(.+)
Плюс можно прямо список доменов считать разделителем.
Плюс можно прямо список доменов считать разделителем.
+3
Извините, что я тут влезу с оффтопиком, но наболело: жутко бесят сервисы, ограничивающие длину логина снизу (т.е. минимум 6 символов например). Пример: skype. Жутко бесит, ведь мой логин везде — 5 символов и его приходится искусственно удлинять. И я не понимаю, зачем они это делают, ведь здесь нет никаких соображений безопасности, ведь логин — вещь совершенно публичная, указанная практически везде (по крайней мере мной)
На графике с длиной логинов хорошо заметен скачок на 4-х и 6-и символах.
На графике с длиной логинов хорошо заметен скачок на 4-х и 6-и символах.
0
При статистических исследованиях очень важна корректность входных данных. К сожалению в вашей выборке данные из разных источников, которые нельзя проверить на корректность. Например, получены ли пароли напрямую (сниффер, база с незашифрованими паролями) или кто-то перебирал пароли брутфорсом. Во втором случае, в базе почти не будет случайно сгенерированных паролей длиннее 7-8 символов, но они конечно же существуют, просто взломщик не смог их подобрать.
Пока вы не уверенны в гомогенности и корректности входящих данных, просто не имеет смысла проводить их статический анализ :(
Пока вы не уверенны в гомогенности и корректности входящих данных, просто не имеет смысла проводить их статический анализ :(
+2
Увы, работать приходится с тем, что есть — никто не даст базу данных действующих паролей. Единственный извесный мне случай полностью корректного исследования был два года назад: Уникальное исследование базы паролей университета Карнеги-Меллон
0
У меня ощущение, что дампы собраны отовсюду:
1. если если искать в поисковой по фразе «gmail.com777»
закэшированы на страницы emailsherlock.com, где есть пользователи
с подобной почтой (домен gmail.com777) на разных сервисах.
2. А также всякие контакты в указаны у ботов (https://vk.com/club77756895)
видимо ошибка в коде.
Но очень интересно откуда эти логины:)
1. если если искать в поисковой по фразе «gmail.com777»
закэшированы на страницы emailsherlock.com, где есть пользователи
с подобной почтой (домен gmail.com777) на разных сервисах.
2. А также всякие контакты в указаны у ботов (https://vk.com/club77756895)
видимо ошибка в коде.
Но очень интересно откуда эти логины:)
0
Также видно, что если для gmail более 90 процентов людей придумывают новый пароль, то для пары яндекс-мейлру наоборот – 80% паролей совпадают
Ну если у меня мейл почта восстанавливается через яндекс почту и наоборот, какой смысл второй пароль придумывать?)
+1
Как раз наоборот, мне кажется. Если две почты завязаны друг на друга, и пароли одинаковы — то получение доступа к одной из них автоматически дает доступ к другой.
0
Всегда, имея пароль от одной, можно сбросить пароль на другой через восстановление пароля. Смысл второго пароля?)
0
Такая ваша позиция очень удобна для человека, подсмотревшего/подобравшего ваш пароль.
0
Пароль с этих двух почт нигде не используется и не сохраняется, откуда его можно подсмотреть?)
0
Как вариант — в бинокль с балкона многоэтажки напротив)
0
Вы забываете об одной простой вещи — защиты от персонального взлома НЕТ.
Если захотят получить данные лично к вашей почте, то получат, что бы вы не делали. Нужно быть экспертом по безопасности и параноиком, чтобы от этого защититься.
Поэтому все правила гигиены в интернете — они от массового взлома, чтобы тупые атаки не зацепили ваш аккаунт, а не от персонального.
Поэтому в случае бинокля с балкона — вы можете делать что хотите, но вас все равно хакнут.
Если захотят получить данные лично к вашей почте, то получат, что бы вы не делали. Нужно быть экспертом по безопасности и параноиком, чтобы от этого защититься.
Поэтому все правила гигиены в интернете — они от массового взлома, чтобы тупые атаки не зацепили ваш аккаунт, а не от персонального.
Поэтому в случае бинокля с балкона — вы можете делать что хотите, но вас все равно хакнут.
0
Ппопробуйте взять статистику по тем записям, у которых расстояние Левенштейна между логином и паролем скажем меньше трех. Должно быть более показательно, чем просто полное совпадение. Еще интересно, насколько часты случаи, когда пароль имеет подстрокой логин
0
Посмотрим на рапределение длины логина – это равномерное распределение,
По-моему вы неправильно употребляете термин «Равномерное распределение». Посмотрите в Википедию или в любой учебник по теорверу — там под "равномерным распределением" имеется в виду совсем другое.
0
чего не скажешь про пароли.
Да, любопытно, что распределение длины пароля получилось бимодальным. Могу предположить, что это связано с разделением пользователей на 2 типа: те, кто не читал наставлений о том, что длина пароля должна быть не менее 8 символов, и те, кто читал.
Поэтому на 7 имеем провал — неискушенные пользователи считают, что в 7 символах нет необходимости, а искушенные — не используют 7 символов из соображений безопасности.
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Черная археология дата майнинга