Как стать автором
Обновить

Комментарии 44

Марина (Никита, Наташа) это реально загадка
Интересно было бы узнать сколько процентов учеток Марин взламывается паролем marina
10936 из 25 929 527 пользователей использовали пароль marina = 0.042%
А сколько из них — Марины?
Что было в 1937 году? Известная дата? И мне нет. Голову сломал выискивая, что же за событие произошло в этом году, да такое важное, что для россиянина стоит наряду с годами Великой Отечественной Войны. Гугл тоже не помог. Что-же произошло?

Можно было просто зайти на Википедию и узнать, что такого случилось в СССР в 1937: Большой террор, вполне сравнимо по важности с ВОВ.
Ах ну да, что ж я, почти каждый знает об этом, такая близкая сердцу дата. В 2017 будем всей страной отмечать.
Прошу прощения, некорректно выразился. Конечно дата важная, но не думаю, что это именно та причина по которой мы видим на гистограмме пик.
Да нет. Среди поколения постарше, кто еще хоть как-то застал СССР — это весьма и весьма известный год.
Что верно, то верно, все уши прожужжали с середины 80-х. В конце 80-х в магазинах обоев было не найти, так мы в общаге антисталинскими плакатами стены оклеили. И на каждом втором — 1937.
На цифровой части клавиатуры любят составлять последовательности, не задумаясь о смысле. В данном случае последовательность в виде Х.

upd.: почему-то ответ на подобный вопрос был в ветках ниже
Стыдно, конечно… Вроде и Архипелаг ГУЛАГ читал, но никак не связал дату. Сейчас о тех событиях не часто вспоминают, хотя погибло с миллион человек. А сгноили сколько в лагерях. Бабушка моя тоже пострадала, после тюрем с ума сошла последние 20 лет в дурдоме провела. Видимо, действительно на мое поколение не оказывали информационного давления по этому поводу, вот и не отложилось. Значит не Numpad…
Я думаю, что все таки это NumPad т.к. лично знаю людей с паролями 1937, 193728 и подобными. Но не отрицаю, что были и те, кто руководствовался историческими причтнами
Интересно, много ли в рунете почтовых сервисов с 25 929 527 юзерами?
Я бы порекомендовал автору все-таки уведомить @SERVICENAME@.
Я понимаю, что guard@servicename@ — нехорошо.
Но обычные пользователи тут ни при чем.
Уважающие пользователей e-mail провайдеры не хранят пароли в открытом виде и уже связались со мной и готовы получить всю необходимую информацию. Что же касается именно этого @SERVICENAME@ я им сообщил, думаю они в курсе какие пользователи не меняли пароль с 2009 года и заблокируют учетки. Кстати при попытке входа по рабочим кредам пользователям ненавязчиво напоминают о смене пароля. Даже смешно, предложить пользователю сменить его 10-летний пароль «1» с возможностью любезно отказаться.
У меня там 15-летний пароль стоит. И что-то не предлагают сменить.
Если мы говорим об одном и том же сервисе, то значит они знали об утечке и все что сделали это предложили пользователю сменить пароль.
Речь идет не о Почте Mail.Ru. Мы уже связались с автором и проверяем эту базу на предмет наличия валидных паролей наших пользователей
Интересно, почти все пароли состоят из цифр, а на западе такая же любовь к цифрам или нет?
Приведу сравнительную табличку Top20:
Заголовок спойлера
Adobe      | rockyou   | SERVICENAME
-----------------------------------
123456     | 123456    | 123456
123456789  | 12345     | 666666
password   | 123456789 | 654321
adobe123   | password  | 000000
12345678   | iloveyou  | 555555
qwerty     | princess  | 7777777
1234567    | 1234567   | 123321
111111     | rockyou   | 123123
photoshop  | 12345678  | 12345678
123123     | abc123    | 1234567890
1234567890 | nicole    | 777777
000000     | daniel    | 123
abc123     | babygirl  | 111111
1234       | monkey    | 121212
adobe1     | lovely    | 12345
macromedia | jessica   | 112233
azerty     | 654321    | 123456789
iloveyou   | michael   | 159753
aaaaaa     | ashley    | 987654321
654321     | qwerty    | 123654


Как видно русскоязычные пользователи, действительно, не любители использовать словарные пароли. Первый словарный пароль в сливе — «gfhjkm», стоит на 23 месте. Думаю связано с тем, что англоговорящие люди более свободно используют термины для описания объектов мира.
Что было в 1937 году?… Аналогичный пик найден в 8246, 2846 году и подобных.

Да просто эти цифры расположены по углам NumPad'а. Легко запомнить и быстро набрать.
Читаю Ваш пост и думаю: «Неужели забыл добавить эту инфу?!» Да нет предложением ранее все есть…
Все-таки произошло. Обновил статью.
Интересно ещё узнать TOP фраз в логине, по принципу:
marina_1
marina_2
marina_3
nikita
----
marina - 75%
nikita - 25%
Выберем всех Наташ, Марин и Никит:
grep 'marina' logins.txt > marina.txt
grep 'natasha' logins.txt > natasha.txt
grep 'nikita' logins.txt > nikita.txt

Подсчитаем количество строк:
wc -l marina.txt 
74501 marina.txt

wc -l natasha.txt
45156 natasha.txt

wc -l nikita.txt
23300 nikita.txt


Итого:
marina  - 52.1$
natasha - 31.6%
nikita  - 16.3%
Не совсем то. Итого тут получится:
52.1 + 31.6 + 16.3 = 100%

а я имел ввиду вообще все логины. Понятно что фразы: «marina», «natasha», «nikita» будут в TOP50, но интересно, какие ещё фразы в логине популярны у пользователей.
Как ни странно 25 + 75 тоже 100. К сожалению, не понимаю просьбы.
Понял, Вы наверное имеете в виду процент Наташ относительно всего числа пользователей?
По какому словарю предлагаете выбирать популярные фразы в 25млн строк?
Понял, Вы наверное имеете в виду процент Наташ относительно всего числа пользователей?

Верно
По какому словарю предлагаете выбирать популярные фразы в 25млн строк?

А вот на этот вопрос ответить не могу, но алгоритм выборки примерно следующий:
nik = {
    n: 1,
    ni: 1,
    nik: 1
    ik: 1,
    k: 1
}

tik: = {
    t: 1,
    n: 1,
    ni: 1,
    nik: 1,
    tik: 1,
    ik: 2,
    k: 2
}

и т.д. Для последнего логина у нас будут лидеры: «подстроки которые содержатся в максимальном количестве логинов»
То есть если положим на каждый логин в среднем 10 вариантов мы должны будем выполнить grep 250 000 000 раз… «Отличный алгоритм».
для таких целей можно использовать ключик -c у grep
grep -c 'marina' logins.txt
grep -c 'natasha' logins.txt
grep -c 'nikita' logins.txt
Мне кажется, или здесь есть неточность: grep выбрал все строки где в логине есть Марина ИЛИ в пароле есть Марина? Или Вы проводили выборку из файла-списка логинов?
Из файла где только логины.
а если убрать окончание у всех имён?
Чтобы в выборку попадали «nikitka», «nikitos», «nikitozzzz»,…
А зачем, мы же искали процентное соотношение, а при равных условиях к трём кандидатам погрешность будет невысока.
Если считать относительного общего количества пользователей там лучше считать без окончания.
А почему нет сравнения связи логина и пароля? По моему очень интересно тоже. Не говоря уже о простом админ/админ, логинов-паролей по типу masha/masha123 мне кажется было бы тоже не мало.
Действительно, добавлю.
Взял за пример «marina»:
25929527 аккаунтов
93547    аккаунтов с логином содержащим "marin" в различном Casing-е
Из них (процент от 93547):
    1593  (1.7  %)     с паролем "marina"
    95    (0.1  %)     с паролем "Marina"
    42    (0.04 %)     c паролем "MARINA"
    7     (0.007%)     с паролем "marina" в Suffle-Casing-е ("mArINA", "MaRiNa", "MARINa")

    658   (0.7  %)     с паролем формата /marina\d+/ ("marina43")
    43    (0.05 %)     с паролем формата /Marina\d+/ ("Marina51236")
    18    (0.02 %)     с паролем формата /MARINA\d+/ ("MARINA8734")

    651   (0.7  %)     с паролем с содержанием "marina" ("marinaiii", "17marina77", "Hrayr & Marina")

9314 аккаунтов с логином НЕ содержащим "marin", но с паролем "marina"
Спасибо, интересно. В данном конкретном случае получается около 3%. Для полного представления было бы еще интереснее узнать какую-то более полную статистику, хотя бы топ 50 логинов-паролей которые содержат друг друга. В наиболее универсальном формате, типа
/(\w+)\d* \1/i
(если логины-пароли пробелами разделены), а не просто про Марину. Чтобы, например, попала пара «marina1 Marina999».
И вставить это в общий топ 100 паролей, если получится. Типа
1. 123456
2. 666666
3. 654321

a. @@login@

n. /@@login@/i

m. /@@login@/i@50наиболее_частых_окончаний@

x. что-то еще с логином
Сорри, намутил там со знаками&nbsp@, а исправить пока не могу, но, думаю, смысл понятен.
А чем этот сервис лучше mail.ru и прочих, что его название скрыли? Сервис хранящий пароли в открытом виде должен понести репутационные потери, это правильно.
Боюсь все не так однобоко. Да и все-таки почти 10 лет прошло.
2. Nik1t03, с именами картина слегка другая, если учесть vfhbyf, yfnfif, etc., но дамы остаются лидерами
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории