Как стать автором
Обновить
337
0
Сергей Парамонов @varagian

Data Scientist, PhD in AI

Отправить сообщение
Всё хорошо и интересно, но пара мелочей, которая может быть также полезна и читателям:

  • Когда вводите какую-то новую математическую нотацию — явно прописывайте её перед использованием, все конечно догадываются, что !X — это дополнение множества Х, но лучше всего это явно прописать (у самого с этим проблемы);
  • По возможности использовать стандартные обозначения, например или для дополнения множества;
  • Сложные дроби в несколько этажей тяжело читать, возможно стоит попробовать \rfrac или другие функции для дробей.

P.S. Данные использованные в примерах где-нибудь доступны? Чтобы самим опробовать этот метод.
Имею ввиду, как можно технически получить доступ к количеству просмотров в RSS ленте Хабра?
Поясните, как учесть просмотры RSS и при чем здесь полное кеширование?
Уже задумался о том, чтобы собрать все данные за 2015ый год и в конце предоставить более менее достоверные данные по дням\неделям\месяцам.
И заодно вопрос, который может быть интересен хабра-жителям, считается ли хабр за интернет-СМИ?

В связи с тем, что условиях для журналистов указано:
размещенные в печатных или интернет-СМИ в период с 01.01.2014 г. по 10.02.2015 г. (в заявке нужно указать издание, публиковавшее работу, и действующую ссылку на публикацию или приложить ее скан)

А вопросы по данным и их формату тоже направлять вам? Имею ввиду те, которые указаны в «Основные источники открытых государственных финансовых данных».

Попробовал поглядеть, что внутри — там просто адовый ад, потребуются несколько десятков часов (по крайней мере на первый взгляд), чтобы понять, что там за данные и разобраться, как всё это хранится и что из себя представляет.
Не, можно и точно, весь вопрос в существовании эффективных солверов для класса сложности. Для NP есть куча эффективных SAT солверов, а для других классов их как правило мало и скорость поиска решений очень быстро падает с ростом сложности. Поэтому для конкретных задач часто используют эвристики и приближенные решения.

Для примера, SMT — обобщение SAT для разных логик в духе функций или арифметики. Сложность выше, скорость существенно меньше, но можно решать задачи в духе найти f такую, что f(x) > 5 для всех x и f(x) > f(y) для x > y.

Или answer set programming — решает задачи на второму уровне полиномиальной иерархии (т.е. один уровень выше, чем NP), используя некоторые логические правила вывода, из которых состоит программа.
Да, думаю много кому (включая меня) было бы интересно.
Кстати говоря, сам занимаюсь NP задачами (и выше) и иногда вижу статьи, которые успешно применяют GA для решения задач с примерно такой формулировкой: «Сложность задачи слишком высока для поиска точного решения, поэтому мы предлагаем генетический алгоритм в качестве аппроксимации». Обычно на этом этапе формальная спецификация задачи уже присутствует и вопрос в том, как найти хоть какое-то разумное решение.
В наступающем году обещаю добавить GT к хабра-аналитике :-)
Раз пошла серия ответов на вопросы, то тоже вклинюсь. Есть ли какая-нибудь информация о том, как изменилась аудитория Хабр после сплита?

Мой маленький монитор (см. график ниже) говорит, что средняя посещаемость «нового» сейчас ~ 600 просмотров в минуту (лучше это воспринимать, как каких-то условных енотов), а раньше было 800-850 в обычное время, то есть процентов на 20-30% просела посещаемость. Есть какие-нибудь более объективные данные?



p.s. Все собираюсь написать, про то какие посты и что-куда-сколько переехало, но было бы интересно взлянуть на более широкую картину (статистику и прочие данные по городам, странам, количестве просмотров статей пользователем), нельзя там как-нибудь договориться и опубликовать такие данные (или передать и опубликовать summary)?
Не могли бы вы пояснить графики для примеров 1 и 2, почему там по оси-Y одни нули?

И ещё все примеры англоязычные, есть какой-нибудь минимальный пример разбиения текста на русском? Например, разбить саму приведенную статью на предложения.
Хабр поменял версту и структуру, еще не довел руки переделать Хабра-аналитику.
Это, кстати, очень важный момент, что любая попытка заставить пользователей устанавливать только стойкие пароли — это такая игра: система устанавливает правила, а пользователи пытаются выставить самый просто запоминающийся (~= простой) пароль подходящий под эти правила. Поэтому условный «Qwerty!2» это намек, что какие бы правила не устанавливались всегда будет лазейка, чтобы их обойти.
Top надежных и очень надежных паролей — это самые популярные пароли, удовлетворяющие требованиям, то есть самые простые среди «надежных». В алгоритме использовал упрощенную версию PCI без всяких там словарных проверок, поэтому шедевры в духе Qwerty1& встречаются среди «очень стойких» паролей.

Вот собственно и топ по схеме пароль и количество совпадений:

Yandex Оч надежные

1qaz!QAZ 7
9966Look_In**joy 4
Qwerty!2 3
100%DimZey7747S 2
10Q7*maid.O 2
11HarmOny% 2
11Troglodit! 2
123qweR% 2
1qazZAQ! 2
1tsAfuck! 2
230Krasa& 2
AaBb01!# 2
Bl-a-4_*-A 2
Bnm123# 2
Cbcflvby#1 2
CfIf666^ 2
CFT^&7ygv 2
f0uL#e1L9 2
free!O_0*r1de 2
ghGH56%^ 2

Yandex надежные

Nhbujyjvtnhbz212 99
Noob572 50
sZCdu6he 36
1702Alex1991 31
tyAnna11 29
R15mO5I1g23sh8P1A7pE 26
Ghfgjhobrivfnrj007 22
Qwerty1 22
SK9dbf277 20
Dkfcnm13 18
Qwerty123 18
Sorbonne2011 17
b6v5vU3fFL 16
Dimabilan515 16
IditbBpopy13 15
Masha11 14
ITechnology12 12
1986nnNN 11
6270Nypi 11
a111111B 11

Mailru Оч надежные

1qaz!QAZ 20
!QAZ1qaz 7
!QAZ2wsx 7
ZAQ!2wsx 7
!4PolskaViza$ 6
zaq1ZAQ! 4
!QAZxsw2 3
ZXC123asd! 3
121609Dd+++ 2
123qweR% 2
1qazZAQ! 2
200_LeT_tomu_NazaD! 2
234/Manturovo*31 2
25N*nata.25 2
2w3e1q*I(O 2
535xBB# 2
AaZz1956** 2
AGVD23!!sv 2
ATOSmoroz*-+14 2
AvaL2205! 2

Mailru Надежные

Hd764nW5d7E1vb1 195
12e3E456 150
Qwerty123 64
Ghbr0k73 58
Jhnjgtl12 58
F64579820f 50
Vlad7788 47
Qwer1234 42
W1408776w 40
Shock123 39
Aa123456 38
Q1w2e3r4 38
kMNopr10s 37
DeSire3302 35
0L8KCHeK 34
Tk3281022 34
123qweASD 32
m7N56xO 31
Qwerty1 31
0K1o2V3a4L5e6V7 30

Gmail оч надежных нет, есть только надежные

p@ssw0rd 507
zaq1@wsx 155
p@$$w0rd 78
@lthebest1 58
pass@123 44
abc@123 40
1qaz@wsx 36
p@55w0rd 36
password@123 35
pass@1234 32
india@123 31
password@1 31
admin@123 30
p@55word 22
p@ssword1 22
data@123 20
wipro@123 19
upps@l@3 18
abcd@1234 17
asd123@# 16
Хорошо вписывается в версию о слитой группе баз сторонних ресурсов. Про это в UPD написано.
Не, это справедливое замечание, но сложно представить, что это 5 миллионов паролей 10 летней давности от Mail.ru (у них тогда вообще было столько пользователей?) и они не менялись всё это время.
Во многом справедливое замечание, но разве пароли из 4х символов когда-то были валидны? Да и задача в основном состоит в том, чтобы найти аномальные пароли и понять, как они могли попасть в базу. Пароли из 300+ символов всегда вызывают подозрение, особенно когда они содержат куски HTML-кода, как и пустые пароли или из 3-4х символов.

Безусловно, мы не можем знать, когда были созданы пароли — поэтому в тексте и было написано «по современным критериям». Короткие и слабые пароли — это индикатор того, что определенные атаки могли быть ответственны за часть данных в базе.

Информация

В рейтинге
Не участвует
Откуда
Antwerpen, Бельгия
Дата рождения
Зарегистрирован
Активность