Статьи / Профиль varagian / Хабр

Как стать автором

Сергей Парамонов @varagian

Data Scientist, PhD in AI

Профиль Публикации 36Комментарии 404Закладки 269

varagian 13 янв 2015 в 11:01

Когда никто не читает Хабр

3 мин

31K

Data Mining*Визуализация данных*

Давным давно у меня родилась гипотеза: «Все айтишники, так же как и я, читают новости и статьи на работе за чашкой чая-кофе в самом начале дня и где-то после обеда».

Чтобы проверить эту гипотезу (ну и не только для этого, конечно) в прошлом году написал и опубликовал монитор Хабра под названием Пульс Хабра. Так как гипотезы необходимо проверять, я занялся сбором данных и анализом закономерностей поведения Хабра-жителей.

Сегодня решил поделиться основными наблюдениями.

Структура статьи:

Читать дальше →

+50

varagian 29 дек 2014 в 11:43

Играем с генетическими алгоритмами

6 мин

102K

Программирование*Алгоритмы*Математика*

Одним субботним декабрьским вечером сидел я над книгой The Blind Watchmaker (Слепой Часовщик), как на глаза мне попался невероятно интересный эксперимент: возьмём любое предложение, например Шекспировскую строку: Methinks it is like a weasel и случайную строку такой же длины: wdltmnlt dtjbkwirzrezlmqco p и начнем вносить в неё случайные изменения. Через сколько поколений эта случайная строка превратится в Шекспировскую строку, если выживать будут лишь потомки более похожие на Шекспировскую?

Сегодня мы повторим этот эксперимент, но в уже совершенно другом масштабе.

Структура статьи:

Осторожно трафик!

Читать дальше →

+43

varagian 15 сен 2014 в 09:38

Анализ утёкших паролей Gmail, Yandex и Mail.Ru

10 мин

147K

Информационная безопасность*

Совсем недавно в публичный доступ попали базы паролей популярных почтовых сервисов [1,2,3] и сегодня мы их проанализируем и ответим на ряд вопросов о качестве паролей и возможном источнике (или источниках). Так же мы обсудим метрики качества отдельных паролей и всей выборки.

Не менее интересными являются некоторые аномалии и закономерности баз паролей, возможно, они смогут пролить свет на то, что могло служить источником данных и насколько данная выборка является опасной с точки зрения обычного пользователя.

Формально, мы рассмотрим следующие вопросы: насколько надежными являются пароли в базе и могли ли они быть собраны словарной атакой? Есть ли признаки фишинговых атак? Могла ли «утечка» данных быть единственным источником данных? Могла ли данная база быть аккумулирована в течение длительного периода или данные исключительно «свежие»?

Структура статьи:

Читать дальше →

+129

varagian 18 июл 2014 в 09:16

Пишем простую систему рекомендаций на примере Хабра

4 мин

40K

Сегодня мы поговорим о рекомендательных системах, а точнее о самой простой форме коллаборативной фильтрации. В программе передач: что такое рекомендательная система, на чем основана, каков математический аппарат и как её можно воплотить в код. В качестве бонуса предоставим результаты в виде простого сервиса.

Что такое рекомендательная система
Интуиция
Теория
Реализация: код и данные
Сервис Хабра-рекомендаций
Хабра-аналитика

Читать дальше →

+20

varagian 16 июл 2014 в 09:25

Синдром ступеньки и срез посещаемости Хабра

3 мин

18K

Последнюю пару недель внимательно слежу за работой Хабра с помощью Хабра-аналитики и решил собрать свои наблюдения в статью. Сегодня мы обсудим: когда и в каком количестве читают Хабр; что такое «синдром ступеньки»; как получить данные о своих статьях и чем можно провести их анализ.

Статистика посещаемости
Просмотры статей: синдром ступеньки
Публичность данных
Хотлинк Хабра-графиков
Весь инструментарий онлайн

Статистика посещаемости

(интерактивная версия доступна здесь и, если сайт упадет, то здесь)

Читать дальше →

+48

varagian 1 июл 2014 в 11:17

Пульс Хабра

5 мин

25K

callidus77: Помница в нашей сетке монтажники подключали абонента. Пришли, воткнули сетевуху, а у него Фря и дров нету. Почесали головы и ушли. Чел через три недели наконец-то коннектится.
Грят: «Долго ж ты искал дрова.»
Он: «Я не искал. Я их сам написал.» Баш

Наверное, каждый автор трепетно следит за судьбой своих статей, такому автору на хабре всегда чего-то не хватает. Мне всегда не хватало инструментов наблюдения за статьями — поэтому я и решил их написать.

Под катом мы разберемся с основными инструментами ресурса и потенциальной возможностью применения. Весь инструментарий доступен по адресу http://www.habr-analytics.com, исходный код (основные функции) на github. За примерами и деталями — добро пожаловать под кат!

Структура статьи

Пульс Хабра
Монитор статей
Анализ пользователей
Пересечение хабов — диаграммы Венна
Аудитория хабов
Исходный код и структура проекта
Заключение

*Осторожно трафик*

Читать дальше →

+128

varagian 28 апр 2014 в 09:44

Habra Analytics Tools: сравниваем хабы

3 мин

4.7K

Если вы не читаете хабр по выходным, то скорее всего пропустили запуск мини-проекта Habra Analytics Tools. Цель проста — предоставить авторам Хабрахабра инструментарий для анализа статей и хабов. Первые инструменты посвящены анализу и сравнению хабов, и прежде всего они полезны для оценки аудитории статей. Например, график справа показывает, какие хабы также читают подписчики «Google» (высота столбика — процент подписчиков, который так же читает хабы по оси Х), а слева визуальную диспозицию относительно двух других хабов («Искусственный интеллект» и «Linux»).

Построение диаграмм Венна мы обсудили ранее вот в этой статье, исходники доступны на github (или готовые исполняемые файлы под Windows, Linux и Mac OS) — вам так же нужно будет скачать и распаковать data.7z (также необходим для данной статьи).

Здесь же мы поговорим о предпочтениях читателей определенного хаба по отношению сразу ко всем остальным хабам Хабрахабра.

Читать дальше →

+15

varagian 26 апр 2014 в 16:41

Наbra Analytics Tools: аудитория хабов

2 мин

6.6K

Визуализация данных*

Исследуем аудиторию

Перед каждым автором на Хабре встает вопрос: «В какие же хабы разместить статью»? Безусловно, ответ прежде всего зависит от темы. С другой стороны, многие статьи достаточно широкого профиля и приходится тщательно выбирать в какие три хаба написать. Сам Хабр такого инструментария для анализа не предоставляет. А что делают обитатели хабра, когда инструмент нужен, а его нет? Они его пишут!

Тогда же мне пришла мысль, что неплохо было бы иметь простой визуализатор, который бы выдавал простую статистику по хабам и их совместной аудитории, например вот так:

По картинке сразу видно, насколько пересекаются читатели различных хабов и имеет ли смысл заменить какие-либо из них.

Читать дальше →

+44

varagian 18 апр 2014 в 09:00

Часть первая, а вторую часть всё равно никто не читает

5 мин

33K

Блог компании DM LabsData Mining*

О чем собственно речь

Как-то раз одним поздним декабрьским вечером завершился сбор материала для хабра-статьи, посвященной SAT. Материала оказалось слишком много и передо мной встал выбор: разделить статью на две части или собрать весь материал вместе в одной статье. Выбор был сделан в пользу разделения на части (первая и вторая). К моему удивлению, вторая часть получила значительно меньше внимания, чем первая — фактически её прочитали в два раза меньше человек.

Время шло, и я стал замечать, что это происходило не только с моими статьями, но и со многими другими статьями в нескольких частях. Тогда у меня возник вопрос, а верно ли в общем, что вторая часть получает меньше внимания (просмотров, плюсов, и записей избранного)?

(сделано на основе хабра-статьи Как лгать с помощью статистики)

Структура статьи

Читать дальше →

+55

varagian 14 апр 2014 в 09:19

Портрет Хабра-tutorial

13 мин

12K

Блог компании DM LabsHabr

В наш век только бесполезные вещи и необходимы человеку. Оскар Уайльд, Портрет Дориана Грея (источник)

А вы никогда не задумывались, чем обычный пост на хабре (порошок обычный^TM) отличается от tutorial? И как это «отличается» вообще можно измерить? Есть ли здесь какие-то закономерности и можно ли по ним предсказать метку:

В данной статье мы обсудим так называемый exploratory data analysis или кратко EDA (исследовательский анализ данных) применительно к статьям Хабрахабра, а в частности уделим особое внимание tutorial. Прежде всего EDA направлен на детальное изучение данных, и необходим для понимания, с чем мы собственно работаем. Важной частью является сбор и очистка данных и сам выбор какие данные собирать. Особенность метода состоит в визуализации и поиске важных характеристик и тенденций.

Exploratory data analysis — это первый шаг в изучении и понимании данных, без него мы можем загнать себя в многочисленные ловушки, описанные ранее автором в статье: "Как правильно лгать с помощью статистики".

Как выглядит обычный хабра-tutorial

В качестве простой демонстрации рассмотрим простейшую картину из трех параметров: просмотры, избранное (favourites) и рейтинг (количество плюсов), для трех классов: все статьи вместе, обычный пост (не-tutorial) и tutorial.

Даже в столь упрощенной картине, заметна разница между классами. Наша интуиция и здравый смысл подсказывают нам, что tutorial в среднем чаще добавляют в избранное, но интуиция не говорит насколько чаще, и что они набирают меньше плюсов и просмотров. Эти и многие другие интересные вопросы мы рассмотрим далее в статье.

Структура статьи

Читать дальше →

+72

varagian 30 мар 2014 в 21:01

Как правильно лгать с помощью статистики

7 мин

240K

Математика*

Существуют три вида лжи: ложь, наглая ложь и статистика (источник)

Есть такой замечательный жанр — "вредные советы", в котором детям дают советы, а дети, как известно, всё делают наоборот и получается всё как раз правильно. Может быть и со всем остальным так получится?

Статистика, инфографика, big data, анализ данных и data science — этим сейчас кто только не занят. Все знают как правильно всем этим заниматься, осталось только кому-то написать как НЕ нужно этого делать. В данной статье мы именно этим и займемся.

Hazen Robert "Curve fitting". 1978, Science.

Структура статьи:

Читать дальше →

+306

varagian 27 янв 2014 в 14:37

Что такое теория и причем тут научный метод

6 мин

56K

Учебный процесс в IT

У меня есть теория, что любую фразу можно превратить во что-то кажущееся невероятно глубокомысленным, если в конце приписать имя какого-нибудь древнего философа. Платон (оригинал).

Теория (греч. θεωρία — рассмотрение, исследование) — учение, система идей или принципов (вики). Именно в таком, самом широком смысле в обычно речи мы употребляем слово «теория» в каждодневной речи. Например, у меня есть теория почему машина не заводится — некоторый набор идей и выводов, объясняющий поломку. Однако, в научном мире теория имеет достаточно строгое и формальное значение и обязательно удовлетворяет определенному набору важных критериев.

Под катом много картинок и примеров, и совсем нет формул.

Читать дальше →

+49

varagian 20 янв 2014 в 18:08

Не все комментарии одинаково полезны

7 мин

34K

Алгоритмы*Математика*

Все животные равны, но некоторые животные равнее других. Скотный Двор, Джордж Оруэлл (оригинал).

Достаточно много статей на хабре набирает существенное количество комментариев, e.g. в статьях "лучшее за месяц" их, как правило, более сотни. За годы чтения хабра, создалось впечатление, что примерно в половине случаев для комментариев первого уровня получается вот такая вот картина

(картинка сделана на основе хабра-статьи «Список скептика»).

Под катом рассказ, какие бывают сортировки комментариев, где они применяются и краткое рассуждение о том, как вообще можно сортировать комментарии (и зачем).

Читать дальше →

+96

varagian 14 янв 2014 в 16:18

Зачем нам всем нужен SAT и все эти P-NP (часть вторая)

10 мин

24K

Алгоритмы*Математика*

В предыдущей части были освещены общедоступные вопросы, касающиеся SAT и P-NP: история проблемы, интуитивные определения классов и задач, указаны основные приложения SAT и основные последствия, в случаи решения P ?= NP (там же можно найти достаточное число ссылок на различный материал для самостоятельного изучения тематики).

В данной статье мы рассмотрим техническую сторону вопроса, а так же формализуем и представим в деталях материал из предыдущей статьи.

картинка из статьи Boolean Satisfiability: From Theoretical Hardness to Practical Success (Communications of ACM)

Читать дальше →

+48

varagian 4 янв 2014 в 18:32

Зачем нам всем нужен SAT и все эти P-NP (часть первая)

12 мин

60K

Алгоритмы*Математика*

SAT уже тем хорош, что он ум в порядок приводит
Ломоносов (оригинал)

Введение

На хабре уже немало статей, посвященных проблеме P vs. NP и задаче о выполнимости логических формул (SATisfiability problem). Однако, большинство из них не отвечает на несколько самых важных вопросов. Почему эта проблема действительна важна для нас? Что будет, если её решат? Где это все вообще применяется? И почему необходимо иметь хотя бы общее представление, о чем там идет речь?

Если мы детально проанализируем наиболее заметные работы на хабре по данной теме [1, 2, 3, 4, 5, 6, 7], то заметим, что с одной стороны, люди обладающие знаниями в области вычислительной сложности не cмогут почерпнуть ничего принципиально нового в данных статьях. С другой стороны, данные статьи по-прежнему не являются общедоступными. Иллюстрация из заголовка наглядно демонстрирует проблему: тем, кому было не понятно, из неё ничего не ясно, а те, кто об этом уже слышал, в ней не нуждаются.

Данная статья преследует две цели: первое — дать общее представление о проблеме и ответить на вопрос, почему же нам стоить знать об этой задаче (первая часть), второе — предоставить материал «на вырост», который будет интересен людям интересующимся тематикой, а так же может быть полезен для изучения темы в дальнейшем (вторая часть).

Читать дальше →

+75

varagian 16 дек 2013 в 13:49

Список скептика

6 мин

168K

Учебный процесс в IT

Громкие заявления требуют убедительных доказательств.
Карл Саган (оригинал)

Преамбула

Однажды вечером много лет назад на первом курсе в славном городе Долгопрудном прогуливался с товарищами по коридорам университета, как вдруг совершенно случайно, мы увидели на двери объявление: «Лекция: Славянские руны. Чудинов». Стоит отметить, это не самая популярная для физтеха тема лекций. Из любопытства мы заглянули на огонек и даже честно попытались понять, что же нам пытаются рассказать. Примерно через десять минут мы уже не могли сдерживать смех и попытались в мягкой форме спросить, действительно ли автор верит в то, что он говорит, и не нарушают ли его теории ряд научных принципов. Автор честно признался, что они не очень-то стараются следовать каким-то там принципам, а пытаются разобраться в сути вопроса и вообще всё, что он говорит, это чистая правда — смотрите на эти фотографии, они всё доказывают — вот тут вот точно «Мара» написано.

Что же в сухом остатке с той самой лекции? Далеко не последний университет проводит в своих стенах лекцию сомнительного качества (с продажей книг выступающего, конечно же) и мало того, что выступает бесплатной площадкой для такого рода личностей, так еще и бьёт по своему статусу. Казалось бы, возможно это единичный случай. Например, та же лекция была прочитана в лектории Политехнического музея. В последствии администрация признала эту лекцию и ряд других лженаучными и даже организовали отличную лекцию "Что такое любительская лингвистика", прочитанную академиком Зализняком.

Однако, оказалось, что это не исключение.

Читать дальше →

+179

2