Хабрамегарейтинг: лучшие статьи и статистика Хабра за 12 лет. Часть 2/2 / Хабр

Привет, Хабр.

В первой части были рассмотрены некоторые закономерности развития такого интересного ресурса, как habrahabr. Материал получился длинный, так что продолжение здесь. В этой части мы заодно посмотрим как строить такие картинки, и наконец, завершим нашу статистику и рейтинг.

Кому интересны результаты, прошу под кат.

Названия статей (word cloud)

Перед выводом рейтинга статей стало интересно посмотреть, какие же ключевые слова наиболее популярны в заголовках. Вполне очевидно что популярность разных технологий со временем меняется, хочется увидеть это в наглядном виде.

Это несложно сделать с помощью Python:

from wordcloud import WordCloud

def split_words(s):
    try:
        words = re.split('[:?., "''()<>-\[\]|!]', s)
        return map(to_ascii, words)
    except:
        return []

def filter_words(s):
    s = s.decode('utf-8').encode("ascii", errors="ignore").decode()
    return len(s) > 2

def to_ascii(s):
    s = s.replace("'", '').replace("-", '').replace("|", '')
    return s.decode('utf-8').encode("ascii", errors="ignore").decode()

titles = df['title'].str.lower()
ts = titles.apply(lambda x: pd.value_counts(filter(filter_words, split_words(x)))).sum(axis = 0)
ts = ts.sort_values(ascending=False)
print(ts[:50])
print()

s_all = ""
for p in range(min(ts.shape[0], 200)):
    s_all += (ts.index[p] + ' ') * int(ts.values[p])

wc = WordCloud(width=1600, height=1200, background_color="white",
               relative_scaling=1.0, collocations=False,
               ).generate(s_all)
plt.figure(figsize=(9,6))
plt.title("%d" % year)
plt.xticks([])
plt.yticks([])
plt.tight_layout()
file_name = 'habr-words-%d.png' % year
plt.savefig(file_name)

Однако выводить «простыню» из 12 картинок, было бы неудобно — сделаем все это в виде gif-анимации. Вынесем код в отдельную функцию и запустим ее циклически для нужного диапазона лет.

import imageio

images = []
for y in range(2006, 2019+1):
    file_name = make_words_cloud(df, y)
    images.append(imageio.imread(file_name))
imageio.mimsave('habr-words.gif', images, duration=2)

И последний момент: чтобы слова было удобнее сравнивать, сделаем так, чтобы одинаковым словам всегда соответствовали одинаковые цвета.

colors_dict = dict()

def random_color_func_(word=None, font_size=None, position=None, orientation=None, font_path=None, random_state=None):
    if word in colors_dict:
        return colors_dict[word]
    else:
        c = random_color_func(word, font_size, position, orientation, font_path, random_state)
        colors_dict[word] = c
        return c

wc = WordCloud(width=2600, height=2200, background_color="white", relative_scaling=1.0, collocations=False, color_func=random_color_func_).generate(text)
...

Окончательный результат в виде GIF:

И размер слов (он пропорционален количеству вхождений) и их разнообразие говорят сами за себя. Некоторые закономерности интересны — незыблимо остался на первом месте лишь Google, ушли в прошлое Flash, Opera и Yahoo, про Amazon 10 лет назад никто еще не писал, да и не было таких названий как Tesla, Kotlin или GDPR.

Была сделана аналогичная попытка создать распределение для русских слов, однако она закончилась полным провалом — из-за склонений приставок и окончаний в русском языке результат больше напоминал генератор случайных чисел. Попытка «нормализации» всего этого, выделения существительных, приведения их к именительному падежу и пр, наверно потребовала бы не этой статьи, а объема диссертации. А было бы заманчиво посмотреть, насколько например поднялось в рейтинге цитируемости слово «Роскомнадзор» или «Дума» (но не будем о грустном).

На этом мы наконец-таки закончим с программированием, и перейдем к собственно рейтингу.

Рейтинг

Еще раз повторюсь, что рейтинг неофициальный, и абсолютной достоверности не гарантируется. Если например, сервер на какой-то статье вернул timeout, то такая статья в список не попадет. Возможно существуют еще какие-то скрытые индексы, про которые я не знаю. Проверить вручную 206тыс статей с 2006 по 2019 год довольно сложно. Если кто-то из авторов не нашел себя в рейтинге, но уверен что должен там быть, пишите, добавлю вручную. Какие-то статьи 10-летней давности возможно, уже устарели, ну впрочем, тем и интереснее — какие-то забытые моменты можно вспомнить.

Поехали :) Ну и всех авторов, заочно поздравляю с попаданием в супер-топ. Хотя имена не анализировались при парсинге и не записаны в рейтинг, но думаю, те кто создавал статьи, «себя» наверно, узнают.

Правка: как заметили некоторые пользователи, пара статей повторяется дважды. Это не ошибка парсинга, эти статьи действительно выкладывались повторно — ссылки разные, а редирект ведет на ту же самую статью.

Топ-20 статей по числу просмотров

Взломать Wi-Fi за… 3 секунды 2000000 просмотров, 63 комментария, рейтинг +112.0/-21.0
Скрытые смайлы в Skype 1655000 просмотров, 69 комментариев, рейтинг +173.0/-74.0
Пишем своё первое приложение на Android 1535000 просмотров, 95 комментариев, рейтинг +123.0/-15.0
300 потрясающих бесплатных сервисов 1482000 просмотров, 104 комментария, рейтинг +325.0/-16.0
Взломать Wi-Fi за 10 часов 1416000 просмотров, 164 комментария, рейтинг +294.0/-10.0
Сети для самых маленьких. Часть нулевая. Планирование 1388000 просмотров, 133 комментария, рейтинг +100.0/-4.0
Wi-Fi: неочевидные нюансы (на примере домашней сети) 1186000 просмотров, 138 комментариев, рейтинг +231.0/-3.0
Учим Python качественно 1181000 просмотров, 87 комментариев, рейтинг +59.0/-27.0
Начинающим Java программистам 1084000 просмотров, 58 комментариев, рейтинг +113.0/-7.0
1000+ часов видео по Java на русском 1076000 просмотров, 38 комментариев, рейтинг +111.0/-9.0
Программирование под Android для начинающих. Часть 1 1043000 просмотров, 29 комментариев, рейтинг +50.0/-34.0
Практика настройки Mikrotik для чайников 1006000 просмотров, 114 комментариев, рейтинг +34.0/-5.0
5 практических советов по эксплуатации литий-ионных аккумуляторов 999000 просмотров, 34 комментария, рейтинг +21.0/-2.0
Еще раз про IP-адреса, маски подсетей и вообще 972000 просмотров, 203 комментария, рейтинг +261.0/-25.0
Как начать работать с GitHub: быстрый старт 948000 просмотров, 50 комментариев, рейтинг +165.0/-17.0
27+ ресурсов для онлайн-обучения 939000 просмотров, 68 комментариев, рейтинг +163.0/-11.0
Памятка пользователям ssh 925000 просмотров, 135 комментариев, рейтинг +352.0/-8.0
Что такое CRM-системы и как их правильно выбирать? 916000 просмотров, 30 комментариев, рейтинг +21.0/-7.0
Простая стратегия игры 2048 897000 просмотров, 43 комментария, рейтинг +63.0/-20.0
Откровенные фото Дженнифер Лоуренс и еще десятков знаменитостей утекли через iCloud 895000 просмотров, 328 комментариев, рейтинг +183.0/-23.0

Топ-20 статей по рейтингу

Делаем приватный монитор из старого LCD монитора, 320 комментариев, рейтинг +1466.0/-18.0, 486000 просмотров
Были получены исходники 3300 глобальных интернет-проектов, 909 комментариев, рейтинг +1190.0/-36.0, 240000 просмотров
История игрушки. Поле Чудес, 302 комментария, рейтинг +923.0/-10.0, 150000 просмотров
Как Денис Крючков выкупил Хабр у Mail.ru, 337 комментариев, рейтинг +817.0/-35.0, 275000 просмотров
Воронежец заключил с банком договор, внеся свои правки, и собирается отсудить 24 миллиона рублей, 860 комментариев, рейтинг +778.0/-25.0, 397000 просмотров
За что конкретно я ненавижу некоторых отдельно взятых маркетологов — или как айтишник по магазинам ходил, 777 комментариев, рейтинг +769.0/-45.0, 591000 просмотров
Стив Джобс умер, 648 комментариев, рейтинг +783.0/-75.0, 22700 просмотров
Принцип цикады и почему он важен для веб-дизайнеров, 119 комментариев, рейтинг +682.0/-14.0, 172000 просмотров
Как мы искали Марс-3, 169 комментариев, рейтинг +669.0/-8.0, 225000 просмотров
Прекратите скручивать!, 337 комментариев, рейтинг +667.0/-15.0, 865000 просмотров
История интернет-магазина, ставшего мировым монополистом за $5 000, 189 комментариев, рейтинг +641.0/-5.0, 81800 просмотров
Спать мало, но правильно?, 420 комментариев, рейтинг +670.0/-43.0, 464000 просмотров
Что не так с редизайном Хабрахабра, 361 комментарий, рейтинг +673.0/-62.0, 143000 просмотров
Читаем QR код, 103 комментария, рейтинг +612.0/-9.0, 490000 просмотров
Уязвимость на Habrahabr или как украсть инвайт, 138 комментариев, рейтинг +600.0/-19.0, 160000 просмотров
Деревянная мышь. История проекта, 440 комментариев, рейтинг +574.0/-6.0, 137000 просмотров
Нифига себе сходил за хлебушком, или история одного взлома, 147 комментариев, рейтинг +576.0/-16.0, 102000 просмотров
30 копеек для Михалкова, 295 комментариев, рейтинг +588.0/-29.0, 28700 просмотров
Как я наказал Firaxis или история о том, как перебрать бинарный движок через глушитель, 176 комментариев, рейтинг +547.0/-4.0, 95100 просмотров
Бейджи для Хабра, версия, 143 комментария, рейтинг +552.0/-10.0, 18500 просмотров

Топ-20 статей по относительному рейтингу

Топ-20 по числу закладок

Топ-20 по отношению числа закладок к просмотрам

Топ-20 самых «спорных» статей

Первый пост, 667 комментариев, рейтинг +596.0/-445.0
Дискриминация пользователей ВКонтакте, 319 комментариев, рейтинг +399.0/-258.0
Почему упал Вконтакте, 380 комментариев, рейтинг +306.0/-255.0
Пора завязывать использовать символы табуляции в коде, 217 комментариев, рейтинг +258.0/-234.0
И чтец, и на дуде игрец, 175 комментариев, рейтинг +337.0/-233.0
Прощай, карма или Кому нужен iPad?, 520 комментариев, рейтинг +661.0/-223.0
Неюзабельные продукты от Apple, 504 комментария, рейтинг +397.0/-218.0
Бессмысленная 'Операционная Система', 325 комментариев, рейтинг +394.0/-215.0
Чо! Мейл.ру. Чо?, 497 комментариев, рейтинг +316.0/-205.0
Пепяка, 255 комментариев, рейтинг +239.0/-204.0
Костюм лисички-Firefox [фото], 105 комментариев, рейтинг +285.0/-204.0
Давайте поговорим о Microsoft, 990 комментариев, рейтинг +261.0/-201.0
OpenSource-курсач, или заставляем преподавателя выпасть в осадок, 538 комментариев, рейтинг +276.0/-200.0
Браузер Yandex, 825 комментариев, рейтинг +266.0/-199.0
Merchant API, 136 комментариев, рейтинг +231.0/-198.0
Бог — бестолковый гейм-дизайнер, 531 комментарий, рейтинг +351.0/-195.0
Почему я отказался от Mozilla Firefox, 324 комментария, рейтинг +225.0/-193.0
'Тайна' журнала Vogue, 199 комментариев, рейтинг +225.0/-189.0
Орден Белых Рыцарей Хабра, 553 комментария, рейтинг +213.0/-188.0
Весь PHP в двух строчках, 322 комментария, рейтинг +240.0/-187.0

Топ-20 самых комментируемых статей

Антитоп-20 статей с самым большим числом дизлайков

Бонус

И небольшой бонус для тех, кто дочитал до сюда — выложим мини-рейтинг статей, написанных на английском. Этот рейтинг по сути за один год, т.к. раньше из просто не было, но что есть, то есть. Чтобы его получить, достаточно добавить одну строчку кода — выбрать в фильтре статьи, имеющие "/en/" в поле link:

df = df[df['link'].str.contains("/en/")]

Результаты приведены ниже. Все категории приводить не буду, т.к. англоязычных статей пока мало, и многое повторяется.

Топ англоязычных статей по числу просмотров

I ruin developers' lives with my code reviews and I'm sorry 164000 просмотров, 12 комментариев, рейтинг +33.0/-3.0
A small notebook for a system administrator 98300 просмотров, 56 комментариев, рейтинг +88.0/-3.0
Flightradar24 — how it works? 91000 просмотров, 12 комментариев, рейтинг +74.0/-1.0
I lost faith in the industry, burned out, but the cult of the tool saved me 30400 просмотров, 2 комментария, рейтинг +21.0/-2.0
PC Speaker To Eleven 24600 просмотров, 0 комментариев, рейтинг +31.0/-2.0
Making a DIY text laser projector 22900 просмотров, 5 комментариев, рейтинг +25.0/-1.0
A bot for Starcraft in Rust, C or any other language 21200 просмотров, 3 комментария, рейтинг +44.0/-1.0
Hello world! Or Habr in English, v1.0 21000 просмотров, 249 комментариев, рейтинг +178.0/-2.0
Running image viewer from Windows XP on modern Windows 8900 просмотров, 1 комментарий, рейтинг +25.0/-2.0
Yet another plea against using public WiFi 8000 просмотров, 0 комментариев, рейтинг +17.0/-1.0
Real-time edge detection using FPGA 7500 просмотров, 45 комментариев, рейтинг +41.0/-14.0
Stack-based calculator on the Cyclone IV FPGA board 7200 просмотров, 27 комментариев, рейтинг +58.0/-17.0
On higher education, programmers and blue-collar job 7100 просмотров, 7 комментариев, рейтинг +22.0/-1.0
I am a useless idiot, so I want to quit my job: 10 questions to a software developer, a pilot episode 7000 просмотров, 6 комментариев, рейтинг +24.0/-0.0
Vim for beginners 6400 просмотров, 2 комментария, рейтинг +19.0/-0.0
Do more with patterns in C# 8.0 5700 просмотров, 5 комментариев, рейтинг +18.0/-2.0
Naive Math: the Mendocino motor and Earnshaw's theorem 5300 просмотров, 1 комментарий, рейтинг +44.0/-1.0
?Wanna Play a Detective? Find the Bug in a Function from Midnight Commander 5100 просмотров, 0 комментариев, рейтинг +31.0/-0.0
How does a barcode work? 4500 просмотров, 0 комментариев, рейтинг +20.0/-2.0
How to learn English 4400 просмотров, 17 комментариев, рейтинг +15.0/-1.0

Топ англоязычных статей по числу закладок

Flightradar24 — how it works? 91000 просмотров, 28 закладок
How to learn English 4400 просмотров, 21 закладка
A small notebook for a system administrator 98300 просмотров, 19 закладок
Vue, Storybook, TypeScript-starting a new project with the best practices in mind 2700 просмотров, 17 закладок
Hello world! Or Habr in English, v1.0 21000 просмотров, 16 закладок
Vim for beginners 6400 просмотров, 15 закладок
A bot for Starcraft in Rust, C or any other language 21200 просмотров, 14 закладок
Kalman Filter 2000 просмотров, 11 закладок
Things you need to know should you want to switch from PHP to Python 2700 просмотров, 11 закладок
Isometric Plugin for Unity3D 1500 просмотров, 10 закладок
Ternary computing: basics 2100 просмотров, 10 закладок
I ruin developers' lives with my code reviews and I'm sorry 164000 просмотров, 9 закладок
Currying and partial application in C++14 1300 просмотров, 9 закладок
Time Series Modelling 1100 просмотров, 8 закладок
Generic Methods in Rust: How Exonum Shifted from Iron to Actix-web 3300 просмотров, 8 закладок
.NET Reference Types vs Value Types. Part 1 1400 просмотров, 8 закладок
How do technical indicators on stock market actually work? 791 просмотров, 7 закладок
Making a DIY text laser projector 22900 просмотров, 7 закладок
Send an email with attachements by JavaMailSender from SpringFramework 563 просмотров, 7 закладок
Low-budget stereo rendering in few lines of code (stereogram, anaglyph, stereoscope) 1100 просмотров, 7 закладок

Выводы

Выводов не будет. Всем спасибо за внимание, и приятного чтения :)