DmitrySpb7924 фев 2019 в 11:32

Хабрарейтинг 2017: лучшие материалы за 2017 год

16 мин

9.1K

Веб-аналитика * Исследования и прогнозы в IT * Социальные сетиСтатистика в IT

+17

Комментарии 10

ne555 24 фев 2019 в 18:01

А Вы диаграмму рассеивания не в Statistica строили?

DmitrySpb79 24 фев 2019 в 19:06

Нет, это Matplotlib, библиотека для Python, примеры кода есть в первой и второй частях.

vconst 25 фев 2019 в 09:24

Вы парсили все теги, или только профильные? Если только профильные — то вопросов нет.

Но если все — то вот пример: моя статья: Фантастика и фентези за два с половиной года, почти сто хороших книг имеет 847 закладок, вышла в середине 17 года, это примерно середина Топ-20 но в статистику не попала. Если парсер ее пропустил, значит он и другие тоже мог пропустить и получается 13 ударов часов.

DmitrySpb79 25 фев 2019 в 09:40

Спасибо за правку. В тексте написано же, второй абзац сверху. Рейтинг неофициальный, 100% гарантии естественно нет. Если кто-то не нашел себя в рейтинге, пишите, добавлю вручную.

Вечером перепроверю данные.

vconst 25 фев 2019 в 10:24

Да, я понял. Но у меня вопрос не к «признанию заслуг», а к тому — что если парсер пропустил одну статью, значит он мог еще что-то пропустить. То есть — где-то есть ошибка. Или Хабр некорректно отдает данные, или парсер не все видит.

DmitrySpb79 25 фев 2019 в 10:37

Диапазон id статей задается вручную, я мог что-то упустить, да. К концу недели должен быть выкачан весь индекс хабра, такие неточности должны быть устранены (обработка идет медленно, в один поток с паузами внутри, чтобы не нагружать сервер).

vconst 25 фев 2019 в 10:40

Ну, это не горячий проект, торопиться некуда. После окончательной обработки будет выложен более актуальный рейтинг?
Я не программист, потому оценить саму работу над парсером не могу, увы :)

DmitrySpb79 25 фев 2019 в 10:50

Да, конечно, данные будут обновлены.

Sergery8205 25 фев 2019 в 11:15

Выборку в powershell с какой СУБД делали, если не секрет?

DmitrySpb79 25 фев 2019 в 12:07

БД не использовалась, обычный csv + Python.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий