Как стать автором
Обновить

Комментарии 10

А Вы диаграмму рассеивания не в Statistica строили?

Вы парсили все теги, или только профильные? Если только профильные — то вопросов нет.

Но если все — то вот пример: моя статья: Фантастика и фентези за два с половиной года, почти сто хороших книг имеет 847 закладок, вышла в середине 17 года, это примерно середина Топ-20 но в статистику не попала. Если парсер ее пропустил, значит он и другие тоже мог пропустить и получается 13 ударов часов.
Спасибо за правку. В тексте написано же, второй абзац сверху. Рейтинг неофициальный, 100% гарантии естественно нет. Если кто-то не нашел себя в рейтинге, пишите, добавлю вручную.

Вечером перепроверю данные.
Да, я понял. Но у меня вопрос не к «признанию заслуг», а к тому — что если парсер пропустил одну статью, значит он мог еще что-то пропустить. То есть — где-то есть ошибка. Или Хабр некорректно отдает данные, или парсер не все видит.
Диапазон id статей задается вручную, я мог что-то упустить, да. К концу недели должен быть выкачан весь индекс хабра, такие неточности должны быть устранены (обработка идет медленно, в один поток с паузами внутри, чтобы не нагружать сервер).
Ну, это не горячий проект, торопиться некуда. После окончательной обработки будет выложен более актуальный рейтинг?
Я не программист, потому оценить саму работу над парсером не могу, увы :)
Да, конечно, данные будут обновлены.
Выборку в powershell с какой СУБД делали, если не секрет?
БД не использовалась, обычный csv + Python.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации