Комментарии 10
А Вы диаграмму рассеивания не в Statistica строили?
0
Вы парсили все теги, или только профильные? Если только профильные — то вопросов нет.
Но если все — то вот пример: моя статья: Фантастика и фентези за два с половиной года, почти сто хороших книг имеет 847 закладок, вышла в середине 17 года, это примерно середина Топ-20 но в статистику не попала. Если парсер ее пропустил, значит он и другие тоже мог пропустить и получается 13 ударов часов.
Но если все — то вот пример: моя статья: Фантастика и фентези за два с половиной года, почти сто хороших книг имеет 847 закладок, вышла в середине 17 года, это примерно середина Топ-20 но в статистику не попала. Если парсер ее пропустил, значит он и другие тоже мог пропустить и получается 13 ударов часов.
0
Спасибо за правку. В тексте написано же, второй абзац сверху. Рейтинг неофициальный, 100% гарантии естественно нет. Если кто-то не нашел себя в рейтинге, пишите, добавлю вручную.
Вечером перепроверю данные.
Вечером перепроверю данные.
0
Да, я понял. Но у меня вопрос не к «признанию заслуг», а к тому — что если парсер пропустил одну статью, значит он мог еще что-то пропустить. То есть — где-то есть ошибка. Или Хабр некорректно отдает данные, или парсер не все видит.
0
Диапазон id статей задается вручную, я мог что-то упустить, да. К концу недели должен быть выкачан весь индекс хабра, такие неточности должны быть устранены (обработка идет медленно, в один поток с паузами внутри, чтобы не нагружать сервер).
0
Выборку в powershell с какой СУБД делали, если не секрет?
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Хабрарейтинг 2017: лучшие материалы за 2017 год