Комментарии / Профиль varagian / Хабр

Как стать автором

Сергей Парамонов @varagian

Data Scientist, PhD in AI

Профиль Публикации 36Комментарии 404Закладки 269

Пульс Хабра

varagian 1 июл 2014 в 19:09

4) Звучит интересно, это нужно для сбора какой-то дополнительной информации аля google analytics?
5) Над этим и сам думал, но решил подождать отклика на базовую версию — вдруг это вообще было никому не нужно.

0

Посмотреть

Пульс Хабра

varagian 1 июл 2014 в 19:07

1) Вот рейтинги постов — это очень важная информация.

Так они же и реализованы по оси Х — даты публикации постов

или я не правильно понял эту часть комментария?

2) я бы сделал так: свел бы в один график: просмотры, рейтинг, избранное и суммарные репосты. подключаемыми слоями — репосты по соцсетям и график получения плюсов и минусов. Еще бы сделал две временных шкалы — одна по времени с публикации поста, вторая — с временем и датой по москве(хочется все-таки собрать статистику по лучшему времени и дням публикации, но не глобальную, а по своим постам.)

В принципе выглядит реализуемо, единственное, мне тут предлагают вообще визуализацию переделать, поэтому я пока подожду с добавлением сложной логики.

3) в диаграммы виена и аудиторию хабов надо бы добавить корпоративные блоги, потому что там самое интересное.

Вот тут я чуть-чуть поленился и перенес часть кода из standalone приложений, и на хабы компаний уже не хватило сил. Эту часть надо бы переписать под Heroku и добавить хабы компаний.

0

Посмотреть

Пульс Хабра

varagian 1 июл 2014 в 18:58

Это рейтинг статей, по оси Х приведены даты публикации статей.

+1

Посмотреть

Пульс Хабра

varagian 1 июл 2014 в 18:57

Не дают API, сказали «как только, так сразу» (в общих чертах).

0

Посмотреть

Пульс Хабра

varagian 1 июл 2014 в 18:55

Думал над чем-то подобным, в духе: премиум-аккаунты с хранением всей информации и дополнительными фичами, но тогда моя персональная ответственность перед пользователями невероятно возрастет.

Сейчас, если уронить сервер на часик другой, то никакой трагедии не произойдет (у меня всё-таки вообще нет опыта веб-разработки), а если у меня будут пользователи, которые платят деньги за работу сервиса, то придется работать уже совсем на другом уровне и нести перед ними ответственность за корректную работу приложения.

0

Посмотреть

Пульс Хабра

varagian 1 июл 2014 в 18:49

Если просто нужны данные по прошлым статьям (например, просмотры за неделю по индексированным статьям), то могу их периодически скидывать себе на жесткий диск — это не проблема, проблема их постоянно держать в базе данных и постоянно обновлять. Если количество статей в пуле растет — значит растет время на одно обновление, растет время запроса интерфейса, растет память в БД — в общем, мой карточный домик плохо масштабируется.

У меня есть идея получше — администрация мне уже выдаст токен API (рано или поздно) и я выпущу standalone монитор с авторизацией, каждый сможет себе столько закачать информации сколько захочет, по любому количеству статей (ну в пределах допустимых ресурсов).

Ещё опция, если у кого-нибудь есть лишний сервер с базой данных, то можно мне создать пользователя и сборщик данных через этого пользователя будет скидывать данные.

0

Посмотреть

Пульс Хабра

varagian 1 июл 2014 в 17:48

У меня всё вышло бесплатно, по крайней мере пока приложение успешно (более-менее) справляется.

0

Посмотреть

Пульс Хабра

varagian 1 июл 2014 в 15:41

Этот аргумент предполагает наличие подобного знания у всех участников сообщества, а мои статьи по анализу данных набирают в среднем 10к просмотров, и это ооочень маленький сегмент аудитории Хабра.

+1

Посмотреть

Пульс Хабра

varagian 1 июл 2014 в 15:37

Со мной уже связались ребята, занимающиеся визуализацией данных для веба, посмотрим, что из этого выйдет — буду держать в курсе!

+2

Посмотреть

Пульс Хабра

varagian 1 июл 2014 в 15:12

Ответил в комментарии выше.

0

Посмотреть

Пульс Хабра

varagian 1 июл 2014 в 15:11

А можно будет реализовать аналитику по статьям — которые выложены давно?

Монитор опрашивает хабр каждые N минут, отсюда и данные для визуализации. По старым статьям, таких данных, к сожалению, нет. Хм, интересно, а нет ли у администрации?

Сейчас насколько я понял только последние публикации можно проанализировать, не более чем за 52 часа.

Это исключительно техническое ограничение, бюджет инфраструктуры — 0р0к, поэтому используется бесплатная DB as a Service, у неё ограничение на размер базы в 512МБ. Из-за этого очень осторожно использую место, теоретически можно попробовать увеличить время хранения и посмотреть хватит ли на всё. Поэкспериментирую на неделе.

0

Посмотреть

Пульс Хабра

varagian 1 июл 2014 в 12:56

Если кратко, то
pypi.python.org/pypi/matplotlib-venn

Если подробнее, то что-то интересное тут видел:
www.brynmawr.edu/math/people/anmyers/PAPERS/Venn.pdf

Процесс поиска хабов при 3х хабах занял у меня больше двух минут.
Смотрел хабы: информационная безопасность, математика, криптография…

Это очень маленький сервер пытается обслужить сразу кучу* пользователей и поэтому на ладан дышит

*больше двух

+2

Посмотреть

Пульс Хабра

varagian 1 июл 2014 в 12:48

Хорошо, только выложу изменения ночью — сейчас боюсь трогать приложение, оно и так тяжело дышит.

+3

Посмотреть

Смех и грех псевдорейтинга

varagian 25 июн 2014 в 20:28

Хабра-статья в тему: как правильно лгать с помощью статистики

+4

Посмотреть

Опрос — Открытые данные Минфина

varagian 16 мая 2014 в 00:25

А можно поподробнее, что за конкурс/хакатон намечается?

0

Посмотреть

Новая навигация и другие изменения на Хабре

varagian 15 мая 2014 в 13:05

Справа сверху — Zelenyikot, справа внизу — Boomburum, слева сверху — PapaBubaDiop, слева внизу — BarsMonster.

+15

Посмотреть

Spurious Correlations: сервис для «игры» с любыми наборами статистических данных

varagian 12 мая 2014 в 19:31

И ещё немного про статистику: Как правильно лгать с помощью статистики.

+3

Посмотреть

Наbra Analytics Tools: аудитория хабов

varagian 29 апр 2014 в 23:06

Ответил тут

0

Посмотреть

Habra Analytics Tools: сравниваем хабы

varagian 29 апр 2014 в 23:05

Спасибо за наблюдение!

Проверил и оказалось, для компаний граница массива вычислялась неверно (сдвиг на единичку там, где его быть не должно) — поправил, попробуйте вот эту версию: hubs.exe

Сейчас диаграмма выглядит так (клибельно):

0

Посмотреть

Habra Analytics Tools: сравниваем хабы

varagian 29 апр 2014 в 23:00

Бинарник для хабов под мак hubs.osx

0

Посмотреть

1 2 ...

17