Как стать автором
Обновить

Комментарии 93

У XaocCPS карма какая-то зловещая…
Договор с дьяволом за первое место по карме?:)
Причем до десятых точность. Корпорация зла все-таки палится.
Он — воин хаоса, евангелист майкрософта на Хабре.
НЛО прилетело и опубликовало эту надпись здесь
Надо, чтоб кто-то исправил…
Так плюсаните ему! :)
Просто у таких людей карма редко меняется, так как за то время что он на сайте, по сути, все кто его видели, скорее уже проголосовали, либо + либо -, но проголосовали, а голосовать можно один раз.
Я за ней уже давно наблюдаю. Иногда она на 1-2 единицы уходит от этого числа, но всегда находятся добрые люди, которые быстро её обратно вытягивают.
добрые?
«Все люди добрые» ©
И как же сложно ее поддерживать на таком уровне…
За каждый ПЛЮС, надо сразу же где то выхватить МИНУС, чтобы не спугнуть такие цифры
У меня два вопроса:
1. Почему суммы за 0-6 и 6-12 месяцев кое-где не сходятся с цифрами за "< 1 года"?
2. Где же самое интересное — исходный код с пояснениями? ;)
1) Хм… напишите в личку, где не сходятся. Всё делал в экселе с проверками, где только можно. Скорее всего опечатка.
2) Код парсера? он несложный, поэтому решил не выкладывать. Да и тематика блога — статистика.
Алгоритм таков:
а) тянем все страницы из инета и сохраняем локально (это самая долгая часть);
б) параллельно с этим можно начинать парсить то, что сохранили.
Подводные камни:
Первый раз не проверил, правильно ли распарситься карма с минусом через преобразования типа $x = (float)$text. В результате потратил кучу времени на неправильный парсинг данных. Исправил, запустил опять, и снова fail — нужно было в числе запятую заменить на точку. Только после двух неудачных попыток решил сохранять страницы локально.
>на 1 тролля
я так-то хотел написать умный коммент, но прочитав это, решил что ваш топик пока этого недостоин.
НЛО прилетело и опубликовало эту надпись здесь
Денис Попов вне конкуренции :)
Ой, уберите текстовые размышления — они неправильные, имхо. Вы посчитали всех когда-либо зарегистрированных пользователей, а рассуждаете так, словно смотрите на данные только за последние дни.
Если вы о блоке про хабрадинамику, то я поэтому и назвал этот подраздел «псевдонаучно о..». Решил немного разбавить сухие цифры. Но если она действительно никак не вписывается, то уберу.
В первую очередь я это к разделу «Численность».
Спасибо. Надеюсь, я то убрал?:)
Да и эти два предложения тоже странные. Опять же, имхо. Тут как бы график скорее говорит о том, что пик регистраций был 3-4 года. Хотя опять же не знаю, учитывали Вы активность или нет. Если учитывали, то тогда я в своём «имхо» неправ.
Мм, в разделе численность я рассматривал именно численность, активность в расчет не брал. Цель была просто показать количество аккаунтов в той или иной возрастной группе. Чтобы учесть активность, нужно ещё парсить хабрацентры (даты, когда человек был последний раз на сайте), но этого в расчёт не брал, так что, наверное, в этом ключе ваше «имхо» право:)
Простите, а чем осуществлялся подсчёт данных?
image
Группа "< 1 года" обобщает первые две группы.
Пардон, ступил.
Можно ещё гендерный признак как-нибудь в это всё вплести)
Я это включил в планы — заключительная часть, пункт «в-третьих». Идея сама по себе интересная:) Думаю, процент отхабренных девушек будет меньше отхабренных мужчин.
p.s^ Не смог реализовать, потому что парсил только страницы с рейтингом, а там личной информации минимально.
Можно будет узнать, кто чаще троллит — дамы, или господа)

Если к этому ещё и «По городам/странам» приписать, можно будет узнать, в каком городе самая высокая популяция самок троллей.
Эк вас понесло:) Боюсь, что для этого придется просить статистику у хабраадминистрации: далеко не все указывают страну, не то что город.
В-третьих, распарсить все хабрацентры и составить статистику по настоящим возрастным группам, а также по дополнительным параметрам — количество «легенд», «авторов» и других статусов, наиболее часто встречаемые имена и фамилии.


А если у человека в настройках приватности активна опция
«Показывать значки в профайле: всем / только себе», это же отразится на результатах подсчёта?
Очевидно, что да. Но ведь статистика, она всегда немного врёт. Чисто с бытовой точки зрения, значки целесообразно прятать только троллям, но их можно и по карме выявить.
С этим могут быть проблемы. Я сам как-то парсил первую 1000 хабралюдей. Решение о принадлежности к тому или иному полу принималось на основе названия ссылки на публикации: «его» или «ее». Проблема в том, что значительный процент людей (около 30%) не указал свой пол, но ссылка отображается как «его». В единичных случаях пол может быть указан неверно. Такое тоже попадалось.
Тогда, видимо, придется отказаться от пола или делать частичную выборку. Идея определять пол по «его»/ «её» хороша.
Не знаю, насколько она хороша, но других вариантов я не нашел.
Есть вариант парсить комментарии и статьи человека на наличие фраз, определяющих его пол
Интересно, а я считаюсь активным? У меня акку чуть больше 3-х лет и карма чуть меньше пяти)
Повторюсь, этот фрагмент шуточный. А активными обозначил тех, кто теоретически может опубликовать статью (карма > 5). По этой терминологии вы не активны:) Вообще, конечно, активность надо по рейтингу определять.
Сумма кармы первых тысячи человек составляет примерно 20% от суммы по всему хабру

Почти как с распределением денежных благ в РФ )
Парето намекает, что так происходит вообще почти со всеми подобными распределениями.
интереснее проанализировать динамику появления постов на главной: иногда бывает встретишь пост в новых, а потом он через несколько дней на главной оказывается, невольно задаешься вопросом неужели так много людей просматривает ленту новых на пару дней назад или это (о ужас) накрутки на хабре:) можно построить конспирологию кого и на какие темы накручивают)
Не думаю что накрутки. Обычно новая хабрастатья в первые минуты жизни подвергается бурному голосованию. Положительные оценки компенсируются отрицательными. Через сутки, когда страсти улягутся, в минус почти не голосуют — минусяторы в это время бросаются на более свежую жертву. Зато по чуть-чуть растут плюсы от тех, кто вчера был занят и смог прочитать статью только через день или два.
Карма — ничто. В неё гадят нехорошие обиженные люди. Например сегодня я получил минус два голоса в карму (куда ж ниже! :) Запомнил что было 83 голоса потому, что как раз сегодня заходил в профиль, теперь там 85 голосов) за то, что написал, что подкасты — неудобно и долго. habrahabr.ru/company/nomobile/blog/117591/#comment_3827841

Продолжаете считать карму адекватным мерилом? Для любителей поднасрать — однозначно.
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Заик трудно слушать, говорить с заиками — легко :)
Неужели? Я недавно общалась с одним очень выраженным заикой — так гораздо больше меня напрягло то, что он активно и на полном серьезе оперировал понятиями «субординация» и «подсидеть» (по отношению к третьему лицу).
(Если что, минусы не мои, я так, мимо пробегала :-))
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Жажда кармы — все.
Я люблю статистику!
Не знаю, по какой причине размазывается скриншот, но хочется поделится некоторыми соображениями по цифрам. По нажатию на скриншоте сможете просмотреть его в нормальном качестве.
image
А по-моему в 3-х летних куча ботов. Судя по количеству и средней карме. Когда там инвайты ввели?
где-то три года назад и случилось
Это вы кого сейчас ботом назвали? :))
Кстати, да. Подтвердить смогу после следующего сбора статистика (парсинга хабрацентра), но то, что много «странных» — это точно. Где-то в середине рейтинга есть часть людей, у которых непросто нулевые карма и рейтинг, но ещё и ни одного коммента / ответа на вопрос (за 3 года).
За три года ни разу не довелось плюсанють… хоть что-нибудь, пичалька. Моя требуэ понижения планки.
вот кстати да
Старожилы сидят без кармы, ай-ай-ай, если бы не они, каким был бы хабр? :-)
Нужно анализировать только активных пользователей. С примесью мертвых душ неинтересно, погода на Марсе получается.

Активность можно определять по рейтингу или по дате последней активности.
не туда ответил
Ага, я понял;) во второй части статистики обязательно учту. Спасибо!
рейтинг вверх, карма вниз… :)
что я делаю не так?
видимо, много глупых вопросов задаете :)
Хабар весьма забавное место. Здесь поощряется стадное мышление. А для того, что не раскрывать тайну «человек имеющий своб точку зрения» заменили на «тролль»(нет, много людей с этой плашкой действительно тролли, но карма не показатель). А для того, чтобы стадо не напрягало свой мозг совсем — добавили автоматическую выдачу плашек.
Даже будучи несогласным и имея свою точку зрения, это самую точку зрения можно выражать так, что у оппонентов не возникнет желания лезть в профиль и минусовать. Я не говорю, что надо своими комментариями ублажать всех, просто всегда стоит следить за своими комментариями и не грубить.
Расскажите нам еще что-нибудь захватывающее из разряда фантастики, пожалуйста
Ну почему фантастики, просто человек мыслит оптимистично и верит в людей, при этом он кажется реалист. Ну это все равно что — гопников можно и нужно пытаться наставлять на путь истинный кротким словом, но это не избавляет он необходимости носить с собой кастеты ;).
Если взять чистую статистику, то юзер написал 300 комментариев за 5 лет. За это время поведение пользователей на хабре менялось примерно 3 раза, приходили другие люди, другие уходили. У меня цифра комментариев немного больше, поэтому с точкой зрения автора комментария не согласен или согласен, но в малой доле.
Спасибо, что не поленились заглянуть в мой профиль :) Просто я предпочитаю больше читать, чем писать. Порой даже если и не согласен, то ленюсь написать коммент, так как понимаю, что завяжется бесполезный спор, который ни к чему не приведет.
Выходит вы выбираете вменяемых оппонентов, естественно ваша статистика покажет всегда + :)
Ага, для каждого случая необходим свой подход. И к гопникам, и к троллям :)
Желание возникнет обязательно, это от человека зависит. Например, моя карма за 2 комментария в этом посте пострадала. Главное, не особо заморачиваться по поводу цифр в профиле.
Что-то и мне захотелось похабрастатистить, график зависимости рейтинга от позиции в рейтинге(взяты первые 400 позиций):


Парсилось все небольшим скриптом на питоне:
rating=[]
... for i in xrange(1, 5+1):
... adr="http://habrahabr.ru/people/page"+str(i)+"/"
... page = urllib2.urlopen(adr).read()
... page = page.replace(u'</scr"+"ipt>',"
")
… soup = BeautifulSoup( page )
… for j in soup.findAll(«td», «userrating»):
… rating.append( j.contents[0].contents[0])

Визуализировалось с помощью matplotlib.
Упс, парсер схавал тег :(
Кстати, была мысль сделать такой график, но относительно кармы, получилось довольно скучно — монотонно убывающая почти прямая.
Очень здорово было бы сделать специальный сайт, на котором можно было бы в любой момент получить текущий срез. Если эту идею осуществить, то несложно будет добавить сохранение срезов (например, раз в день) и выводить статистику в динамике — как менялись разные показатели с течением времени.
товарищи администрация, рассказывайте как (когда, что, регулярность) вас можно парсить, чтобь не попасть в немилость (не завалить чтонить)?!
В идеале эта просьба должна звучать как «Товарищи администрация, рассказывайте, когда у хабра будет нормальный API?».
не спешите, ФБ тоже не день строился — зато сейчас их смело можно матюкать за 3 вида апи и кучу недокументированных фич.

ЗЫ отправил письмо чипу и дейлу, мож чего расскажут
ЗЗЫ тут не зря есть раздел DIY — это какбы намекает
а чтобы вы хотели видеть в хабровском API?
Интересно, что нету ограничения на количество документов в минуту. Т.е. волнует вопрос: могу ли я одномоментно обратиться к 3 тысячам документов? При этом правило «обращение к 1 документу не чаще 1 раза в минуту» будет соблюдено.
Не нашел в статистике тех, у кого и рейтинг и карма
мм, имеете в виду нулевые рейтинг и карму? Можно начать смотреть отсюда.
Я извиняюсь, почему-то пост обрезался (на символе
Я опять извиняюсь, посты режутся на математическом символе «меньше» (символ начала тега). Как я понимаю, это связано с запретом тегов для минусовой кармы.
Я имел ввиду тех, у кого и рейтинг и карма меньше нуля. Или они в категории нулевых?
Нет, этот показатель я и правда забыл посмотреть. Если интересно, то их — 5272 человека, т.е. 8,7% от всей аудитории. Спасибо за хороший вопрос! ;)
p.s^ для символа "<" используйте соответствующую html-сущность — &lt; (для знака > — &gt;)
Спасибо, надеюсь администрация в курсе данной фичи, и что чайники вроде меня могут генерить обрезанные посты.
Думаю, они в курсе. Парсеру сложно разобраться, где символ открывающегося тега, а где знак "<". Если задуматься, хабр делает благородное дело — обучает основам вёрстки, что бы будущий программист не умер от безработицы с голоду:)
Феерично :) раньше просто пузомерки были, теперь вокруг них чуть ли НИИ строят :)
Автор, в чём соль вашего титанического труда по выявлению средней температуры по больнице?)
Во-первых, труд не такой уж и титанический: час на вытягивание страниц, полчаса на парсинг, два вечера на подведение результатов и составление диаграмм.
Во-вторых, если, честно, не вижу ничего фееричного — просто статистика, кое-какие цифры. К тому же, в разделе «Предыстория» всё сказано: получение опыта парсинга (нужен для одного текующего проекта), ответ на вопрос про распределение кармы. А здесь делюсь результатами работы.
В-третьих, мне нравится наблюдать за людьми и искать какие-то закономерности в их поведении. Фактически, данный топик — это первый блин, проба сил и проверка хабраинтереса к подобной статистике. В следующий раз попробую написать что-то поинтереснее. Даже, может быть, вам понравится;)
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.