Хабр. «Срез» одного дня

    Добрый день, хабравчане!

    Под катом небольшая хабрастатистика «возрастных» групп, немного интересных цифр и пара-тройка диаграмм. Срез произведен 13.04.2011, в 22 часа по московскому времени.

    Предыстория


    Вы вот спали, а я вас пересчитал. На днях решил опробовать phpQuery — прочитал документацию, уже приготовился что-нибудь такое распарсить, но оказалось, что подходящий (чисто субъективно) объект для опытов не так просто найти. К счастью, идею подсказал хабр, а точнее раздел q&a, пролистывая который, я натолкнулся на очередной вопрос «я не годую, добавьте кармы». После ответа вопрошающему я пустился в раздумья: а как собственно распределена по хабру карма? Зашел в раздел «Люди», но там, как известно, нельзя отсортировать по карме.
    (Кстати, не понятно почему. Карма, как по мне, обладает большей ценностью и является важным показателем хабрадуши — каждый +1 зарабатывается тяжелым трудом.)

    Таким образом появилась задача — составить топ по карме. Попутно было решено снимать ещё ряд показателей — хабравозраст (сколько лет на сайте) и рейтинг (до кучи для полноты данных). В итоге получилась скромная хабрастатистика по возрастным группам.

    Возрастные группы


    Отмечу еще раз, что под «возрастом» понимается возраст хабрааккаунта — количество лет, проведённых на сайте. Таким образом, были взяты следующие группы:
    1. До 6 месяцев (включительно)
    2. От 6 месяцев до года
    3. < 1 года — суммарно за первый год
    4. 1 год — имеется в виду период от 1 года до 2 лет, т.е. округление до целого
    5. 2 года
    6. 3 года
    7. 4 года
    8. 5 лет
    9. Остальные — несколько человек, в дате регистрации аккаунта которых указан 1970 год.

    Последних было решено вынести в отдельную группу, поскольку эти люди, по-видимому, имеют отношение к администрации и дата регистрации заведомо не верна.
    Не учтено — 612 человек. Сюда входят аккаунты администраторов, модераторов и всех тех, кто не участвует в хабрарейтинге (не отображается в разделе «Люди»).

    Численность


    Данная неофициальная перепись даёт следующие результаты:
    Хабравозраст Кол-во чел. % от общей числен-ти
    0-6 месяцев 3248 5,42%
    6-12 месяцев 2960 4,94%
    < 1 года 6208 10,36%
    1 год 4178 6,97%
    2 года 4934 8,23%
    3 года 27412 45,74%
    4 года 15807 26,38%
    5 лет 1337 2,23%
    Остальные 51 0,09%
    Всего 59927 100,00%


    Итого, чуть меньше, чем 3/4 аудитории хабра — это довольно взрослые, бывалые хабравчане (от 3 полных лет).
    Молодые, годовалые пользователи составляют всего чуть больше 10% аудитории.

    Карма и рейтинг


    Собственно, то, с чего всё началось — список по карме. Цифры уже не актуальны, но хотелось показать, насколько отличаются позиции хабровчан в отличие от топа по рейтингу (номер позиции в скобке).
    1. (04) 666.6 XaocCPS
    2. (06) 566.6 mobilz
    3. (29) 482.1 yoihj
    4. (27) 478.7 stepan_ovchinnikov
    5. (18) 439.2 @P_r_i_m_a_t
    6. (33) 436.7 oowl
    7. (48) 407.8 amirul
    8. (24) 385.4 umputun
    9. (35) 380.0 dug
    10. (28) 378.8 AntonShevchuk

    Топ -10 фактически является топом-10 по рейтингу и не представляет интереса, вследствие чего он здесь не приводится.

    2035 — количество пользователей, которые имеют рейтинг<0, но карму>0.
    1090 — количество пользователей, которые имеют рейтинг>0, но карму<0.
    45% аудитории или 26962 пользователей имеют нулевые карму и рейтинг.
    48% аудитории или 28493 пользователей имеют нулевую карму.

    Карма. "+" и "-"


    Хабравозраст "+" "-" Кармосумма Карма/чел
    0-6 мес. 14031,9 1547,0 12484,9 3,84
    6-12 мес. 14580,2 3385,0 11195,2 3,78
    < 1 года 28612,1 4932,0 23680,1 3,81
    1 год 36598,8 5065,0 31533,8 7,55
    2 год 48553,4 7444,0 41109,4 8,33
    3 года 97431,6 23976,9 73454,7 2,68
    4 года 78712,8 9985,0 68727,8 4,35
    5 лет 12140,9 638,6 11502,3 8,60
    Остальные 71,5 27,1 44,4 0,87
    Итого 302121,1 52568,6 249552,5 4,17

    Таким образом, на момент обсчёта было 302121,1 положительных и 52568,6 отрицательных кармапоинтов. ВВК — валовая внутренняя карма на хабрадушу — составила 4,17.
    Сумма кармы первых тысячи человек составляет примерно 20% от суммы по всему хабру, первых 10000 тысяч — 100% (напомню, что карма остальных 49927 пользователей взаимнонейтрализуется).

    Распределение кармы по возрастным групам, в % от суммарного значения кармы



    Показатель «Карма/чел.» и возрастные группы



    Псевдонаучно о хабрадинамике

    Самой кармистой группой являются пользователи в хабравозрасте от года до двух. В возрасте 3-х лет наблюдается кризис среднего хабравозраста, который выражается в пассивности, безразличии к окружающей среде (карма=0), общему снижению кармы (всего 2,68 единиц кармы на человека) и уменьшении популяции активных особей (с кармой >5). Очевидно, что к 4-му году наблюдается стабилизация состояния и выравнивание ситуации (карма на человека — 4,35). К 5 годам хабрачеловек постигает хабрамудрость и познает мир, его карма уверено ползет вверх — он становится добрее и отзывчивее. Всё это подтверждается и статистикой ниже.

    Карма. Статусы


    Далее данные указаны в человеках.
    Хабравозраст Тролли Отхабренные В ноль От 0 до 5 >5
    0-6 мес. 1 272 1194 1140 642
    6-12 мес. 5 398 747 1215 600
    < 1 года 6 670 1941 2355 1242
    1 год 6 517 888 1632 1141
    2 год 7 686 1137 1681 1430
    3 год 21 2958 16468 4723 3263
    4 год 8 1528 7652 3691 2936
    5 год 1 108 366 432 431
    Остальные 0 2 41 5 3
    Итого 49 6469 28493 14519 10446

    В % от общей численности группы. Столбик «Итого» отражает средние показатели по хабру.



    Так, в среднем по хабру:
    на 1 тролля приходится 1234 не троллей,
    на 1 отхабренного — 8,35 неотхабренных,
    на 1 захабренного — 1,42 незахабренных.

    Разложение статусных групп по хабравозрасту, %



    Идеи на будущее


    Во-первых, можно перейти от статики к динамике — проанализировать поведение суммарной по хабру кармы, кармы возрастных групп и среднепользовательской кармы во времени.
    Во-вторых, можно провести аналогичный анализ по рейтингу.
    В-третьих, распарсить все хабрацентры и составить статистику по настоящим возрастным группам, а также по дополнительным параметрам — количество «легенд», «авторов» и других статусов, наиболее часто встречаемые имена и фамилии.
    В-четвертых, то, что, возможно, предложите вы.
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 93

      +23
      У XaocCPS карма какая-то зловещая…
        +24
        Договор с дьяволом за первое место по карме?:)
          +19
          Причем до десятых точность. Корпорация зла все-таки палится.
          +19
          Он — воин хаоса, евангелист майкрософта на Хабре.
          • НЛО прилетело и опубликовало эту надпись здесь
            +2
            Надо, чтоб кто-то исправил…
              +4
              Так плюсаните ему! :)
                0
                Просто у таких людей карма редко меняется, так как за то время что он на сайте, по сути, все кто его видели, скорее уже проголосовали, либо + либо -, но проголосовали, а голосовать можно один раз.
              +4
              Я за ней уже давно наблюдаю. Иногда она на 1-2 единицы уходит от этого числа, но всегда находятся добрые люди, которые быстро её обратно вытягивают.
                0
                добрые?
                  +6
                  «Все люди добрые» ©
                0
                И как же сложно ее поддерживать на таком уровне…
                За каждый ПЛЮС, надо сразу же где то выхватить МИНУС, чтобы не спугнуть такие цифры
                0
                У меня два вопроса:
                1. Почему суммы за 0-6 и 6-12 месяцев кое-где не сходятся с цифрами за "< 1 года"?
                2. Где же самое интересное — исходный код с пояснениями? ;)
                  0
                  1) Хм… напишите в личку, где не сходятся. Всё делал в экселе с проверками, где только можно. Скорее всего опечатка.
                  2) Код парсера? он несложный, поэтому решил не выкладывать. Да и тематика блога — статистика.
                  Алгоритм таков:
                  а) тянем все страницы из инета и сохраняем локально (это самая долгая часть);
                  б) параллельно с этим можно начинать парсить то, что сохранили.
                  Подводные камни:
                  Первый раз не проверил, правильно ли распарситься карма с минусом через преобразования типа $x = (float)$text. В результате потратил кучу времени на неправильный парсинг данных. Исправил, запустил опять, и снова fail — нужно было в числе запятую заменить на точку. Только после двух неудачных попыток решил сохранять страницы локально.
                  –12
                  >на 1 тролля
                  я так-то хотел написать умный коммент, но прочитав это, решил что ваш топик пока этого недостоин.
                  • НЛО прилетело и опубликовало эту надпись здесь
                      0
                      Денис Попов вне конкуренции :)
                    0
                    Ой, уберите текстовые размышления — они неправильные, имхо. Вы посчитали всех когда-либо зарегистрированных пользователей, а рассуждаете так, словно смотрите на данные только за последние дни.
                      0
                      Если вы о блоке про хабрадинамику, то я поэтому и назвал этот подраздел «псевдонаучно о..». Решил немного разбавить сухие цифры. Но если она действительно никак не вписывается, то уберу.
                        0
                        В первую очередь я это к разделу «Численность».
                          0
                          Спасибо. Надеюсь, я то убрал?:)
                            0
                            Да и эти два предложения тоже странные. Опять же, имхо. Тут как бы график скорее говорит о том, что пик регистраций был 3-4 года. Хотя опять же не знаю, учитывали Вы активность или нет. Если учитывали, то тогда я в своём «имхо» неправ.
                              0
                              Мм, в разделе численность я рассматривал именно численность, активность в расчет не брал. Цель была просто показать количество аккаунтов в той или иной возрастной группе. Чтобы учесть активность, нужно ещё парсить хабрацентры (даты, когда человек был последний раз на сайте), но этого в расчёт не брал, так что, наверное, в этом ключе ваше «имхо» право:)
                      +2
                      Простите, а чем осуществлялся подсчёт данных?
                      image
                        0
                        Группа "< 1 года" обобщает первые две группы.
                          +2
                          Пардон, ступил.
                        +1
                        Можно ещё гендерный признак как-нибудь в это всё вплести)
                          0
                          Я это включил в планы — заключительная часть, пункт «в-третьих». Идея сама по себе интересная:) Думаю, процент отхабренных девушек будет меньше отхабренных мужчин.
                          p.s^ Не смог реализовать, потому что парсил только страницы с рейтингом, а там личной информации минимально.
                            +3
                            Можно будет узнать, кто чаще троллит — дамы, или господа)

                            Если к этому ещё и «По городам/странам» приписать, можно будет узнать, в каком городе самая высокая популяция самок троллей.
                              0
                              Эк вас понесло:) Боюсь, что для этого придется просить статистику у хабраадминистрации: далеко не все указывают страну, не то что город.
                                0
                                В-третьих, распарсить все хабрацентры и составить статистику по настоящим возрастным группам, а также по дополнительным параметрам — количество «легенд», «авторов» и других статусов, наиболее часто встречаемые имена и фамилии.


                                А если у человека в настройках приватности активна опция
                                «Показывать значки в профайле: всем / только себе», это же отразится на результатах подсчёта?
                                  0
                                  Очевидно, что да. Но ведь статистика, она всегда немного врёт. Чисто с бытовой точки зрения, значки целесообразно прятать только троллям, но их можно и по карме выявить.
                              +2
                              С этим могут быть проблемы. Я сам как-то парсил первую 1000 хабралюдей. Решение о принадлежности к тому или иному полу принималось на основе названия ссылки на публикации: «его» или «ее». Проблема в том, что значительный процент людей (около 30%) не указал свой пол, но ссылка отображается как «его». В единичных случаях пол может быть указан неверно. Такое тоже попадалось.
                                0
                                Тогда, видимо, придется отказаться от пола или делать частичную выборку. Идея определять пол по «его»/ «её» хороша.
                                  0
                                  Не знаю, насколько она хороша, но других вариантов я не нашел.
                                    0
                                    Есть вариант парсить комментарии и статьи человека на наличие фраз, определяющих его пол
                            +1
                            Интересно, а я считаюсь активным? У меня акку чуть больше 3-х лет и карма чуть меньше пяти)
                              +1
                              Повторюсь, этот фрагмент шуточный. А активными обозначил тех, кто теоретически может опубликовать статью (карма > 5). По этой терминологии вы не активны:) Вообще, конечно, активность надо по рейтингу определять.
                              +6
                              Сумма кармы первых тысячи человек составляет примерно 20% от суммы по всему хабру

                              Почти как с распределением денежных благ в РФ )
                                +1
                                Парето намекает, что так происходит вообще почти со всеми подобными распределениями.
                                0
                                интереснее проанализировать динамику появления постов на главной: иногда бывает встретишь пост в новых, а потом он через несколько дней на главной оказывается, невольно задаешься вопросом неужели так много людей просматривает ленту новых на пару дней назад или это (о ужас) накрутки на хабре:) можно построить конспирологию кого и на какие темы накручивают)
                                  0
                                  Не думаю что накрутки. Обычно новая хабрастатья в первые минуты жизни подвергается бурному голосованию. Положительные оценки компенсируются отрицательными. Через сутки, когда страсти улягутся, в минус почти не голосуют — минусяторы в это время бросаются на более свежую жертву. Зато по чуть-чуть растут плюсы от тех, кто вчера был занят и смог прочитать статью только через день или два.
                                  +2
                                  Карма — ничто. В неё гадят нехорошие обиженные люди. Например сегодня я получил минус два голоса в карму (куда ж ниже! :) Запомнил что было 83 голоса потому, что как раз сегодня заходил в профиль, теперь там 85 голосов) за то, что написал, что подкасты — неудобно и долго. habrahabr.ru/company/nomobile/blog/117591/#comment_3827841

                                  Продолжаете считать карму адекватным мерилом? Для любителей поднасрать — однозначно.
                                  • НЛО прилетело и опубликовало эту надпись здесь
                                    • НЛО прилетело и опубликовало эту надпись здесь
                                        +10
                                        Заик трудно слушать, говорить с заиками — легко :)
                                          0
                                          Неужели? Я недавно общалась с одним очень выраженным заикой — так гораздо больше меня напрягло то, что он активно и на полном серьезе оперировал понятиями «субординация» и «подсидеть» (по отношению к третьему лицу).
                                          (Если что, минусы не мои, я так, мимо пробегала :-))
                                          • НЛО прилетело и опубликовало эту надпись здесь
                                        • НЛО прилетело и опубликовало эту надпись здесь
                                            0
                                            Жажда кармы — все.
                                            +1
                                            Я люблю статистику!
                                              +1
                                              Не знаю, по какой причине размазывается скриншот, но хочется поделится некоторыми соображениями по цифрам. По нажатию на скриншоте сможете просмотреть его в нормальном качестве.
                                              image
                                                +2
                                                А по-моему в 3-х летних куча ботов. Судя по количеству и средней карме. Когда там инвайты ввели?
                                                  0
                                                  где-то три года назад и случилось
                                                    +5
                                                    Это вы кого сейчас ботом назвали? :))
                                                      0
                                                      Кстати, да. Подтвердить смогу после следующего сбора статистика (парсинга хабрацентра), но то, что много «странных» — это точно. Где-то в середине рейтинга есть часть людей, у которых непросто нулевые карма и рейтинг, но ещё и ни одного коммента / ответа на вопрос (за 3 года).
                                                        +2
                                                        За три года ни разу не довелось плюсанють… хоть что-нибудь, пичалька. Моя требуэ понижения планки.
                                                          0
                                                          вот кстати да
                                                        +1
                                                        Старожилы сидят без кармы, ай-ай-ай, если бы не они, каким был бы хабр? :-)
                                                          +2
                                                          Нужно анализировать только активных пользователей. С примесью мертвых душ неинтересно, погода на Марсе получается.

                                                          Активность можно определять по рейтингу или по дате последней активности.
                                                            0
                                                            не туда ответил
                                                          +1
                                                          Это предназначалось для вас.
                                                            +1
                                                            Ага, я понял;) во второй части статистики обязательно учту. Спасибо!
                                                            0
                                                            рейтинг вверх, карма вниз… :)
                                                            что я делаю не так?
                                                              +5
                                                              видимо, много глупых вопросов задаете :)
                                                              +3
                                                              Хабар весьма забавное место. Здесь поощряется стадное мышление. А для того, что не раскрывать тайну «человек имеющий своб точку зрения» заменили на «тролль»(нет, много людей с этой плашкой действительно тролли, но карма не показатель). А для того, чтобы стадо не напрягало свой мозг совсем — добавили автоматическую выдачу плашек.
                                                                +5
                                                                Даже будучи несогласным и имея свою точку зрения, это самую точку зрения можно выражать так, что у оппонентов не возникнет желания лезть в профиль и минусовать. Я не говорю, что надо своими комментариями ублажать всех, просто всегда стоит следить за своими комментариями и не грубить.
                                                                  0
                                                                  Расскажите нам еще что-нибудь захватывающее из разряда фантастики, пожалуйста
                                                                    0
                                                                    Ну почему фантастики, просто человек мыслит оптимистично и верит в людей, при этом он кажется реалист. Ну это все равно что — гопников можно и нужно пытаться наставлять на путь истинный кротким словом, но это не избавляет он необходимости носить с собой кастеты ;).
                                                                      0
                                                                      Если взять чистую статистику, то юзер написал 300 комментариев за 5 лет. За это время поведение пользователей на хабре менялось примерно 3 раза, приходили другие люди, другие уходили. У меня цифра комментариев немного больше, поэтому с точкой зрения автора комментария не согласен или согласен, но в малой доле.
                                                                        0
                                                                        Спасибо, что не поленились заглянуть в мой профиль :) Просто я предпочитаю больше читать, чем писать. Порой даже если и не согласен, то ленюсь написать коммент, так как понимаю, что завяжется бесполезный спор, который ни к чему не приведет.
                                                                          0
                                                                          Выходит вы выбираете вменяемых оппонентов, естественно ваша статистика покажет всегда + :)
                                                                        0
                                                                        Ага, для каждого случая необходим свой подход. И к гопникам, и к троллям :)
                                                                      0
                                                                      Желание возникнет обязательно, это от человека зависит. Например, моя карма за 2 комментария в этом посте пострадала. Главное, не особо заморачиваться по поводу цифр в профиле.
                                                                    +6
                                                                    Что-то и мне захотелось похабрастатистить, график зависимости рейтинга от позиции в рейтинге(взяты первые 400 позиций):


                                                                    Парсилось все небольшим скриптом на питоне:
                                                                    rating=[]
                                                                    ... for i in xrange(1, 5+1):
                                                                    ... adr="http://habrahabr.ru/people/page"+str(i)+"/"
                                                                    ... page = urllib2.urlopen(adr).read()
                                                                    ... page = page.replace(u'</scr"+"ipt>',"
                                                                    ")
                                                                    … soup = BeautifulSoup( page )
                                                                    … for j in soup.findAll(«td», «userrating»):
                                                                    … rating.append( j.contents[0].contents[0])

                                                                    Визуализировалось с помощью matplotlib.
                                                                      0
                                                                      Упс, парсер схавал тег :(
                                                                        0
                                                                        Кстати, была мысль сделать такой график, но относительно кармы, получилось довольно скучно — монотонно убывающая почти прямая.
                                                                        0
                                                                        Очень здорово было бы сделать специальный сайт, на котором можно было бы в любой момент получить текущий срез. Если эту идею осуществить, то несложно будет добавить сохранение срезов (например, раз в день) и выводить статистику в динамике — как менялись разные показатели с течением времени.
                                                                          +3
                                                                          товарищи администрация, рассказывайте как (когда, что, регулярность) вас можно парсить, чтобь не попасть в немилость (не завалить чтонить)?!
                                                                            0
                                                                            В идеале эта просьба должна звучать как «Товарищи администрация, рассказывайте, когда у хабра будет нормальный API?».
                                                                              0
                                                                              не спешите, ФБ тоже не день строился — зато сейчас их смело можно матюкать за 3 вида апи и кучу недокументированных фич.

                                                                              ЗЫ отправил письмо чипу и дейлу, мож чего расскажут
                                                                              ЗЗЫ тут не зря есть раздел DIY — это какбы намекает
                                                                                0
                                                                                а чтобы вы хотели видеть в хабровском API?
                                                                                0
                                                                                Интересно, что нету ограничения на количество документов в минуту. Т.е. волнует вопрос: могу ли я одномоментно обратиться к 3 тысячам документов? При этом правило «обращение к 1 документу не чаще 1 раза в минуту» будет соблюдено.
                                                                              0
                                                                              Не нашел в статистике тех, у кого и рейтинг и карма
                                                                                0
                                                                                мм, имеете в виду нулевые рейтинг и карму? Можно начать смотреть отсюда.
                                                                                +1
                                                                                Я извиняюсь, почему-то пост обрезался (на символе
                                                                                  +1
                                                                                  Я опять извиняюсь, посты режутся на математическом символе «меньше» (символ начала тега). Как я понимаю, это связано с запретом тегов для минусовой кармы.
                                                                                  Я имел ввиду тех, у кого и рейтинг и карма меньше нуля. Или они в категории нулевых?
                                                                                    0
                                                                                    Нет, этот показатель я и правда забыл посмотреть. Если интересно, то их — 5272 человека, т.е. 8,7% от всей аудитории. Спасибо за хороший вопрос! ;)
                                                                                    p.s^ для символа "<" используйте соответствующую html-сущность — &lt; (для знака > — &gt;)
                                                                                      0
                                                                                      Спасибо, надеюсь администрация в курсе данной фичи, и что чайники вроде меня могут генерить обрезанные посты.
                                                                                        0
                                                                                        Думаю, они в курсе. Парсеру сложно разобраться, где символ открывающегося тега, а где знак "<". Если задуматься, хабр делает благородное дело — обучает основам вёрстки, что бы будущий программист не умер от безработицы с голоду:)
                                                                                  0
                                                                                  Феерично :) раньше просто пузомерки были, теперь вокруг них чуть ли НИИ строят :)
                                                                                  Автор, в чём соль вашего титанического труда по выявлению средней температуры по больнице?)
                                                                                    +2
                                                                                    Во-первых, труд не такой уж и титанический: час на вытягивание страниц, полчаса на парсинг, два вечера на подведение результатов и составление диаграмм.
                                                                                    Во-вторых, если, честно, не вижу ничего фееричного — просто статистика, кое-какие цифры. К тому же, в разделе «Предыстория» всё сказано: получение опыта парсинга (нужен для одного текующего проекта), ответ на вопрос про распределение кармы. А здесь делюсь результатами работы.
                                                                                    В-третьих, мне нравится наблюдать за людьми и искать какие-то закономерности в их поведении. Фактически, данный топик — это первый блин, проба сил и проверка хабраинтереса к подобной статистике. В следующий раз попробую написать что-то поинтереснее. Даже, может быть, вам понравится;)

                                                                                  Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                                                  Самое читаемое