Посты-рекордсмены

    На Хабре я недавно (чуть меньше месяца), до этого Хабр практически не читал. Пришёл, огляделся, походил по тематическим «хабам», почитал «Лучшее за всё время», просмотрел статьи отдельных, заинтересовавших меня персонажей и понял, что для того, чтобы получше понять, как живёт и чем дышит это замечательное сообщество, мне придётся Хабр распарсить и позадавать ему разные вопросы. К тому же, раз уж в своих статьях я писал в основном об автореферентности в разных её проявлениях, как не написать на Хабре статью о Хабре?

    Посмотрю, интересно ли это всё кому-либо кроме меня. Если интересно, напишу ещё несколько постов, идей и материала для этого более чем достаточно.

    Если я ничего не пропустил в интерфейсе сайта, единственные списки самых-самых, которые можно посмотреть — это общий рейтинг пользователей и список статей, т.н. «Лучшее за всё время». Оба списка отсортированы по рейтингу (пользователей и статей, соответственно). Между тем, существует ещё куча параметров, по которым было бы интересно всё отранжировать.

    Самые «полезные» статьи. Статьи, которые максимальное кол-во читателей добавило в «избранное».

    27+ ресурсов для онлайн-обучения / Хабрахабр
    Памятка пользователям ssh / Хабрахабр
    Жизнь разработчика (в картинках) / Хабрахабр
    20 вещей, которые я должен был знать в 20 лет / Хабрахабр
    Прекратите скручивать! / Хабрахабр
    Подборка инструментов для фронт-энд разработки / Хабрахабр
    Подборка полезного для любителей Twitter Bootstrap / Хабрахабр
    Несколько полезных сервисов / Хабрахабр
    Сети для самых маленьких. Часть нулевая. Планирование / Хабрахабр
    Принцип цикады и почему он важен для веб-дизайнеров / Хабрахабр
    Руководство по оформлению HTML/CSS кода от Google / Хабрахабр
    Делаем приватный монитор из старого LCD монитора / Хабрахабр
    Взломать Wi-Fi за 10 часов / Блог компании Журнал Хакер / Хабрахабр
    Подборка инструментов для эффективной frontend разработки / Хабрахабр
    Топ-5 самых впечатляющих книг, которые должен прочесть каждый разработчик ПО / Хабрахабр
    Спать мало, но правильно? / Хабрахабр
    Хочешь быть iOS разработчиком? Будь им! / Хабрахабр
    Лекториум записал почти тысячу лекций за год / Хабрахабр
    Онлайн-инструменты для кодеров / Хабрахабр
    Ускорение загрузки Windows for fun and profit / Хабрахабр

    Статьи, собравшие максимальное кол-во комментариев.

    Как раздавать инвайты на Google+ / Хабрахабр
    Hello, world! / Блог компании Тематические Медиа / Хабрахабр
    Лучшие компьютерные игры всех времен и народов по версии хабрасообщества 2013 года / Хабрахабр
    Раздача слонов или инвайты на Google+ / Хабрахабр
    Ещё +2Гб для вашего DropBox аккаунта. На сей раз, промо-акция DropBox и Three.com.hk / Хабрахабр
    Праздничная раздача инвайтов! / Хабрахабр
    Первая версия Opera 15 для компьютеров / Блог компании Opera Software ASA / Хабрахабр
    Инвайты на Google Wave / Хабрахабр
    Зачем нужны попы в ВУЗе? / Хабрахабр
    Чего вам не хватает для полного перехода с windows на linux? / Хабрахабр
    Инвайты на Турбофильм! / Хабрахабр
    Антивирус Бабушкина / Хабрахабр
    Хабракамп / Хабрахабр
    Demonoid.Com / Хабрахабр
    О том, что сегодня произошло с «аськой» (часть 1-я) / Хабрахабр
    Роскомнадзор признаёт хентай детским порно, призывает к подаче жалоб, обещает пополнение реестра запрещённых ресурсов в Интернете / Хабрахабр
    300 миллионов пользователей и переход на WebKit / Блог компании Opera Software ASA / Хабрахабр
    Какой язык программирования должен быть первым при изучении в школе? / Хабрахабр
    Планируете ли вы навсегда уехать из России раньше 2017 года? / Хабрахабр
    Апрельский фуршет / Хабрахабр

    Антирейтинг. Худшее за всё время. Это тоже интересно. Это не скучные, неинтересные статьи, не получившие высокий рейтинг. Это статьи, нашедшие живейший отклик в умах и сердцах обитателей Хабра. Правда отрицательный.

    Update. Большая часть «Антирейтинга» была убрана НЛО после публикации статьи, из 20 постов осталось 5:

    Галерея безобразных скайп-аватар / Хабрахабр
    Lostfilm закрыт / Хабрахабр
    Мой гвоздь в крышку гроба Windows / Хабрахабр
    «ВКонтакте все украл у Facebook»: надоевший миф / Хабрахабр
    Оригинальный дизайн / Хабрахабр

    Интересно было, есть ли на Хабре статьи с высоким рейтингом без единого отрицательного голоса. Что надо написать, чтобы ни у одного, даже самого злобного, тролля не поднялась лапка нажать на минус? Предположил, что без фотографий котят тут не обойтись. Ошибся.

    Физика радиационных эффектов, влияющих на электронику в космосе / Хабрахабр
    DNS Amplification (DNS усиление) / Хабрахабр
    Headtracking или как увидеть трехмерный чайник на двухмерном мониторе / Хабрахабр
    Обзор мозгокомпьютерного интерфейса Emotiv Epoc / Хабрахабр
    Электронный поводырь для слепых «Электросонар» / Хабрахабр
    Первое мероприятие по 3D печати в Нидерландах / Хабрахабр
    Неизбежность нодокалипсиса / Хабрахабр
    Обнаружение устойчивых признаков изображения: метод SURF / Хабрахабр
    Изображения: форматы и сжатие (2/3) / Блог компании TradingView / Хабрахабр
    CSRF на vkontakte.ru / Хабрахабр
    Хемилюминесценция люминола / что внутри «светящихся палочек»? / Хабрахабр
    Pionen — Подземный дата центр / Хабрахабр
    Взлом хеш-функций (2004-2006 гг.): как это было и что теперь делать? / Хабрахабр
    Миникомпьютер из роутера с OpenWRT: пишем драйвер фреймбуфера / Хабрахабр
    Применение процедурных генераторов в создании контента для real-time 3D приложений: Часть 2. Valley Benchmark / Блог компании UNIGINE / Хабрахабр
    Как работает беспилотный автомобиль «Гугла» / Хабрахабр
    ZX-Art: крупнейшая коллекция графики для ZX-Spectrum / Хабрахабр
    “DVD-Йон” затеял социальную сеть на пиратском контенте / Хабрахабр
    Видеохостинг своими руками / Хабрахабр
    Возвращаемся на раздачу или как сделать невозможное / Хабрахабр

    На относительно небольшом кол-ве статей мой написаный на коленке парсер упал, я решил, что вышеприведённые списки это не сильно изменит. Потом пройду отдельно эти статьи и выложу все результаты как таблицу в формате csv, для самостоятельных изысканий читателей.

    Мысли и идеи
    1) Ещё несколько рейтингов вроде вышеприведённых
    2) Нормализация рейтинга. Рейтинг статьи в 2006ом году совсем не то же самое, что аналогичный рейтинг в 2013ом. К сожалению, параметр «кол-во просмотров» был на Хабре не всегда, тут придётся что-нибудь изобретать, например учитывать кол-во пользователей, зарегестрированных на момент написания статьи. Ну и пересмотреть топ после такой нормализации.
    3) Частотный словарь Хабра и сравнение его с другими частотными словарями, например Википедии. А так же интересно сравнить лексику статей с лексикой комментариев.
    4) Использовать Хабр как материал для генератора марковских цепочек, автоматическая генерация «статей» и «комментариев».
    5) Попробовать поучить какой-нибудь байесовский спам-фильтр отличать «хорошие» статьи от «плохих». В успехе подобного мероприятия сильно сомневаюсь, т.к. надеюсь, что для оценки имеет значение смысл статьи, а не только слова её составляющие. Но мало ли.
    6) Корелляции всякие поискать. между всем и всем.
    7) Восемь троллей — вымысел или реальность?
    8) Самые-самые — это замечательно, а как насчёт «самые средние», что такое типичный пост на ХабраХабр?
    9) Наименее интересно, но тоже можно сделать. Для любителей… гхм… помедитировать на рейтинг и карму. Что из себя представляют эти цифры? Какой процент статей имеет более высокий рейтинг чем моя замечательная статья? У какого процента пользователей карма длинее и толще чем у меня? Графики красивые можно нарисовать, разумеется. Ещё из той же серии — как будет выглядеть общий рейтинг, если те, кто в нём не участвуют (сотрудники Хабра) вдруг решат участвовать? Как будет выглядеть рейтинг, если убрать пессимизацию и начать учитывать былые заслуги?

    P.S. Не уверен, что поставил в правильный хаб, но ничего более подходящего не нашёл.

    Update.
    Придумал ещё один, как мне кажется, интересный рейтинг. Посты вызвавшие самую неоднозначную реакцию сообщества:

    Первый пост / Блог компании ВКонтакте / Хабрахабр
    Дискриминация пользователей ВКонтакте / Хабрахабр
    Почему упал Вконтакте / Хабрахабр
    Пора завязывать использовать символы табуляции в коде / Блог компании PVS-Studio / Хабрахабр
    И чтец, и на дуде игрец / Хабрахабр
    Хабраохрана и культура речи / Хабрахабр
    Прощай, карма или Кому нужен iPad? / Хабрахабр
    Неюзабельные продукты от Apple / Хабрахабр
    Бессмысленная «Операционная Система» / Хабрахабр
    Чо! Мейл.ру. Чо? / Хабрахабр
    Пепяка / Хабрахабр
    Костюм лисички-Firefox [фото] / Хабрахабр
    Давайте поговорим о Microsoft / Хабрахабр
    OpenSource-курсач, или заставляем преподавателя выпасть в осадок / Хабрахабр
    Почему я люблю Microsoft. Заметки зомби / Хабрахабр
    Браузер Yandex / Блог компании Яндекс / Хабрахабр
    Империя наносит ответный удар 2 / Хабрахабр
    Merchant API / Блог компании ВКонтакте / Хабрахабр
    Бог — бестолковый гейм-дизайнер / Хабрахабр
    Почему я отказался от Mozilla Firefox / Хабрахабр
    Вышел QIP для iPhone / Хабрахабр
    Share post

    Comments 59

      +1
      А чем и как парсили? Сам думал такое сделать, но лень победила(
        +2
        Питон, BeautifulSoup для работы с html, предварительно всё скачал, тоже питоновским скриптом.
          +4
          Скачали все посты? Можно узнать, сколько они весят?
          Кстати, можно ещё юзеров посмотреть типа у кого больше всего постов, комментариев и т. д.
            +3
            Я скачивал по тупому. Создал этот пост, посмотрел на его номер — №191268, и пробежал по всем линкам с 1го по 191268, соответственно все посты, которые выдают 404ю ошибку и все посты, к которым закрыт доступ (в виде html с соответствующим сообщением об ошибке) тоже были скачаны.
            в общей сложности получилось гигабайт пятнадцать, подозреваю, что без всего этого мусора было бы сильно меньше.
              +6
              ваш ответ, а также другие посты, ради написания которых тоже скачивали весь интернет хабр, наталкивает на мысль что ТМ пора уже выкладывать дамп метаданных постов, чтобы люди мучили этот файл, а не качали все страницы целиком.

              Возможно, как бонус, вам стоит такой файл выложить, последователям останется его просто дополнить.
                +3
                Я выложу обязательно. Приведу немного в порядок и выложу.
                  +2
                  Хабразеркало в i2p, например?
                  +4
                  Давно мечтаю об оффлайновом Хабре. :)
                  0
                  С микохабра скачать, наверное, было бы компактнее
                    +1
                    на микрохабре не хватает одной несущественной мелочи…
                    всех чисел, по которым эти рейтинги строились :)
                      0
                      Вы правы, каюсь :)
            +1
            А давайте эту статью максимально заплюсуем, чтобы была своего рода кратким содержанием хороших статей хабра?
              +4
              А что мешает просто в избранное добавить? Не, вы не подумайте чего, я не против рейтинга, просто странный какой-то призыв )
                +1
                Я к тому чтобы новые пользователи или вообще не пользователи имели быстрый доступ к полезным статьям. В дальнейшем этот пост можно было бы расширять, добавляя другие интересные и полезные материалы, тем самым создавая «коллективное избранное» для новичков.
                  +2
                  Идея неплохая, но реализация в виде постоянно обновляемого поста никуда не годится. Было бы круче сделать нечто вроде онлайн-сервиса, который бы имел собственную автоматически обновляемую копию метаданных постов и позволял строить различного рода отчеты и выборки с помощью конструктора или языка запросов. А «лучшее» было бы частным случаем одной из таких выборок.
                +5
                Эти статьи вовсе не «хорошие». Они интересовали кого-то и когда-то, а со временем оно почти все превращается в информационный мусор. Большая часть статей сверху уже вообще не актуальны и не интересны просто потому, что их время ушло.
                  +3
                  Отчего же? Как минимум половина статей из первого раздела весьма хороши и все еще актуальны, на мой взгляд. А даже если это и не совсем так, я считаю, что такие статьи вполне заслуживают быть выделенными из кучи действительно информационного мусора в виде новинок железа, анонсов конференций Apple, новостей об очках Google и прочем, и прочем, не несущем никакой полезной нагрузки вне временного контекста, в который они были опубликованы (а некоторые и вовсе не несущие никакой полезной нагрузки).
                    0
                    Многие из «полезных» я тоже добавил в избранное, они действительно хороши. А остальные разделы представляют (по крайней мере для меня) историческую ценность — по ним можно видеть, что происходило на этом ресурсе <шутка> во времена, когда он был торт </шутка>, что нравится и что не нравится обитателям Хабра.
                      0
                      Тогда и делайте свой хороший хабраиндекс, и его будут плюсовать :)
                        +1
                        Да я всего лишь пост хотел написать, а не делать индексы :)
                        Мне интересней потом, когда руки дойдут, с частотными словарями повозиться и сделать что-то вроде этого — habrahabr.ru/post/188678/#habracut, только посоветовавшись предварительно с кем-нибудь, кто в отличие от меня, что-нибудь понимает в статистике :)

                        Впрочем, если кто-нибудь что-нибудь такое делать соберётся, все скрипты приведу в порядок и отдам.
                  +9
                  Добавил в избранное пост о постах, которые добавили в избранное.
                    +8
                    Уроборос от счастья подавился хвостом :)
                      +3
                      Причем большинство из них — из серии «40+ CSS фреймворков, которые вам обязательно надо попробовать».
                      +1
                      О да мой хабракамп попал в список самых комментируемых.
                        0
                        Пепяка порадовала!
                        Это Шедевр!
                        +3
                        Ещё можно добавить рейтинг «лучших постов в корпоративные блоги».
                          +2
                          Спасибо за подборку рейтингов. Удивил пропущенный недавно (в декабре 2012) пост про Скайп («Галерея безобразных скайп-аватар») и его стиль.

                          По последнему рейтингу. Я тоже давно заметил важность наблюдения 2 оценок комментариев и статей и давно вывожу с помощью скрипта инфографическое представление оценки (Диаграмма процентовки «за и против» на canvas). И заметно, что там, где происходит борьба мнений, там обсуждения получаются живее. Но для статей это не всегда так — борьба около нуля — это обычно спорные статьи, а если плюсов к минусам — 2 к 1 или 3 к 1 — то имеется живое обсуждение и борьба мнений по достаточно интересной теме. Поэтому важна не только борьба, но и склонение её к плюсам.

                          Обращусь ко всем читателям по более практическому вопросу:

                          Как вам идея о том, что будет создаваться онлайн-классификатор хабро-статей наподобие 3 известных сейчас дайджестов, только в онлайне, со свежей классификацией?:

                          Дайджест интересных материалов из мира веб-разработки
                          Дайджест интересных новостей и материалов из мира PHP (собирает та же самая компания)
                          Интерфейсный дайджест jvetrau

                          Основная проблема, ради чего нужен такой — это то, что имеющиеся ленты смешиваают всё вместе, и только живые люди (ну, может быть, фильтры по ключевым словам немного) могут помочь разделить потоки новостей, разработок, обзоров железа и скандальных новостей по разным потокам. Нужны как раз эти люди, которые добровольно классифицировали бы статьи по типам и тем самым дайджест формировался бы автоматически. Важно лишь отобрать авторитетных экспертов.

                          Реализацию вижу через скрипт. Читатель-эксперт (не обязательно даже зарегистрированный), читая ленту, отмечает в ней статьи по типам. Этим самым он помогает и себе, и другим, удаляя ненужные в данный момент типы статей из своего поля зрения. Эти оценки транслируются на сервер, а другие читатели, читая ленту, получают тем же скриптом с сервера актуальную классификацию. У кого нет скрипта, могут зайти на страницу и увидеть актуальный усреднённый по экспертам классификатор.

                          На какое-нибудь засорение классификатора ответ простой: классификации, сильно отличающиеся от средних, во первых, не учитываются в онлайне, во-вторых, постоянно некоррелирующий эксперт отключается от любых автоматических голосований. Для совсем уж ортодоксов сойдёт вариант постоянного круга экспертов или имеющих самый высокий рейтинг неотклоняемости. Для личного списка эксперта собственные оценки имеют высокий рейтинг.

                          Кстати, если туда добавлять в онлайне ссылки типа таких, что из дайджестов, с классификацией, возродится забытый формат топиков-ссылок.

                          Категорий, которым нужна классификация, видится достаточно много, но не очень много:
                          * Собственные разработки авторов
                          * Переводы о разработках
                          * Новости обновлений версий
                          * Сделай сам (по железу и электронике)
                          * факты об организации своего бизнеса
                          ----------на этом заканчивается идеальный Хабр, начинаются оффтопики----------
                          * Беллетристика об IT (то, что почитать можно, а использовать нельзя — типа как Билайн прокладывал сотовую связь в Камбодже)
                          * художественные сочинения
                          * беллетристика об офисах и бизнесах компаний
                          * сведения о компаниях, людях, продуктах
                          * исторические свеедения
                          * обзоры железа в плане новинок, а не редких полезных статей, кроме эпохальных обзоров
                          * новости кроме обновлений версий
                          * скандальные новости по законам
                          * скандальные новости по некомпетентности крупных компаний + по мошенничеству мелких + то и другое

                          Дальше работа с ними такая: если надо прочитать действительно ценное, смотрят на верхнюю часть списка. Если есть желание и время ознакомиться дальше, смотрят дальше. И для себя (если есть скрипт) корректируют список.
                            +1
                            Еще интересным был бы рейтинг людей в таких разрезах: количество статей, сумма баллов всех статей, количество комментариев, сумма баллов всех комментариев.

                            Интегральные оценки: сумма баллов всех статей / карма и т.д.

                            Зависимость оценки статьи от размера, то же самое с комментариями :)
                              +1
                              Спасибо! Сейчас разгребусь с завалом на работе и подготовлю продолжение поста, в личку тоже много всяких идей прислали.

                              Насчёт зависимости оценки от размера — habrahabr.ru/company/tm/blog/39689/ :)

                              0
                              Ну хоть один мой пост есть в подборке. Жизнь прожита не зря.
                                +3
                                Требую открыть к просмотру статьи из антирейтинга!
                                  0
                                  Требуете у кого? Их авторы позакрывали. Подозреваю, что из за того, что пришла толпа по ссылке и нехорошо поступила с кармой. Не думал, что будет такой эффект. Мне самому тоже пара минусов от обиженных прилетела :)
                                  У меня оно всё есть скачанное, но как-то, по-моему, не очень этично это выкладывать без согласия авторов. Самые настырные всё равно отыщут в кэшах поисковиков и прочих архивах.
                                    0
                                    статья скрыта в черновики (самим автором или НЛО)

                                    В 99% случаев это именно НЛО. У него, соответственно, и требую.
                                      0
                                      Однако… Вы правы. Прошёлся по профилям авторов, большинство из них давно не заходило на Хабр.
                                      А зачем НЛО это делать?
                                        +7
                                        Из ненависти ко всему человеческому, разумеется.
                                        0
                                        del
                                    0
                                    Спасибо за «Жизнь разработчика»
                                      0
                                      Я то тут при чём? ) Лучше автора (точнее переводчика) поблагодарите. А пост действительно классный. И комменты :)
                                      +1
                                      Сделайте аналитику по комментариям и пользователям. Данные у вас уже есть.
                                        0
                                        Сделаю, сделаю. Будет как минимум ещё один пост. Сюда и в личку много всяких реквестов накидали :)
                                        0
                                        7) Восемь троллей — вымысел или реальность?

                                        На данный момент TOP-10 Троллей Хабра у меня получился следующий:
                                        1. egorinsk -419.8
                                        2. Freelance -407
                                        3. Himari -300
                                        4. IlVin -142
                                        5. Nakilon -137
                                        6. System32 -126
                                        7. otov4its -115
                                        8. juneuniversum -113
                                        9. smmurf -103.1
                                        10. dangelweb -103

                                        P.S.Искал с помощью поисковой системы запросом: «site:http://habrahabr.ru/users/ troll.png карма -».
                                        +2
                                        Чтобы не пропускать топовые посты: habrafilter.ru — rss топовых постов по рейтингу или добавлениям в избранное
                                          0
                                          А что случилось с сервисом?

                                        Only users with full accounts can post comments. Log in, please.