• ANOVA, или кто комментирует?


      В комментариях проскальзывала мысль, что люди мало комментируют статьи на Habrahabr, т.к. боятся потерять карму. Получается, что в основном пишут те, у кого карма побольше. Попробуем исследовать эту гипотезу подробнее и получить результаты, подкрепленные не только интуитивно, но и статистически.
      Читать дальше →
    • Рецепт идеального Хабропоста



        На наш взгляд, создание «идеального поста» — это не только процесс выбора темы и написание текста. Немалая доля успеха заложена в оформлении и тех обстоятельствах, при которых статья опубликована. Длина заголовка, количество текста до ката и привлекающая картинка — все эти факторы имеют свой вес. Хотели бы Вы получить на 30% больше просмотров, просто поменяв оформления поста и время размещения?

        Мы в Cloud4Y хотели бы. Поэтому мы провели глубокий анализ публикаций на Хабрахабре за последние полгода и сегодня хотим поделиться новыми полезными находками.
        Читать дальше →
      • Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica)


          Скачать пост в виде документа Mathematica, который содержит весь код использованный в статье, вместе с дополнительными файлами, можно здесь.

          Анализ социальных сетей и всевозможных медиа-ресурсов является сейчас довольно популярным направлением и тем удивительнее для меня было обнаружить, что на Хабрахабре, по сути, нет статей, которые содержали бы анализ большого количества информации (постов, ключевых слов, комментариев и пр.), накопленного на нем за довольно большой период работы.

          Надеюсь, что этот пост сможет заинтересовать многих участников Хабрахабра. Я буду рад предложениям и идеям возможных дальнейших направлений развития этого поста, а также любым замечаниям и рекомендациям.

          В посте будут рассматриваться статьи, относящиеся к хабам, всего в анализе участвовало 62000 статей из 264 хабов. Статьи, написанные только для корпоративных блогов компаний в посте не рассматривались, а также не рассматривались посты, не попавшие в группу «интересные».

          Ввиду того, что база данных, построенная в посте, формировалась за некоторое время до публикации, а именно 26 апреля 2015 г., посты, опубликованные на Хабрахабре после этой даты (а также, возможно, новые хабы) в данном посте не рассматривались.
          Читать дальше →
        • Теория модерирования



            Так случилось что я — непрофессиональный модератор с многолетним опытом модерирования пары интернет ресурсов (далее — ресурсов) на которых происходит общение пользователей в форумах на различные темы. Поскольку участвую в общении на других ресурсах с целью получения нужной информации, совета и мнения, то у меня есть возможность наблюдать за тем как модерируются и другие ресурсы.

            В этой заметке представлена как общая информация о модерировании подобных ресурсов, так и будет описано то, о чём руководство таких ресурсов предпочитает распространяться:
            • как управляются такие ресурсы;
            • с какими проблемами встречаются модераторы и управление форумов и подобных им ресурсов;
            • о том как эти проблемы решаются;
            • о неуспешном решении проблем;
            • какие есть методы для поддержки развития таких интернет ресурсов во избежание их деградации.

            В конце заметки вы найдёте список того что оказалось совсем не так как я ожидал до того как пришёл в модерирование.
            Читать дальше →
            • +24
            • 11.4k
            • 8
          • ТОП 100 англоязычных сайтов об IT



              Привет, Хабр!

              Чтение на английском может быть полезно как в изучении иностранного языка, так и в пополнении профессиональных знаний. Мы задались вопросом, какие новостные порталы, блоги и прочие Интернет-ресурсы на английском языке имеют четкую IT-направленность и наиболее интересны разработчикам, админам, тестировщикам, веб-дизайнерам и людям других технических специальностей в России?

              Чтобы создать ТОП полезных англоязычных IT-ресурсов, мы решили воспользоваться статистикой Хабрахабра. Наряду с авторскими публикациями, здесь публикуются и переводы интересных материалов. Такие посты отмечены тегом «Перевод» и содержат ссылку на оригинал.

              Всего за последние полгода на Хабре было около 1000 переводных статей. Мы посчитали для каждого источника переводов средний рейтинг публикации, среднее число просмотров и количество добавлений в Избранное. Затем были удалены сайты со средним рейтингом публикаций менее 16 и числом просмотров менее 4000. Полученные сайты мы отсортировали по числу переводов на Хабре из этого источника, так как, возможно, это характеризует ресурс как часто обновляемый и «объёмный».

              Собрав и проанализировав таким образом данные о публикациях, мы получили наш ТОП100 компьютерных сайтов на английском, который мы надеемся будет полезен и вам.
              Читать дальше →
            • Невероятно, но факт: в этом году «Хабрахабр» празднует своё десятилетие. Десять лет — это много или нет? С одной стороны — не очень, с другой — это почти половина возраста Рунета. А поскольку за это время проект успел порядком наследить в интернет-индустрии, хочется оглянуться назад и вспомнить наиболее интересные и запомнившиеся моменты из продолжающейся истории сайта.
              Читать дальше
            • 48 часов жизни вашей публикации на Хабре

                Кто-то с помощью Хабра пиарится, кто-то ведет свою контент стратегию, а кто-то просто делится интересной информацией. Но всем хочется знать заранее что будет с опубликованным материалом, будет он популярным или нет, понравится ли читателям. Можно ли предугадать сколько просмотров получит статья по первым трем часам ее жизни?

                image
                Читать дальше →
              • Хабростатистика, часть 2 — опровержение с графиками

                  Вчера я публиковал статью на тему того, когда лучше публиковаться на хабре. С тех пор мой паук собрал статистику за весь 2015 год, и картинка немного изменилась. Так же я построил несколько графиков, и в целом картина прояснилась. Осторожно, трафик!
                  Читать дальше →
                • ХаброСтатистика — в какое время лучше публиковать статью на хабре?

                    Астрологи объявили месяц статистики, и пожалуй я присоединюсь на сегодня к авторам статистических статей.

                    Наверняка вы задумывались — когда лучше публиковать статью? В выходные, чтобы её внимательно читали? В пятницу, чтобы у всех было хорошее настроение? В понедельник, когда после выходных все выползают читать хабр? А может быть, лучше выбрать время обеденного перерыва? Сразу оговорюсь, что данный вопрос имеет значение не только для хабра — примерно то же самое можно сказать про почти любые публикации, если нету какой-то совсем суровой конкретики. У меня есть своя гипотеза, о ней я расскажу в конце статьи.
                    Читать дальше →
                  • Статистика посещаемости Хабрахабра за февраль

                      За девять месяцев своего существования Хабрахабр уже набрал приличную аудиторию и продолжает расти. Сайт, основанный в июне 2006 года, на данный момент насчитывает более 5 000 зарегистрированных посетителей (3 188 активных).

                      По статистике февраля, ежедневная посещаемость сайта — более 12 тысяч визитов (почти 5 тысяч уникальных посетителей в день). По сравнению с январем, количество ежедневных посещений выросло на 10 %, рост ежедневно просматриваемых страниц составил почти треть (32 %). Общий трафик (исключая отдаваемый роботам) за 26 дней февраля — 84 Гб (73 Гб в январе).
                      Читать дальше →
                    • О Хабрахабре, статистике и… облаках тэгов

                        Здравствуйте!
                        Примерно месяц назад я написал статью, в которой представил на суд уважаемой хабрапублики несколько графиков. Графики как могли отражали историю развития этого сайта и пытались оценить качество контента на нем. Даже не знаю, удалось ли им добиться своей цели, но в целом статью встретили довольно тепло. Еще тогда я пообещал себе, что при возможности попытаюсь продолжить тему.

                        И снова о тематическом наполнении


                        В прошлый раз я пытался отразить тематическое наполнение Хабрахабра с помощью графика и круговых диаграм, которые оперировали количеством статей, принадлежащих той или иной категории блогов. И, если чесно, то считаю, что удалось это мне из рук вон плохо.
                        Читать дальше →
                      • О Хабрахабре, статистике и тортах

                          Лирическое отступление


                          Здравствуйте!
                          Однажды темным зимним вечером мне было нечего делать и я убивал время чтением любимого Хабрахабра. В коментах в очередной раз проскочила фраза о том, что Хабр, дескать, уже не торт.

                          Статистика, статистика и еще раз статистика


                          Мне стало интересно, можно ли как-нибуть оценить качество статей на Хабре численно и будет ли видно по полученной оценке, как оно менялось со временем, или же, на самом деле, все эти комментарии не более чем брюзжание о том, что раньше и трава была зеленее? Дело было вечером и делать было нечего, поэтому я взял волю в кулак и написал простенького бота, который неспеша перекопал почти 2800 страниц главной Хабра и собрал статистику по захабренным статьям с момента открытия Хабра и по 31 декабря 2009 года.
                          Традиционная картинка для привлечения внимания, график количества статей по месяцам:

                          под катом еще много интересного
                        • 8+ в 1: как я хотел привлечь внимание

                            Добрый вечер, хабрачитатели!

                            Перед выходом 8+ в 1: наш новый мессенджер под iOS и Android, мне пришлось проделать кое-какую работу по изучению тех мест, куда мы собирались публиковать пресс-релизы. Одним из таких мест стал Хабр.

                            Мы задались следующими вопросами:
                            • В какой день недели лучше всего публиковать пост?
                            • В какое время (интервал времени) лучше всего публиковать пост?
                            • В какое время года лучше всего публиковать пост?


                            image

                            Под катом ответы на вопросы и намного больше
                          • Рейтинг хабов и компаний по постам/подписчикам

                              На данный момент на хабре около 350 хабов. Функционал сайта позволяет сортировать их по имени и по индексу. А по другим параметрам — например по количеству постов — нет, а хотелось бы.

                              Меня вдохновила статья рейтинг постов хаба, и я решил сделать похожую, но составить уже рейтинг самих хабов.

                              В первой половине статьи я представлю вам рейтинги хабов и компаний, а также небольшой их анализ. А во второй — подробно распишу, как я на Java с помощью библиотеки JSoup парсил HTML страницы хабры, с какими интересными явлениями и проблемами столкнулся. И в конце статьи выложу полный исходный код программы.


                              Читать дальше →
                            • Кто на Хабре живет?

                                А вы знаете, что на «Хабрахабре» зарегистрировано уже более 700 тысяч человек? Но лишь каждый девятый из них имеет статус выше чем «Read-only».

                                Методика исследования


                                Для исследования было обработано около 800 страниц статистики пользователей «Хабрахабра» с 2006 по 2017 год. Изначально страница называлась «Люди» и размещалась по адресу habrahabr.ru/people, позже она была переименована в «Пользователи» и сменила URL на habrahabr.ru/users.

                                За предоставленную информацию выражаю благодарность Internet Archive.

                                Хабровчане


                                image
                                Читать дальше →
                              • Граф цитирования статей Хабрахабра

                                  Однажды, мне стало интересно: насколько статьи на Хабре связаны между собой? Поэтому сегодня мы займемся исследованием связности статей, и конечно не только посчитаем численные метрики, но и увидим картину целиком.



                                  (это не просто картинка для привлечения внимания, а граф цитирования статей внутри Хабрахабра, где размер вершин определяется числом входящих рёбер, i.e., "количеством цитат внутри Хабра")


                                  Началось всё с того, что в комментариях к статье про Хабра-граф и карму Tiberius и Loriowar озвучили идею, фактически витающую в воздухе: а почему бы не взглянуть на граф цитирования статьёй внутри самого Хабра?




                                  Вы спрашивали? Мы отвечаем. Для того чтобы рассказ не был размахиванием рук, конкретизируем разбираемые вопросы:


                                  • Q1: Как выглядит граф цитирования Хабрахабра и какие в нём хабы (hubs and authorities)?


                                  • Q2: Насколько связным является сообщество (граф цитирования) и какие в нём кластеры?


                                  • Q3: Как изменится граф, если из него убрать самоцитирование?

                                  Под катом трафик. Все картинки кликабельны.

                                  Читать дальше →
                                • Наbra Analytics Tools: аудитория хабов

                                    Исследуем аудиторию

                                    Перед каждым автором на Хабре встает вопрос: «В какие же хабы разместить статью»? Безусловно, ответ прежде всего зависит от темы. С другой стороны, многие статьи достаточно широкого профиля и приходится тщательно выбирать в какие три хаба написать. Сам Хабр такого инструментария для анализа не предоставляет. А что делают обитатели хабра, когда инструмент нужен, а его нет? Они его пишут!

                                    Тогда же мне пришла мысль, что неплохо было бы иметь простой визуализатор, который бы выдавал простую статистику по хабам и их совместной аудитории, например вот так:



                                    По картинке сразу видно, насколько пересекаются читатели различных хабов и имеет ли смысл заменить какие-либо из них.
                                    Читать дальше →
                                  • Анализ статей Хабрахабр и Geektimes



                                      Сначала была идея собрать частотный словарь слов Хабрахабр и Geektimes, но потом нашла прекрасное: Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica) (перед просмотром данной статьи рекомендую пройти по ссылке), увидела разницу в результатах и решила сделать подобное для статей с Хабрахабр и Geektimes. В обзор не попали статьи с подкастами и нестандартным оформлением (habrahabr.ru/article). Получился анализ 170000 статей. Все изображения кликабельны. Код Wolfram Notebook на github. Датасет на Яндекс.Диске. UPD: по поводу расчета рейтинга — я тоже ошиблась при расчете. Тут в обсуждении OsipovRoman пишет, что отличия небольшие.
                                      Осторожно, траффик!
                                    • Часть первая, а вторую часть всё равно никто не читает

                                        О чем собственно речь


                                        Как-то раз одним поздним декабрьским вечером завершился сбор материала для хабра-статьи, посвященной SAT. Материала оказалось слишком много и передо мной встал выбор: разделить статью на две части или собрать весь материал вместе в одной статье. Выбор был сделан в пользу разделения на части (первая и вторая). К моему удивлению, вторая часть получила значительно меньше внимания, чем первая — фактически её прочитали в два раза меньше человек.

                                        Время шло, и я стал замечать, что это происходило не только с моими статьями, но и со многими другими статьями в нескольких частях. Тогда у меня возник вопрос, а верно ли в общем, что вторая часть получает меньше внимания (просмотров, плюсов, и записей избранного)?

                                        (сделано на основе хабра-статьи Как лгать с помощью статистики)

                                        Структура статьи
                                        1. О чем собственно речь
                                        2. Данные
                                        3. Сравниваем части
                                        4. Серии статей
                                        5. Заключение
                                        6. Дальнейшее чтение

                                        Читать дальше →
                                      • Анализ публикаций на Хабрахабре за последние полгода. Статистика, полезные находки и рейтинги

                                          Давненько никто не собирал статистику о постах на Хабрахабре. Мы в Cloud4Y решили узнать какие изменения произошли за последние полгода. Нас интересовало:

                                          • В какой день недели и время суток лучше всего публиковаться?
                                          • Есть ли зависимость между числом подписчиков и популярностью постов?
                                          • Каких постов больше: обучающих материалов, переводов или прочих?

                                          И многое другое…



                                          Что мы сделали?


                                          24 апреля 2017 года была собрана статистика по всем последним публикациям на Хабрахабре. Оказалось, что в период с 20 сентября 2016 года по 22 апреля 2017 года:
                                          Читать дальше →