Анализ комментариев

    Хотел опубликовать перед выходными, но я думаю, в понедельник тоже пойдет.
    Ниже анализ комментариев к 212 топикам за неделю с 24 сентября по 30 сентября (даты приблизительные). Всего комментариев 14 423, средняя длина комментария 200,8 символов.

    Отношение к окружающим


    image
    Выводы

    • вежливых в 7 раз больше;
    • о себе говорят в 45% случаев.


    Самые популярные смайлики


    Веселые
    :) 2121
    ;) 316
    =) 285
    :-) 145
    )) 81
    ))) 58
    ;-) 54
    :)) 50
    %) 35
    :))) 29
    =)) 25
    ^_^ 11
    )))) 11
    ))))) 8
    =))) 8
    Не веселые
    :( 130
    =( 20
    :-( 10

    Выводы
    • на Хабре весело;
    • классический смайлик :-) теряет свою популярность.

    Любимые числа


    Место Кол-во Число
    1 258 2
    2 249 1
    3 213 5
    4 173 10
    5 158 3
    6 121 0 (ноль)
    7 110 4
    8 83 6
    9 82 7
    10 77 30
    11 75 100
    14 56 8
    22 28 9

    Выводы
    • Хабр — ИТ ресурс;
    • 8, и особенно 9 недолюбливают.

    Оценки комментариев


    Средняя оценка комментария +1,036.
    Самые нелюбимые слова (слово встречается больше 50 раз, средняя оценка комментария)

    image
    Самые любимые слова (слово встречается больше 50 раз, средняя оценка комментария)

    image
    Выводы
    • Комментарии с картинками или кодом — это плюс.

    Сначала я хотел поставить эти графики в начало, для привлечения внимания, но так и не понял, как их трактовать. Обратите внимание: «хабр» +2,57, «хабре» -0,85.

    П.С. Базу комментариев можно скачать здесь (формат SQLite, ~8 Мб).
    В какой блог лучше поместить? Перенес в блог Статистика
    Поделиться публикацией
    Ой, у вас баннер убежал!

    Ну. И что?
    Реклама
    Комментарии 30
      +6
      ИМХО
      Как по мне то очень любопытная статистика, но к сожалению вряд ли будет иметь какой-либо практический интерес.
        +9
        все понял, добавил тег «Юмор».
        +7
        Хабр, знает, интернет, пользователя :) и смайлики ))
          +25
          >> Любимые числа

          Я удивлён — а где же 42??
            –1
            и 100001001 нет в списке тоже :)
              +6
              так же нет числа 100500!
                +1
                over 9000 тоже нет :(
                  +1
                  В выборке 4 раза встречается
              +17
              Идеальный комментарий:
              Народ знает, интернет хочет пользователя.Ответ времени — момент. :)
                +2
                Самое популярное слово в виде тега картики и стиля шрифта улыбнуло.
                  +8
                  А почему закрытых blockquote больше чем открытых?
                    –9
                    Попробуем:
                    Интернет знает пользователя :)
                      +5
                      Сейчас Вас и других «тестеров» заминусуют и у автора будет тема для новой статистики :)
                      +3
                      Ну как в какой?..
                      Конечно, в I ♥ Habrahabr!
                        +5
                        НЛО уже среагировало.
                        –2
                        )
                          –3
                          Интересно)
                            +1
                            во блин. веселый IT ресурс, где не любят 8 и 9, но любят троеточие и «над» =)))
                              +1
                              Хорошо, что смайлик вида )))) не стал еще самым популярным :-)
                              +3
                              Странно не видеть распределение плюсов/минусов от длинны коммента.
                              И вообще более сложный корреляционный анализ имел бы больше смысла. Например словосочетание слов наверняка более сильно коррелирует с оценкой чем просто слова eg «линукс гавно» и «линукс рулез». Тут еще важно расстояние между словами eg «ms гавно а линукс рулез» ну и так далее… :)

                              PS. Статистика — она всегда такая — вроде как факт, но на самом деле хитро заныканная полуправда.
                                0
                                И не лень вам было все это считать? :-) (я пользуюсь классическим смайликом всегда)
                                  0
                                  Интересно, а почему смайл "))" в рейтинге смайлов на 5 месте, но единственный смайл в списке «любимых» слов? =))
                                    0
                                    Выходит, что только смайл «))» ставят в дельных комментариях))
                                    +1
                                    А какое слово на диаграмме нелюбимых слов между «умеет» и «php»? Растризация шрифтов оставляет желать.
                                    <font… ))
                                      0
                                      Там «ms». Прошу прощения за качество, так и не разобрался как из ОпенОфиса нормально диаграммы экспортировать.
                                      –1
                                      Момент пользователя знает интернет сети, хочет информации и ответ со стороны статьи хабра :)
                                        +1
                                        Мда… Есть ложь, есть отьявленная ложь, а есть статистика…
                                        +1
                                        из статистики по обращениям не нужно так прямо воспринимать обращение «Вы» это скорей всего гораздо чаще сарказм чем факт вежливого обращения))
                                          0
                                          За проделаную работу — 5, а вот слова «говорю» и «говорит» можно было бы и склеить… Ну это так от морфоанализа потянуло:)

                                          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                          Самое читаемое