Как стать автором
Обновить

Комментарии 62

теги есть или нет, наличие заголовков есть или нет, можно было подписать какая часть на графике к чему относиться. Хотя и так можно догадаться.
Сорри не заметил в рисунке про наличие заголовков подпись, сначала заглянул на теги есть или нет, так как больше интересовало.
Все равно добавил. :)
НЛО прилетело и опубликовало эту надпись здесь
Спасибо, исправил.
Оченно интересно!!!
а соц-дем можно из БД извлекать?
Фото Уфа — интересный тег.
Это, видимо, погрешность выборки. Попался журнал у которого 925 записей помечены тегом Фото Уфа.
Но приятная погрешность, я так даже горд стал за нашу Уфу :)
Дама, ведущая этот дневник — молодец. Так здорово повлиять на статистику в одиночку — надо уметь!
о да!
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Не мешает ничего, кроме времени: у меня загрузка 200 000 страниц заняла сутки. Я не готов ждать 10 дней.

К вопросу «для чего». Это будет оффлайн-агрегатор для ЖЖ, который будет позволять скачивать дневники полностью. Поэтому мне была интересна общая статистика за все время существования ЖЖ.
Зачем вообще нужна статистика, если ее составитель «не готов» сделать ее сколь-нибудь репрезентативной?
Мне кажется, что длина заголовков или среднее количество тегов несильно изменятся, если увеличить выборку. Мне это нужно для того, чтобы сразу избежать каких-то явных ляпов в интерфейсе: что-то расползлось или висит в воздухе.

Она ответила на интересующие лично меня вопросы и я решил просто поделиться с другими. ;)
Такие аггрегаторы уже существуют.
Погуглите на тему
Не видел ни одного, который бы не сохранял мне тонну хтмл-ок на диск, имел бы поиск и пр.
Особенно интересно выборка по дням недели. Чтобы не делал — ты лишь статистика.
Пожалуй, что для полноценной статистики 200 пользователей все-же маловато, особенно если учитывать сегментацию. У вас всего один пользователь внес весьма существенную и заметную погрешность. Неплохо бы хотя бы 10-20 тысяч, хотя понятно что для этого нужны другие мощности.
И вам правильно сказали про 1999 год, исследовать нужно последние года 2-3 не дальше.
Я с вами полностью согласен, что маловато. Остальную статистику соберут будущие пользователи, надеюсь. :)
В моем случае нужно было скачать весь журнал целиком. Поэтому мне интересны записи с 1999 года. Мне кажется, что длина заголовков или среднее количество тегов несильно изменятся, если увеличить выборку. Мне это нужно для того, чтобы сразу избежать каких-то явных ляпов в интерфейсе: что-то расползлось или висит в воздухе.
Мне были бы интересны тренды по временной линии — как менялась длина заголовков, размер постов, число комментариев и остальные метрики за 10 лет
оф, какой инструмент использовали для отрисовки?
Графики в Иллюстраторе + доводка каждого напильником.
Статистика это всегда интересно. Спасибо.
Интересно.
А почему отбор был таким:
5 пользователей со страницы и их посты до 1999-ого года,

а не таким:
Каждый второй пользователь, но посты, допустим за последние 4-6 лет.

Цифры у меня взяты с потолка, но мне кажется, что лучше взять больше разных пользователей и менее длинный период времени, чем исследовать долгий период некоторой их части. Стиль написания у одного человека достаточно константен, либо циклично повторяется.
Меня прямо подвигают на повторное исследование. :) А про пять — мне хотелось, чтобы попала первая пятерка.
Запущу тогда дома на пару дней и посмотрим на сколько изменяться результаты.
Спасибо, я слишком поздно заметил, что уже про это спрашивали. Ждем новых результатов, будет интересно сравнить с этими.
А у Вас остался кэш, можно еще раз пробежаться по страницам?
Мне вот, например, интересно было бы посмотреть статистику не по сообщениям <1000 символов, а <140 (сравнение с твиттером) или <160 (с sms), что-то мне подсказывает, что твиттер уже давно существовал в рамках жж.
Уже убил. Через пару дней можно будет. Учту ваше пожелание.
ЖЖ и вправду сильно напоминает твиттер по количеству символов: habrahabr.ru/blogs/lj/78942/
О, ничего себе. Сейчас почитаем :)
Извините, а за такие графики не положено отрывать руки?

А чем он плох? Может и положено. :)
Мне казалось, что график должен быть информативен. Главной задачей графика является быстро донести информацию в виде, который легко воспринимать и анализировать.
Было бы интересно смотреть не на 1стоблец, из которого понятно, что более 1000 знаков никто не пишет, а на 15столбцов с шагом 100символов.
Было бы интересно смотреть не на шкалу от 0 до 20 по тегам, где дальше 5и — пустота, а на шкалу от 0 до 5, зато это было бы понятно.
Вот эти хороши





p.s. предыдущий ответ отправился случайно =(
Оба графика несут информацию.
Первый говорит о том, что есть записи более 50 000 знаков. А шаг в 100 символов тоже очень велик для того, чтобы увидеть что-то отличное от резкого снижения.

Второй говорит о том, что больше 20-ти тегов быть не может. Это физическое ограничение ЖЖ. Поэтому шкала от 0 до 5 скрывала бы данные.

Но я согласен с тем, что выглядит это не лучшим образом. Постараюсь исправить в версии 2.0
Было бы разумно пренебречь этими результатами, если таких постов менее 1%.
А если хотелось всё таки разместить шкалу на 20 делений, то зачем было ужимать её в 2.5 раза, по сравнению с другими графиками?
А мысли так и лезут в голову…
Еще мне кажется, что данные за 1999 год не актуальны.
Тем более, вы их предлагаете использовать для анализа ситуации в данный момент.
Информация была бы намного актуальнее, если бы взять 20 000 пользователей и рассматривать 10 их последних постов.
Эти два графика частично исправил. Про актуальность почитайте комментарии выше и П.П.С.
На этих графиках просто слишком «тыжелый хвост». В таких случаях нужно сделать ось X логарифмической, это как бы «растянет» данные по графику и сделает его более читаемым. Если нужно, могу показать пример с теми же данными на простом графике и на графике с логарифмической осью X.
Хвост поправил. А суть логарифмического графика я плохо понимаю. На мой взгляд он будет искажать отношения.
Вот пример двух графиков для тех же самых данных. Обратите внимание на шаги по оси X на втором графике — они не линейные, а логарифмические. На втором графике видно, что основная часть данных лежит в интервале от 0.01 до 100. На первом графике этого разглядеть невозможно. Поэтому я и советую вам использовать логарифмические графики в тех двух случаях — они будут гораздо лучше читаться.

Понял. Я сперва подумал, что по оси Y. Осталось понять как заставить иллюстратор такое сделать. Или SQL.
Тут я к сожалению не могу вам помочь, т.к. я не знаком с инструментом которым вы пользуетесь. Если эти графики (кстати, они называются гистограммы — histograms) рисуются при помощи какой-нибудь функции типа histogram(data), то можно попробовать просто histogram(log10(data)) или что-нибудь в этом роде.
Спасибо. В во второй версии посмотрю.
Можно воспользоваться общепринятыми способами и построить графики в Excel, который под это заточен.
Не понял :-)
Пара комментариев по оформлению графиков. У вас практически нигде нет рисок с подписями на осях. Например на графике «Длина заголовка в символах» нужно по оси X проставить риски через каждые 10 или 20 единиц. Аналогично из графика «По дням недели» понятно лишь что в среду чуть больше записей чем, например, во вторник. Если вы по оси Y проставите риски со значениями, то сразу станет понятно, сколько же в среду публикуется записей.

Если вы собираетесь продолжить анализ, то предлагаю вам углубиться в изучение данных. То что вы представили это как бы описание основных параметров данных, из этого как правило не получается сделать интересные выводы. Все станет гораздо интереснее если вы найдете какие-нибудь неожиданные корреляции. Например верна ли гипотеза, что чем длиннее заголовок, тем больше комментариев? Или влияет ли объем текста на колличество комментариев? Эти утверждения я привожу здесь лишь в качестве примера. Как мне кажется вы попытались сделать что-то в этом роде на последнем графике, но я его, если честно, не понял. Чему соответствуют оси (еще раз возвращаемся к вопросу об оформлении осей)?
Про последний график. Он неточен в плане данных: в части записей комментарии распарсились и стали текстом заметки. А вообще по горизонтали отложено количество знаков х1000, а по вертикали — количество комментариев.

Про анализ. Мне не интересны какие-то интересные (-: корреляции. Мне нужно было решить конкретную задачу: спроектировать интерфейс. Для этого мне понадобились конкретные данные: длина заголовков, количество тегов, объем текста.

Про оси. Данные графики в своей массе показывают экстремумы значений. Мне было все равно сколько записей имеют в заголовке 7 букв. Мне важно, что большинство имеют около 14.

Но с новой выборкой (10 000 ников уже загрузил ;-) ) я попробую найти какие-нибудь интересные закономерности.
А вообще по горизонтали отложено количество знаков х1000, а по вертикали — количество комментариев.


Интересно, слабенькая корреляция все-таки есть. В правой части графика значения по оси Y выше, т.е. грубо говоря, чем длинне текст, тем больше комментариев.
Улучшенный вариант: habrahabr.ru/blogs/lj/78942/. Длина текста достаточно сильно влияет на количество комментариев.
Ожидал увидеть «лытдыбр» среди популярных тегов (
Некро-комментарий! :)
Нет, не собирал.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории