Если количество комментариев под статьёй стремительным домкратом приближается к 1000, будьте уверены — независимо от заявленной автором темы внутри бушует срач: очаги возгорания политоты, окружённые диванными экспертами по всем вопросам, психиатрические диагнозы на расстоянии по аватарке и никнейму, переходы на личности, саркастические выпады, едкость которых превышает таковую у крови ксеноморфов, и, конечно же, обязательное в таких случаях блюдо — взаимные обвинения в том, что ваш визави с вами дискутирует исключительно за вознаграждение и\или по долгу службы. Которая, видимо, и опасна и трудна, и на первый взгляд как будто не видна, а тридцать серебренников на дороге не валяются.
Самое забавное в такой ситуации это то,что люди, глубоко поражённые синдромом в-интернете-кто-то-неправ, зачастую тратят чёртову прорву времени и нервов чтобы совершенно бесплатно доказать другому такому же поражённому, что уж он-то ровно это же самое делает за деньги или по приказу. Вы ищете тут логику? Её нет. Это интернет, детка.
Возьмём один из относительно свежих срачей о предполагаемой территориальной дискриминации на Гитлабе. С момента публикации статьи прошло 4 дня и, разумеется, обсуждение давным давно съехало от изначально заявленной темы за тридевять земель. Звучат такие фразы:
Вопрос, который я хочу поставить пред ваши ясны очи, следующий — возможно ли вообще методами статистики хоть сколь-нибудь надёжно выделить эти самые паттерны так, чтобы создать формальный классификатор, отличающий комментаторов казуальных от профессиональных? Представьте себе — «по данным хабра-ботометра вы с вероятностью 76% являетесь кремлеботом». Это будет намного круче кармических рейдов друг на друга.
К сожалению, моих компетенций не хватит на то, чтобы даже предположить, в какую сторону копать для решения такой задачи. Тем не менее, за вчерашний вечер я сколхозил «на коленке» небольшой примитивный парсер, который (благо страницы с комментариями открыты даже для неавторизованных посетителей) пока что делает две вещи — а) собирает у заданного юзернейма статистику всех его комментариев (пока что просто time-stamp) и складывает в базу MySQL; б) рисует временную диаграмму, отмечая на ней взятые из этой базы события отправки комментария. Даже без какого-то мудрёного анализа получилось довольно забавно. Вот так выглядит диаграмма моих комментариев. Пояснения — под ней. Лучше всего её рассматривать в отдельном окне на масштабе в 100% и больше.
По горизонтальной оси — время, каждый пиксель равен одной минуте, цена серых делений равна одному часу, вся горизонтальная линия равна одним суткам. Сутки идут снизу вверх вдоль вертикальной оси, цена деления на ней — 365 суток.
Ничего особенно интересного в моей диаграмме нет. Видно, что я люблю поспать по 7-8 часов, часто ложусь за полночь, и иногда устраиваю многочасовые марафоны комментирования, и что активность за последний год превышает или примерно равна таковой за предыдущие пять лет.
Или вот товарищ gecube три с половиной года хранил обет молчания, а потом как прорвало…
Диаграмма активности типичного хабракомментатора выглядит приблизительно таким образом (это QtRoS)
Отчётливая «сонная лощина» слева где-то в европейской ночи и неспешное комментирование во время светового дня, возможно с перерывами на пол-года.
Но не все диаграммы такие скучные! Как вам, например, такое:
За два с небольшим года наш коллега, видимо, переучил свои биоритмы спать с европейской ночи куда-то под Срединно-Атлантический хребет, причём равномерно и постепенно, а потом ещё два года потратил, чтобы вернуться к берегам Португалии. Пешком шёл? Вплавь? Я не могу придумать правдоподобных объяснений… Первые три часа бодрствования комменты летят как из пулемёта, а под конец дня уже так, раз в часик заглянул, что там делается да и всё.
Это был, кстати, 0xd34df00d.
А вот ещё загадка:
Четыре с половиной года коллега продержался без единого комментария — видать тренировался где-то в тайных монастырях, как не спать потом сутками, судя по тому, сколько комментов отправлено в «сонной лощине».
Но вот самое тут интересное — это аномалия в 16-м часу, которая длится более трёх лет и в последний год постепенно затухает. Перекур? Выгуливание собаки? Пробежка? Что ещё может оторвать хабровчанина от ленты комментариев в разгар рабочего дня с такой ежедневной предопределённостью? Я раздолбай и лентяй, не могу себе представить подобной самодисциплины, которую может себе позволить уважаемый khim.
Наконец, последняя диаграмма для подумать:
На ней вообще нет чётко выраженной «сонной лощины». Только еле-еле угадывается видимое превышение количества комментов, отправленных после полудня над отправленными до.
Со всей комсомольской строгостью призываю уважаемого MTyrz разоружиться перед партией и честно признаться, сколько бабушек, дедушек, внучек, жучек и мышек рулят вашим аккаунтом и строчат комменты.
И под занавес коварный вопрос — может ли кому-то это всё быть интересно настолько, что захочется развить код парсера и\или получить дамп базы или доступ ней и так далее? Мои собственные познания в дата-майнинге и в методах визуализации данных едва ли превышают общую эрудицию. Что-то более умное и интересное, чем эти простенькие диаграммки я вряд-ли придумаю. Если кто-то заинтересовался, пишите мне в телеграм (ник в профиле).
Спасибо за внимание!
UPD. Выложил исходники на GitHub.
Самое забавное в такой ситуации это то,что люди, глубоко поражённые синдромом в-интернете-кто-то-неправ, зачастую тратят чёртову прорву времени и нервов чтобы совершенно бесплатно доказать другому такому же поражённому, что уж он-то ровно это же самое делает за деньги или по приказу. Вы ищете тут логику? Её нет. Это интернет, детка.
Возьмём один из относительно свежих срачей о предполагаемой территориальной дискриминации на Гитлабе. С момента публикации статьи прошло 4 дня и, разумеется, обсуждение давным давно съехало от изначально заявленной темы за тридевять земель. Звучат такие фразы:
Реальный человек не сможет ничего противопоставить профессиональному комментатору на подписке…Так, стоп. А какие такие паттерны «обычно присущи обычному пользователю»? Автора этой фразы в той теме, к сожалению, уже транклюкировали, так что придётся идти наугад.
Пользователь (такой-то) тратит просто нереальное количество времени на комментарии…
При этом его активность не имеет паттернов которые обычно присущи обычному пользователю…
p.s. но это навело меня на мысль написать парсер-анализатор таких комментаторов ) С показанием активности по часам, количеством времени в день, в неделю и т.п… Хорошая тема для статье)
Вопрос, который я хочу поставить пред ваши ясны очи, следующий — возможно ли вообще методами статистики хоть сколь-нибудь надёжно выделить эти самые паттерны так, чтобы создать формальный классификатор, отличающий комментаторов казуальных от профессиональных? Представьте себе — «по данным хабра-ботометра вы с вероятностью 76% являетесь кремлеботом». Это будет намного круче кармических рейдов друг на друга.
К сожалению, моих компетенций не хватит на то, чтобы даже предположить, в какую сторону копать для решения такой задачи. Тем не менее, за вчерашний вечер я сколхозил «на коленке» небольшой примитивный парсер, который (благо страницы с комментариями открыты даже для неавторизованных посетителей) пока что делает две вещи — а) собирает у заданного юзернейма статистику всех его комментариев (пока что просто time-stamp) и складывает в базу MySQL; б) рисует временную диаграмму, отмечая на ней взятые из этой базы события отправки комментария. Даже без какого-то мудрёного анализа получилось довольно забавно. Вот так выглядит диаграмма моих комментариев. Пояснения — под ней. Лучше всего её рассматривать в отдельном окне на масштабе в 100% и больше.
По горизонтальной оси — время, каждый пиксель равен одной минуте, цена серых делений равна одному часу, вся горизонтальная линия равна одним суткам. Сутки идут снизу вверх вдоль вертикальной оси, цена деления на ней — 365 суток.
Ничего особенно интересного в моей диаграмме нет. Видно, что я люблю поспать по 7-8 часов, часто ложусь за полночь, и иногда устраиваю многочасовые марафоны комментирования, и что активность за последний год превышает или примерно равна таковой за предыдущие пять лет.
Или вот товарищ gecube три с половиной года хранил обет молчания, а потом как прорвало…
Диаграмма активности типичного хабракомментатора выглядит приблизительно таким образом (это QtRoS)
Отчётливая «сонная лощина» слева где-то в европейской ночи и неспешное комментирование во время светового дня, возможно с перерывами на пол-года.
Но не все диаграммы такие скучные! Как вам, например, такое:
За два с небольшим года наш коллега, видимо, переучил свои биоритмы спать с европейской ночи куда-то под Срединно-Атлантический хребет, причём равномерно и постепенно, а потом ещё два года потратил, чтобы вернуться к берегам Португалии. Пешком шёл? Вплавь? Я не могу придумать правдоподобных объяснений… Первые три часа бодрствования комменты летят как из пулемёта, а под конец дня уже так, раз в часик заглянул, что там делается да и всё.
Это был, кстати, 0xd34df00d.
А вот ещё загадка:
Четыре с половиной года коллега продержался без единого комментария — видать тренировался где-то в тайных монастырях, как не спать потом сутками, судя по тому, сколько комментов отправлено в «сонной лощине».
Но вот самое тут интересное — это аномалия в 16-м часу, которая длится более трёх лет и в последний год постепенно затухает. Перекур? Выгуливание собаки? Пробежка? Что ещё может оторвать хабровчанина от ленты комментариев в разгар рабочего дня с такой ежедневной предопределённостью? Я раздолбай и лентяй, не могу себе представить подобной самодисциплины, которую может себе позволить уважаемый khim.
Наконец, последняя диаграмма для подумать:
На ней вообще нет чётко выраженной «сонной лощины». Только еле-еле угадывается видимое превышение количества комментов, отправленных после полудня над отправленными до.
Со всей комсомольской строгостью призываю уважаемого MTyrz разоружиться перед партией и честно признаться, сколько бабушек, дедушек, внучек, жучек и мышек рулят вашим аккаунтом и строчат комменты.
И под занавес коварный вопрос — может ли кому-то это всё быть интересно настолько, что захочется развить код парсера и\или получить дамп базы или доступ ней и так далее? Мои собственные познания в дата-майнинге и в методах визуализации данных едва ли превышают общую эрудицию. Что-то более умное и интересное, чем эти простенькие диаграммки я вряд-ли придумаю. Если кто-то заинтересовался, пишите мне в телеграм (ник в профиле).
Спасибо за внимание!
UPD. Выложил исходники на GitHub.