Паблик «Щастьематринства» и его небольшое статистическое исследование

    Введение (январь 2018)


    Иногда люди берутся за дела с которыми сами справиться не могут. И я не исключение.

    Есть такая интересная группа ВК — #щастьематеринства( https://vk.com/zaiki_luzhaiki ). Она представляет из себя один из самых феерических источников грубого реализма. Если вы хотите разочароваться в семье, детях, мужьях и всем чем угодно, вам туда. Экзистенциальный кризис вам обеспечен(хотя бы фактом того, что там пишут по 15 постов в день и это настоящие люди). И, конечно, этим паблик и во многом привлекателен.

    В какой-то момент у меня и жены, которая работает перинатальным психологом, возник интерес в исследовании того, что в этом паблике происходит. Например, наложить банальные статистические методы на содержание паблика, а вдруг чего интересного там есть. Особенно хотелось сделать какой-нибудь громкий вывод. Дескать паблик помогает людям… Или паблик рождает в людях ненависть… Или еще что-то такое выразительное.


    В итоге количество всего исследованного разрасталось.
    Количество промежуточных выводов росло.
    Количество графиков, таблиц росло.
    А количество понимания, как это оценивать не прибавлялось.

    Промежуточные выводы уносили фантазию к сложным мало на чем основанным построениям, но по-большому счету, вывод напрашивался один. Очень интересно и захватывающе, но достаточно статично. Бесконечный цикл повторяющихся один в один проблем, которые всегда единообразно оцениваются участниками процесса. Какая-то бесконечная сансара в которой ничего не меняется толком. Волнами приходит движуха и волнами уходит, не оставляя следов.

    Оставалось все-таки подвести итог и написать по этому вопросу что-то красивое. И на этом все умерло. На пол года. Эта задача оказалась неподъемной. Не смог я, не смогли другие люди.

    Но что-то сделано и надо это показать. Поэтому смотрите. Оно не прям объективно-объективное и непредвзятое. Многие вещи, которые есть в этом паблике, вызывают у меня отторжение и это чувствуется. Но вы всегда можете смотреть только на графики и таблицы, а выводы делать сами.

    Кратко, что есть в тексте:

    • Общие тенденции
    • Нарушения правила нейтралитета со стороны администрации и участников
    • Популярные слова, пары слов, и всякие сочетания
    • Использование мемов и мата
    • Концепция идеального поста в паблике


    (В тексте есть некоторое количество нехороших слов, но чисто из научных соображений, во время исследования частотности использования оных)

    Введение (август 2017)


    Группа #щастьематеринства (https://vk.com/zaiki_luzhaiki) крайне интересный феномен эпохи соцсетей. Огромная частота постов. В среднем 13-17 постов в день. При этом никакой рекламы и всяких отвлекающих от сути перепостов. Только аутентичный контент. В основе концепции группы анонимные публикации с запрещенными комментариями. Авторы постов — мамочки, утомленные различными обстоятельствами материнства. В целом в группе достаточно разумные правила для такого сообщества и его контента.

    При всем этом достаточно сильно идеологизированная администрация позволяет себе комментировать или встраивать в посты ссылки на свою программную литературу вроде книг — «Мужчины, которые ненавидят женщин, и женщины, которые их любят» и записи личного блога главного создателя группы. Ну и сами мамочки периодически пытаются вести переписку, вставляя ссылки на предыдущие посты в свои собственные. Администрация, некоторое время с этим боролась, вставляя после таких постов подписи в духе «От администрации — вы понимаете, что это на свой страх и риск, ответить вам может кто угодно. Будьте бдительны.» Потом бросила. В общем, процесс происходил достаточно активный.

    Ещё интереснее было бы проследить за реакциями мужей на это. Но отдельной группы реакции на это сообщество нет, поэтому статистики нет. Хотя ходят слухи, что у мужей бомбит нехило. Особенно от нежных названий их в группе «нитакой» и «мой мудчина». Однако это все не проверяется, к сожалению.

    Некоторые из таких процессов как: вмешательства администрации, использование характерных слов, общение мамочек, динамика негатива и т.д. я тут постараюсь достаточно поверхностно рассмотреть с точки зрения всяких цифр и простых математических моделей.

    Не могу сказать, что везде получилось что-то избыточно необычное и захватывающее, но определенные моменты крайне выразительны.

    Посты собирались от создания сообщества до 25 августа 2017 года.

    Количество слов в посте


    Хотелось проверить, а вдруг надоело писать за все это время? Вдруг все стали более лаконичными и унылыми. Но нет. Ничего не меняется.



    Примерно одинаковое среднее количество слов всегда. Хотя, если закрыть глаза на выбросы в середине, можно нетвердо предположить, что люди становятся немного многословнее. Чуть-чуть. Видимо начитанность этой же группой дает матерям возможность использовать дополнительные речевые обороты в описании своего несчастья.

    Количество постов в месяц


    Тут наш вопрос такой. Какая активность была в группе все это время? Может постов стало больше? Или меньше? Или вообще как? Сделали самое простое. Посчитали количество постов в месяц за все время существования группы (красным тренд, полученный с помощью аппроксимации полиномом 6 порядка(не спрашивайте почему 6-го)):



    Если, смотря на картинку, мы предположим, что в июне и июле 2016 был достаточно необычный спад активности, то вырисовывается вполне очевидная сезонность потока постов недовольных мамочек.

    Наиболее активны в выражении недовольства мамочки летом. Наименее активны зимой.
    Возможных объяснений может быть много. Например:

    1. Зимой все равно особо ничего интересного не поделаешь, а летом кажется, что вся жизнь проходит мимо, пока ты сидишь с ребенком.
    2. Зимой и так плохо, поэтому нет выразительных причин рационализировать это через проблемы материнства
    3. Зимой мамочки ??? меньше рожают???, а достаточно большой поток недовольства связан с родами и тем, что после них. Вот тут про частоту рожания по месяцам

    Выбирайте объяснение, которое вам нравится….

    Количество лайков в месяц


    Смотреть само по себе среднее количество лайков в месяц достаточно бессмысленно, потому что количество людей в группе постоянно росло, понятно, что и с лайками что-то такое же должно происходить. Но посмотрим.



    Не имея возможности влезть своими гадкими ручонками в официальную статистику группы, можно предположить, что примерно таким образом менялось количество пользователей в группе. И количество лайков, в целом, просто зависит от количества пользователей в группе. Но я попробую использовать более хитрый показатель.

    Я считаю, что «количество постов за месяц» Ni это неплохой показатель активности. Теперь если мы разделим среднее количество лайков Li на Ni, мы получим некоторый хитрый показатель типа- «какую часть от среднего числа лайков породил один пост в этом месяце ». Т.е. как бы некоторую оценку «порождающей способности» постов производить лайки.



    И тут появляется интересная вещь. Мы видим сезонность обратную сезонности постов. Очевидно, потому, что у нас это количество постов в знаменателе. О чем это нам говорит? Это говорит или о том, что мамочки может быть и не пишут зимой свои посты, но читают чужие и лайкают их не менее активно, чем летом. Или о том, что мамочки тут вообще ни при чем, и лайкают по большинству люди, которые в группу не пишут. И это мне кажется наиболее реалистичным объяснением.

    Количество постов в месяц как показатель активности для лайков не работает. И это достаточно интересный вывод для такой группы. Хайп создается не теми людьми, которые создают контент группы.

    Активность по дням недели


    Мы достаточно резонно предположили, что количество лайков неплохой показатель количества людей в группе. И, глядя на график лайков, можно предположить, что в первой половине 2017 года происходит некоторая стабилизация количества пользователей. Поэтому активность по дням недели считалась в эту первую половину 2017 года, как в стабильный период группы. 0 это понедельник. 6 это воскресенье.



    Комментарии практически излишни, хотя можно предположить, что в воскресенье админы забивают выкладывать и выкладывают большую часть в понедельник.

    Одно из альтернативных объяснений гласит, что самый пиздец наступает в выходные, когда все сидят дома и муж требует, ребенок требует и света белого не видно. Одновременно при муже, естественно, такого рода посты писать не будут. Поэтому как только утром один уходит на работу, а другой в садик/школу мамочки садятся писать сочинение в паблик — «как я провела выходные.»

    Вмешательство администрации


    Грязными ручонками, конечно, сразу интересно искать, кто где поднасрал, нарушил правила (потому что может) или еще какую гадость сделал. И главным действующим лицом тут, конечно, является администрация, которая лезет со своими оценками и советами как-жить-правильно, при этом не давая другим делать тоже самое.

    Администраторы достаточно любезно выделяли свои высказывания в постах записями «от адм:» или «от Демаковой:» и т.д. Но не все из них были «неадекватными». Некоторые были просто информационными, вроде того, что было приведено во введении, дескать, нельзя, не пишите, будьте осторожны…

    Таким образом, я отфильтровал информационные послания и оставил только наглые (в силу невозможности дискуссии) советы как жить несчастным автор_кам. И получил такой интересный график:



    Сразу как бы видно, кто хотел поиграть в бога, но ему это быстро поднадоело. За полгода пыл общительности немного угас. Правда последние месяцы они демонстрируют некоторую активизацию. Видно летнее увеличение активности захватывает и их тоже.

    Общение мам в обход правил


    Мамы не меньше чем администраторы жаждут что-нибудь нарушить и написать что-нибудь лишнее в обход правил. Для этого они опять-таки любезно вставляют в начале поста ссылку на тот пост, которому отвечают. Тем проще мне все это пересчитать… Правда?



    Интерес к общению пробуждается и генерируется приходом новых пользователей. Когда новые пользователи не приходят, видимо одинаково отвечать на очень схожие жалобы становится просто неинтересно. Таким образом наиболее стабильный по составу группы период характеризуется достаточно резким уменьшением количества фидбека.

    Правда есть еще один вариант. Админы более жестко стирают ответы теперь.

    Частотность слов


    Большое мучение — пытаться изобразить динамику популярности(частотности) слов в постах, Поэтому я тут оставлю только 2017 год, хотя есть определенные изменения приоритетов с 2015 года. Естественно все слова представлены своими «корнями», чтобы объединить в одно разные формы одного слова: «ребенок», «ребенка», «ребенку»,…

    Стоит оговориться, что ребенок это не просто слово ребенок. Это еще слова типа дети, сын, дочь и т.д. «Муж» это еще «нитакой», «благоверный» и т.д… «Время» включает в себя «год», «день», «час», «неделя» и т.д. Если их не объединять, эти формы слов с одним содержанием заполоняют всю таблицу популярных слов.

    Наверху самые популярные слова, вниз их популярность уменьшается.

    (2017, 1)
    (2017, 2)
    (2017, 3)
    (2017, 4)
    (2017, 5)
    (2017, 6)
    (2017, 7)
    (2017, 8)
    ребенок
    ребенок
    ребенок
    ребенок
    ребенок
    ребенок
    ребенок
    ребенок
    время
    время
    время
    время
    время
    время
    время
    время
    муж
    муж
    муж
    муж
    муж
    муж
    муж
    муж
    мам
    прост
    прост
    прост
    прост
    мам
    мам
    прост
    прост
    дом
    мам
    мам
    дом
    прост
    прост
    мам
    мог
    мам
    хоч
    дом
    мам
    одн
    хоч
    род
    дом
    одн
    одн
    мог
    одн
    мог
    дом
    дом
    хоч
    мог
    ден
    ден
    работ
    дом
    одн
    одн
    ден
    работ
    дом
    одн
    хоч
    хоч
    жизн
    ден
    говор
    говор
    работ
    работ
    говор
    говор
    работ
    жизн


    Интересно отметить, но на начальных стадиях группы «муж» не имел такой значимости, как с 2016 года и мог не попадать в первую тройку. Видимо общий несколько мизандрический дискурс сформированный создателями, прибавил значимости мужчин, как причин неприятностей материнства (трудно представить же, что за последние 2 года мужья действительно стали сильно хуже).

    В целом, главные проблемные темы матерей достаточно очевидны. Отсутствие времени, возможностей, помощи со стороны мужа, нереализованные желания, проблемы с работой, с домом и кто чего кому сказал.

    Частотность тэгов


    Одним из важных показателей содержания группы являются использованные хештеги. Они показывают какие темы форсятся в текущий период. Напротив хештега указывается, сколько раз он упоминался. Хештеги, которые были использованы менее 5 раз не показываются.

    (2017, 4)
    (2017, 5)
    (2017, 6)
    (2017, 7)
    (2017, 8)
    щастьематеринства — 52.00
    щастьематеринства — 54.00
    щастьематеринства — 78.00
    щастьематеринства — 81.00
    щастьематеринства — 60.00
    счастьематеринства — 7.00
    щастьяматеринства — 7.00
    щастьебытьженой — 11.00
    родыомолаживают — 31.00
    родыомолаживают — 58.00
    щастьяматеринства — 5.00
    щастье — 7.00
    щастье — 6.00
    щастьяматеринства — 9.00
    нитакой — 6.00
    щастьебытьженой — 7.00
    щастьебытьдочерью — 5.00


    В принципе, до лета 2017 года хештеги массово не использовались, кроме хештега названия группы в различных формах. Летом 17 года вот стала популярна тема "омолаживания родами". Хештег «нитакой» не прижился.

    TF-IDF


    В наиболее частых словах обычно нет никакой специфики тематики. В принципе, понятно, что раз группа про материнство, то тут про мам, мужей, детей и всякие такие вещи. Но было бы интересно узнать, а что специфически волновало людей в разные периоды существования группы. Для этого используется вот этот самый критерий сортировки TF-IDF. В данном случае разновидность для 6 месячных периодов(окон) для расчета IFD.

    Я не буду объяснять, что это такое, но это типа самое главное, что волнует людей помимо генеральной линии всего паблика в этот период. Слова, которые очень часто именно в этот месяц и их практически нет в предыдущих 6 месяцах.

    (2017, 1)
    (2017, 2)
    (2017, 3)
    (2017, 4)
    (2017, 5)
    (2017, 6)
    (2017, 7)
    (2017, 8)
    рождеств
    глобальн
    март
    выбешива
    нитак
    хаос
    родыомолажива
    родыомолажива
    мертв
    самоедств
    позалипа
    укат
    засел
    задуш
    омоложен
    курен
    товар
    старин
    сдам
    поваля
    болт
    медикамент
    пидор
    чесслов
    зависа
    молчат
    поваля
    новопасс
    привезл
    сарказм
    огон
    эпиз
    взвыл
    закида
    запихнут
    торопл
    бактер
    умет
    тридца
    сколиоз
    круш
    проживан
    дипломат
    хотяб
    назовеш
    ввяза
    грохнут
    исчад
    выпива
    фантик
    закипел
    выходк
    комфорт
    упас
    потерпл
    удаленк
    плоск
    родительск
    женствен
    настанет
    влезт
    хозяюшк
    застирыва
    густ
    дежур
    настро
    хуйн
    уничтож
    пятилетн
    госпитализирова
    пульс
    гипергидроз
    бибик
    интимн
    отпрашива
    вотпрямщас
    уйдут
    толчок
    приполза
    пекл


    При этом надо отметить, что омолаживающие роды имеют крайне высокий показатель TF-IFD по сравнению с другими словами на первых местах ~40. Примерно в 10 раз больше, чем среднее значение первого места ~(3-4). Сравнимого значения достигло только слово «флешмоб» весной 2016го вместе с некоторыми другими словами:

    • флешмоб 17.95
    • гендерн 16.32
    • желт 10.88
    • бежев 9.30
    • мимокрокодил 8.8

    Боюсь даже представить, что это было.

    Биграммы


    Популярные пары слов, которые встречаются чаще всего.

    (2017, 4)
    (2017, 5)
    (2017, 6)
    (2017, 7)
    (2017, 8)
    чувствую себя
    каждый день
    каждый день
    каждый день
    после родов
    каждый день
    меня просто
    целый день
    после родов
    каждый день
    меня есть
    после рождения
    даже если
    чувствую себя
    весь день
    целый день
    меня есть
    чувствую себя
    надо было
    чувствую себя
    чувство вины
    чувствую себя
    надо было
    весь день
    после рождения
    меня просто
    может быть
    моей жизни
    меня есть
    надо было
    после родов
    надо было
    после рождения
    после рождения
    слава богу
    можно было
    весь день
    целыми днями
    последнее время
    сразу после
    даже если
    момент, когда
    того, чтобы
    больше всего
    можно было
    весь день
    после того,
    всего этого
    целый день
    через месяц


    Чувствуется, что некоторая рутина происходящего и чувство упущенных возможностей явно не радует. Впрочем это вывод банальный, как и то, что сразу после родов вечно какой-то треш происходит.

    Чисто из спортивного интереса следует отметить, что частые биграммы очень связаны с мотивом настолько же частой темы времени в текстах. Гораздо меньше существует устойчивых пар про роды и еще меньше про мужей.

    Дополненные биграммы


    Сами по себе биграммы недостаточно раскрывают эмоциональность или контекст. Для этого мы попытались для каждой биграммы найти слова, которые попадаются наиболее близко к наиболее популярным биграммам (плюс 5 слов).

    Биграмма
    Слова, которые появляются рядом с биграммами часто
    чувствую себя
    [(матер, 10), (женщин, 7), (муж, 6), (мог, 6), (ужасн, 6)]
    каждый день
    [(одн, 21), (ребенк, 17), (дела, 14), (муж, 14), (кажд, 11)]
    целый день
    [(муж, 8), (игра, 6), (ребенк, 6), (мно, 5), (хоч, 5)]
    меня просто
    [(сил, 10), (мог, 4), (реб, 3), (любл, 3), (дума, 3)]
    после родов
    [(перв, 14), (год, 14), (беремен, 13), (месяц, 11), (сраз, 10)]
    надо было
    [(дума, 7), (дет, 5), (дела, 5), (говор, 5), (мат, 5)]
    весь день
    [(дом, 10), (муж, 10), (уста, 8), (ноч, 8), (ребенк, 8)]
    после рождения
    [(ребенк, 28), (сын, 11), (месяц, 10), (реб, 9), (нка, 9)]
    даже если
    [(игра, 6), (буд, 5), (муж, 5), (вечер, 4), (ребенк, 4)]
    меня есть
    [(очен, 6), (мог, 6), (сын, 6), (муж, 5), (одн, 5)]


    Число слева от словоформ во втором столбце показывает, сколько раз в 2017 году это слово находилось на расстоянии менее 4 слов от биграммы в первом столбце.
    Как это можно интерпретировать?

    Например так, что наиболее частая проблема в том, что «каждый день» мама «одна». Что можно видеть из второй строки. А после «первых» родов что-то происходит «сразу.»

    Однако смущает обилие «самых частых слов», которые свойственны любому тексту в этом паблике. Чтобы несколько исправить это, мы отфильтруем из поиска близких слов самые популярные. Таким образом мы сможем посмотреть какие слова специфичны именно для этих биграмм, а не для паблика.

    Биграмма
    Слова, которые появляются рядом с биграммами часто
    чувствую себя
    [(матер, 10), (женщин, 7), (ужасн, 6), (счастлив, 6), (последн, 6)]
    каждый день
    [(кажд, 11), (прост, 11), (чита, 10), (уста, 9), (ненавиж, 9)]
    целый день
    [(игра, 6), (мно, 5), (мультик, 5), (сход, 4), (рук, 4)]
    меня просто
    [(сил, 10), (любл, 3), (дума, 3), (убива, 3), (зна, 3)]
    после родов
    [(перв, 14), (беремен, 13), (сраз, 10), (волос, 9), (стал, 9)]
    надо было
    [(дума, 7), (говор, 5), (мат, 5), (прост, 4), (сосед, 4)]
    весь день
    [(уста, 8), (утр, 7), (ход, 7), (спал, 5), (орет, 5)]
    после рождения
    [(нка, 9), (младш, 9), (сраз, 5), (прост, 4), (нача, 4)]
    даже если
    [(игра, 6), (буд, 5), (вечер, 4), (равн, 4), (спит, 4)]
    меня есть
    [(сем, 4), (прост, 4), (знаком, 3), (подруг, 3), (чувств, 3)]


    Триграммы


    Наиболее частые тройки.

    (2017 4)
    (2017 5)
    (2017 6)
    (2017 7)
    (2017 8)
    чувство вины перед
    через пару дней
    вместо того чтобы
    люблю своего сына
    сразу после родов
    достаточно сильной чтобы
    вместо того чтобы
    тоже мать виновата
    вместо того чтобы
    после первых родов
    быть достаточно сильной
    каждый раз когда
    после рождения ребенка
    каждый раз когда
    самая большая ошибка
    нужно быть достаточно
    день после родов
    только тогда когда
    после вторых родов
    могу себе позволить
    мама мама мама
    возня. возня. возня.
    больше всего меня


    Для августа было характерно, как мы можем видеть, писать посты про роды, но в принципе, за весь период с середины 2015 года основными темами триграмм были:

    • Выражение любви к ребенку, типа «люблю своего сына», «люблю своих детей»,…
    • Выражение чувства вины — «чувствую себя виноватой», «чувство вины перед»,…
    • Выражение чувства, что каждый раз, когда мама что-то…

    Авторка и нитакой патриархальный мимокрокодил


    Определенный интерес представляет использование некоторых специфических слов, характерных для группы и ее дискурса.

    Фем-дискурс оказал на группу достаточно сильное влияние, в силу идеологизированности администрации. Поэтому интересна динамика проявления фем новояза в постах. Наиболее употребимым является искусственный феминитив «авторка» по отношению к пишущим мамам.



    Интересно то, что это слово переживало некоторый спад в использовании в начале 2017. Возможно это связано как раз с тем, что в эти моменты администрация не особо вмешивалась в жизнь группы. Именно она чаще всего употребляет это слово в своих комментариях.

    Слово «патриархальность» не столь часто употребимо, но есть.



    В общем, все нам намекает на то, что пик интереса к этой идеологии приходился на середину 2016 и тот самый «флешмоб», который в это время часто упоминается.

    Но есть и другие характерные слова, взятые из разных контекстов. Например, слово — «мимокрокодил». Для тех кто не понял, это слово обозначает, например, комментатора, который влез в паблик со своим очень важным и полезным мнением. И в целом того, кто шел мимо и что-то сказал, а лучше бы шел мимо.



    Начало и пик использования этого слова совпадает с пиком комментирования постов мамочек в группе. Слово явно возникло из неудовлетворенности результатами этого комментирования. В дальнейшем ответов на посты стало меньше и слово перестало так активно использоваться.

    Ну и наконец обозначение мужа как «нитакого».



    Самый прекрасный график. Он показывает как мем приживается в группе, его использование становится повсеместным и количество упоминания нитаких начинает экспоненциально расти.
    В целом, стоит отметить, что фемслова используются гораздо реже и хуже приживаются, чем специфические для тематики группы выражения.

    Динамика негатива в группе


    Возникает вопрос. А как группа влияет на авторов этой группы? Насколько они меняются? Может эта группа порождает в пишущих злобу и нетерпимость, которая растет с количеством постов? Или наоборот, осознание того, что у многих сходные проблемы успокаивает?

    Мы решили это проверить так. Собрали список из «плохих» слов. Мы составили два списка. Я приведу тут укороченный второй:

    обосра, бля, хер, пидор, хуй, охерительн, нихер, наебен, пизд, чобл, дерьм, затраха, еба, нахуй, хуе, нахр, fuck, заеб, мля, уеб, ебу, пздц

    Далее мы смотрели, как по месяцам меняется среднее количество этих нехороших слов за пост.



    В целом видно, что количество поливалова со временем неуверенно падает. Возможно в этом прослеживается позиция администрации. Но может быть и нет, потому что хуесосить мужей, детей и родственников, администрация не против. Может просто это все делает нас немного добрее. Или просто всем надоело.

    А как читатели оценивают это все? Сделает ли мат пост более привлекательным? Мы выбрали последние 6 месяцев (02.2017-08.2017) как наиболее стабильный промежуток в истории. Для него мы подсчитали среднее количество лайков, в зависимости от количества нехороших слов в посте.



    В среднем корреляция не слишком убедительна с учетом разброса оценок. Поэтому, можно смело считать, что если ругаться как сапожник, больше лайков не вряд ли получишь.

    Самые «отлайканные» слова


    Остается вопрос. А какие слова приводят к тому, что пост оценивают положительно? Вроде мы показали, что всякая ругань не очень помогает. Тогда эксперимент надо провести так.

    Мы смотрели посты за последние 6 месяцев. Для каждого из возможных слов, находящихся с этих постах, запоминали, сколько лайков получил этот пост. Проходили по всем постам. Для каждого из слов набиралась некоторая выборка лайков. У этой выборки считалось среднее, если выборка получилась достаточно большая.

    Таким образом выделялись слова, которые присутствовали ТОЛЬКО в постах, которые обычно набирали количество лайков сильно больше среднего:

    идите, выписки, рожать, мужчина, говорит, должны, мужик, годы, ребенку, готовить, детства, нахуй, новые, нашу, деньги, твоей

    Разброс «количества лайков» за эти слова от 370 до 440, при общем среднем 290.

    Наименее удачные слова


    Если можно проверить самые удачные слова, также можно проверить слова, которые «гарантировали» отсутствие лайков и среднее количество лайков «за слово» было сильно меньше среднего.

    температура, страшно, срываюсь, истерика, пережить, отказывается, кашель, истерики, лицом

    Разброс лайков «за такие слова» составляет 214 до 230, при общем среднем 290.

    Слова приводящие к наименьшему стандартному отклонению в оценках


    Но кроме непосредственно слов с лучшими и худшими оценками можно еще найти такие слова, для которых оценки за посты с этими словами всегда были сильно похожи. Такие слова, которые как бы «гарантировали», что оценка поста людьми не будет сильно меняться. Слова наиболее сильно влияющие на оценку, не важно какую. Негативную или позитивную.

    ней, бывают, орущего, дикий, грудь, только, мало, внезапно, один, нее, маму, вместе, хотела

    Стандартное отклонение для этих слов варьируется от 73 до 88, при среднем 190.

    Концепция идеального поста


    Осталось придумать, какой сюжет может вызвать наибольший и наименьший резонанс. С идеально недооцененным постом все достаточно просто. Его сюжет прослеживается из набора «недооцененных» слов достаточно четко.

    Мой заболел. Температура 39.8, кашель. Отказывается есть, закатывает истерики, кидается вещами и страшно злит. Я срываюсь и у меня тоже истерика. Все время хожу по дому с недовольным лицом. Как все это пережить?

    Естественно, такой пост, который будет супернедооцененным и содержит в себе все «плохие» слова, можно снабдить большим количеством подробностей и сделать более похожим на реальность, но мое дело просто передать сценарий, который не вызывает у окружающих сострадания.

    И интересным аспектом этого сценария является то, что он недооценен вследствие того, что нет образа врага. Ребенок заболел и истерит. Мама тоже не выдерживает. Это все логично и понятно, хоть и неприятно. Нет того, кого бы тут можно было закидать какашками. В общем… Нечего жалеть, нечему сочувствовать.

    С набором хороших слов все несколько сложнее. Идеальной картины не вырисовывается, кроме того, что там должен быть муж, роды, выписка, деньги и годы… желательно потерянные. Но можно попробовать.

    Сразу после выписки, в тот же день, мужчина говорит, что он нихуя делать не будет. Нашу квартиру убирать, рожать и готовить должны женщины. При этом, как деньги зарабатывать, так он тоже нифига не при делах. Мужик, нечего сказать. На этого урода я потратила годы своей жизни и должна столько же отдать его ребенку? Суки нитакие, — «идите вы все нахуй

    Явно выраженный антагонист в виде мужа вполне может гарантировать вам довольно много лайков. При этом очевидно, что в роли антагониста может выступать практически любой. Например, врач в роддоме или бабушки с дедушками.

    Обобщение/Заключение


    Огромное количество всяких произведенных разрозненных измерений не дает (по крайней мере мне) написать красивое, сочное заключение с глобальным выводом о жизни.

    Поэтому немного неуверенных микровыводов списком:

    • В среднем в каждом посте примерно 100 слов и это ни от чего не зависит и не меняется. Но это не обязательно
    • Зимой мамы менее активно пишут о проблемах
    • Пик количества постов по понедельникам
    • Лайкают всегда примерно одинаково и количество лайков зависит, в основном, от размера группы
    • Админы вначале сильно вмешивались, потом им надоело. Но они все равно не правы
    • Культура «комментария к посту в другом посте» радостно родилась и умерла за эти два года
    • Последние месяцы форсится мем — «родыомолаживают». Весьма успешно
    • Группа формирует свой новояз, которым пользуется. (мимокрокодил, нитакой, мудчина,...)
    • Мат в группе уже не так популярен, как раньше, но есть вероятность, что если хорошо проматериться, вас оценят. Но это не обязательно
    • Если вы хотите лайков, пишите, что кто-то очень плохой и вас обижает. Если все плохо, но никто в этом не виноват, шиш вам, а не лайки

    Вот, собственно и все… Есть в этом всем некоторые методологические недоработки. Нет адекватного сравнения, например, специфического словаря паблика с внешним (или базовым) словарем. Некоторые чуть более глубокие и веселые вопросы, связанные с использованием нейросетей и генерацией постов тоже мимо. Опять-таки, никаких примеров кода. Но это бы все еще больше раздуло, а посчитать слова на питоне и воспользоваться nltk скорее всего все смогут и сами (более того, я не лучшая ролевая модель питониста, чтобы хвастаться кодом).

    Если у вас появились собственные инсайты и интересные идеи из всего этого, я всегда готов послушать.
    Поделиться публикацией
    Комментарии 45
      0
      Есть еще группа «щастьебытьженой» или как-то так. Еще страшнее этого будет.
      Помогал как-то одной женщине из этой группы с разводом и прочими делами. Начитаешься и неволей задумаешься
        +1
        Если что, у них есть «позитивное» ответвление «в помощь маме» . Там всегда можно чего-нибудь попросить или спросить.

        И да. Некоторые задумываются, а потом говорят, что не хотят никаких детей и мужей. Не потому что было плохо с кем-то, а начитавшись. Это можно понять, хотя вроде типичная ошибка выжившего.
          0

          Почитал группу. Грустно, но это… даже слов нет. Жаль, что сейчас все как то с ног на голову.

            0
            А что с ног на голову?
              +5
              Ну, на мой взгляд, в обычной семье все таки главный — мужик. В основном он зарабатывает, обеспечивает хотелки жены и др. Женщине особенно в регионах будут платить ЗП только на помаду и йогурт. После родов им вообще проблема устроиться на работу. Но уважения вообще нет к мужчинам, есть какой-то нездоровый феминизм — я смогу, я сама итд, а по факту — у разбитого корыта… Не все, но большинство. Вот это качание прав и есть «с ног на голову». Фиг с ним с минусами мне. Но это мое мнение.

              Вообще прихожу к выводу, что брак не особенно выгодное дело с точки зрения рисков. При разводе — половину отдай, алименты плати. Обложен податями.
              Если есть дети, то оставят жене. Она может всячески препятствовать встречам итд.
              Вообщем одни проблемы.
                +2
                Вообще прихожу к выводу, что брак не особенно выгодное дело с точки зрения рисков.

                Так и есть. Из прав — только право посещения в больнице. Остальное и без брака можно.
                  0
                  Но уважения вообще нет к мужчинам

                  У мужчин тоже с уважением к женщинам так себе, в целом. Хотя зачастую какой-нибудь задротский айтишник, который зарабатывает по пол миллиона в месяц, может и часа не выдерживать со своим ребенком. Поэтому даже в рамках «женских» вещей есть некоторый паритет ответственности и тяжести жизни, за который партнера следует уважать. Он чаще всего делает то, на что ты не способен.

                  Вопрос стоит скорее, что уважения нет ни у кого ни к кому. И каждому кажется, что он, дескать, сделал дохера для другого, а тот не ценит. И в общем, так и есть.
            +32
            Дата-майнинг, который мы заслужили.
              0
              Спасибо! Очень здорово. Я занимаюсь сходными исследованиями (Гиктаймс), не исключаю будущее сотрудничество)
                0
                Предмет исследования удивил, формат выводов восхитил. Здорово!
                  0
                  Треш — наше все.
                    0
                    Для погруженных в программирование людей это неочевидно, но выводы из статьи вполне могут иметь практическое применение в маркетинге за пределами уже довольно хороших приведённых вами примеров ;)
                      0
                      Хм. Это интересно. Например?
                        +2
                        Не сочтите за пустословие. Я бы рассказал… Но читая Хабр около 10 лет и прекрасно представляя себе отношение здешней аудитории к тем или иным вещам, не рискну слить себе карму третьим комментарием :).
                          +1

                          Я еще больше заинтригован

                    +1
                    В хейтерских пабликах всё доходит до сюра. Если б моя такие читала (а я догадываюсь, что было такое), то понять, простить, мандаринку подарить :)
                    А за анализ спасибо. Теперь как насчет FB-группы «Лечение православия головного мозга»?
                      0
                      API FB не слишком дружественен. Хотя можно воспользоваться selenium или другими роботами. И мне кажется, что в группе «Лечение православия головного мозга» больше перепостов, чем текста.
                        0
                        Тут вы правы — текста мало.
                      +2
                      Группа формирует свой новояз, которым пользуется. (мимокрокодил, нитакой, мудчина,...)

                      Это же с борд пришло, сто лет этому. Как и большинство "мемов" в разничных микросообществах вконтакта, тащемта

                        +1
                        Не совсем. Понятно, что это все уже было в Симпсонах. Но так же понятно, что мамочки по большей части не из той социальной прослойки, что тусила на ***чанах. Сообщество начинало с некоторого базового лексикона, а потом (начитавшись самого себя) впитало в себя все, что им понравилось из разного интернет слэнга, сформировав свой набор дополнительных смыслов к словам, которые где-то когда-то использовались.

                        Понятно, что если мы возьмем любое слэнговое слово, вроде «мудчина» и посмотрим ближайший контекст этого слова тут и в других местах, они будут несколько разные.

                        А история слова «мимокрокодил»(в смысле близком к тому, что используется в группе) вообще идет откуда-то из времен СССР, что откопал «штатный» лингвист.

                        В общем, когда я говорю про новояз, я не претендую на то, что они напридумывали слов(сочетаний букв), которых нигде никогда не было. Скорее на то, что у них сформировался специфический внутренний «толковый» словарь.
                          0
                          когда я говорю про новояз, я не претендую на то, что они напридумывали слов(сочетаний букв), которых нигде никогда не было. Скорее на то, что у них сформировался специфический внутренний «толковый» словарь.

                          А, ну тогда ок.


                          А вообще, если говорить о мемах и прочих подобных явлениях в интернетах, то обычно подобный контент и зарождается на бордах (причем зачастую на зарубежных, и оттуда уже попадает на отечественные), оттуда растаскивается по сообществам в соцсетях, а оттуда уже попадает в общее употребление. Не знаю, занимается ли кто-то изучением подобного, но было бы интересно почитать статистику.

                            0
                            Смотря какие аспекты. Чисто генезис всего этого уже достаточно давно изучен. Там хорошо работают всякие модели заражения инфекционными заболеваниями.

                            jasss.soc.surrey.ac.uk/2/2/review4.html

                            Каждый раз, когда кто-то придумывает какую-то новую для болезней, ее тут же соседней статьей применяют к мемам.

                            Более прикладно, например, я знаю товарища в Испании, Рубена Ениколопова, он в начале 2016 искал людей для анализа распространения мемов протестной активности в соцсетях и выявления влияния. Он из РЭШ, поэтому мы точно можем сказать, что в РЭШ этим занимаются. Вот он тут интересную статейку опубликовал и раз два года правит.

                            papers.ssrn.com/sol3/papers.cfm?abstract_id=2153378

                            0
                            Строго говоря, «мудчина» не является новоязом именно этой вконтактовской группы или чем-то для неё специфическим. Это слово возникло и использовалось ранее, как минимум, во вконтактовских фемпабликах и скорее всего пришло в «Щастьематеринства» из-за идеологизированности с уклоном влево администрации (и некоторого множества участниц тоже).
                              0
                              В обычном фемпаблике «мудчина» реже бы стоял рядом со словами «муж» и «мой».
                          +6
                          Что я сейчас прочитал и зачем автор проделал такую колоссальную работу? У кого-нибудь еще такое ощущение?
                            +1
                            image
                              +3
                              Подумалось, если бы вам был доступен настоящий ад, вы бы наверное с одержимостью исследовали распределение температур, влияние сезонности на плотность распределения по нему грешников с разбивкой по гендерному, возрастному признаку, покупательной способности и прочим характеристикам
                                +1
                                Это да.

                                В этих дебильных вопросах всегда хочется найти какой-то wow-эффект. Красивую разгадку какой-то задачи, которая несформулировано витает в воздухе.

                                Однако любая нормальная работа состоит из количества труда в 10ки раз превышающего это недельное развлечение. А потом это надо сжать до 4-6 страниц с выдроченными формулировками и ссылками на мировой опыт и детальным рассказом почему это ново, важно и кому-то интересно, чтобы ни одна сволочь не придралась. Потом тебя за это еще года полтора повозят носом в грязной луже и опубликуют, сказав, что, в целом, в качестве исключения. Так оно в науке. И я от этого малость утомился. Изначальной радости от этого не осталось.

                                И если бы я так подходил, я бы (кроме всего прочего, что уже нафигачил) взял последний кусок про идеальный пост и накатал бы какой-нибудь красивый метод с формулами и LSTM нейросетью, которая бы генерировала такой пост, кушая тексты паблика. Провел бы пару десятков экспериментов с пабликами, публикуя там контрольные и «идеальные» посты. Доказал, что количество лайков с таким подходом статистически значимо отличается от контрольного. Потом написал бы настоящую статью, которую бы все обосрали, но опубликовали в приличном месте.

                                И это, наверное, реально было бы лучше и содержательнее. Но так влом… Я же уже придумал, как это все работает.
                                  0
                                  Но зачем добровольно выбирать такую тематику? Очевидно же, что такие паблики создаются с целью монетизации путем преобразования солнечной энергии в человеческое страдание
                                    0

                                    Потому что это настоящий процесс. Это не наружные старания научпопа и маркетологов привлечь хоть кого-то. Это то, что по щелчку пальцев зажигает людей. Следует изучать только такое.

                                      +2
                                      Те, кто придумывает такие паблики — на стороне абсолютного зла. Они отвратительны. Период после рождения ребенка — очень сложный для женщин. У них проблемы с гормональным фоном, они не высыпаются и у них сильно меняется жизнь от обычной до тяжелой беспросветности. Зажечь по щелчку пальцев их в таком состоянии дело не хитрое. Им наоборот нужна психологическая поддержка, постоянные напоминания о том, что скоро будет легче и цель, ради которой они это всё переносят стоит того. А таким потоком негатива и сломить можно и до трагедии довести. Это может и похуже, чем пропаганда ненависти по телевидению
                                        +1

                                        Может быть. А может и нет. Группа не показывает, что ненависти становится больше. По крайней мере внутри сообщества. Может мамочки все высказывают и могут из-за этого жить дальше.


                                        В любом случае, чем зло плохой объект исследования?

                                          0
                                          Тем, что вы в него погружаетесь и оно влияет на вас. Вы рассказываете другим о своем исследовании и погружаете их тоже. Я, например, без вас не узнал бы про этот паблик. Мне вреда от этого конечно не больше, чем от просмотра одного выпуска политической пропаганды, но больше чем 0. А вам наверное побольше. Думаю, вы пока работали добровольно перечитали много оттуда
                                            0
                                            Зато может по прочтении паблика вы не будете говорить жене через неделю после родов, чтобы она наготовила щей и быстренько почистила всю квартиру и вообще будете осторожнее относиться к состоянию партнера. Тогда это плюс, даже если вам самому это не нравится.

                                            Еще дедушка Фрейд писал, что социальное развитие крайне травмирующе и неприятно для Эго. Общество разными путями делает неприятно вам, чтобы вы не очень сильно делали неприятно всем остальным. В общем, не все что неприятно = деструктивно.
                                              0
                                              По мне это однозначно деструктивно. А вам? неужели кажется, что чтение постов этого паблика принесло какую-то пользу вам?
                                                0

                                                Какую-то принесло. Может быть. А уровень деструктивности это, что я хотел померить и не нашел подтерждений, что эта группа плодит ненависть.

                                              0
                                              Не обязательно влияние будет отрицательным — яд в некоторых малых дозах, своих для каждого человека — то же лекарство.
                                              Я вот в своё время долго сидел в фемпабликах, но получил скорее прививку от всяких тоталитарных и эмоционально-крикливых текстов (и воспринимаю всяких автор_ок с мудчинами со смехом и сарказмом), чем стал мужененавистником, считающим, что я должен вечно извиняться перед женщинами за тысячелетия «патриархального угнетения» и даже не смотреть в их сторону, чтобы не угнетнуть случайно кого-нибудь взглядом =).

                                              Как ни крути, лучшее оружие против зла — смех над ним и понимание его внутреннего устройства, а не избегание. Как писал Сунь Цзы в «Искусстве войны»: «Знай своего врага и знай себя, и ты сможешь провести тысячу битв без поражений».
                                                0
                                                Вам не придется столкнуться со всем злом в мире, а тренироваться против всех видов зла можно бесконечно и в итоге еще больше останется, зато станете отягощенным соответствующим опытом, знанием и скорбью. Избегание вместо изучения зла без нужды мне кажется более оправдано
                                                  0
                                                  Так вроде бы никто и не говорил, что все виды странных, деструктивных или тоталитарных идей и сообществ нужно изучать.
                                                  Ну покопался автор под капотом одного-единственного паблика и написал об этом статью на хабре и всё — во-первых, он не заставляет читать его статью и те, кто не хочет читать подобные материалы и знать о подобных группах, вольны их пропустить. Во-вторых, лично я не могу сказать, что стал больше отягощён знанием и скорбью после прочтения данного поста. Почитал с интересом о проведённом статистическом исследовании, узнал пару новых словосочетаний, посмеялся в некоторых местах, поставил плюс статье и всё).

                                                  Возможно, в будущем полученная информация мне поможет в каком-нибудь споре или в своём аналогичном исследовании, но это не точно.
                                0
                                Все ради науки
                                  0
                                  1) Группе не хватает подписчегов
                                  2) Автору ну очень скучно, а ручки чешутся
                                  3) Все лучше, чем по подьездам шляться
                                    +1
                                    Эт точно. Все, что не хватает группе, в которой активно ненавидят мужчин, это немного подписчиков из высокомерного шовинистического IT-сообщества, где собралась толпа самых умных.

                                    www.youtube.com/watch?v=vyFSdj1J5Vw
                                  –5
                                  Если вы хотите разочароваться в женах (или уже), а следовательно в семье или вы мужчина и у вас проблемы в 'вашей' семье, то вам туда:
                                  Погуглите "Шесть причин не женится на матерях одиночках". Заодно матери задумаются о ценности их мужей.
                                  На ятрубе смотрим МЕГАНЫЧ 101.
                                    0
                                    Люблю Питончик)
                                    • НЛО прилетело и опубликовало эту надпись здесь

                                      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                      Самое читаемое