Как стать автором
Обновить

Комментарии 19

Ваши пай-чарты построены по абсолютным количествам. Думаю было бы интереснее посмотреть доли обсценной лексики среди обычной.
Согласен. рисунки 1-3 выглядят просто как распределения пользователей по соц. сетям и жителей России по регионам. Стоило хотя бы на общее число пользователей\жителей поделить.
Да, к сожалению, пока нет хорошего инструмента нормировки (в разработке). Ниже мы написали подробнее почему и как нормировали для рисунка 6.
Пожалуйста, расскажите. как нормировались данные для рисунка 6
Попробую объяснить, это не очень тривиальная нормировка. Нормировать на все население региона некорректно, т.к. разное проникновение интернета, разная активность и пр. Нормировать на количество пользователей наверно можно, но тут, опять же, влияет разная активность пользователей (у одного через слово, а у другого всего один раз), да и инструмент визуализации в Brand Analytics пока не реализован. Поэтому нормировка производилась на количество некоторых общеупотребительных слов, которые более-менее равномерно распределены по регионам. Это могут быть союзы, модальные глаголы, или другие слова, которые всегда в топе частотного словаря и имеют маленькую дисперсию по времени и месту. Пробовали разные варианты, картинка практически не меняется, за исключением «крайних точек» — регионов с очень низкой активностью, откуда очень мало сообщений (как Чукотка, например).
Насколько я понял, Вы сделали как делают в ПЦР (полимеразной цепной реакции) — выбрали набор housekeeping genes и нормировали по нему? Кстати, а как такой набор звучит, сколько там слов?
Именно рисунок 6 нормирован на модальных глаголах, их частота не сильно колеблется по времени и месту, особенно когда речь идет о больших числах (более 700 тыс. вхождений).
Кр. — сес. тал., бл!
Статья понравилась. Хочу поделиться наблюдениями из жизни. Три года назад ходил на байдарке по Полярному Уралу, по реке Собь. В районе городов Воркута, Лабытанги, Харп-Северное сияние. Пересекался там с местными людьми на маршруте, в городах, когда пару дней не мог уехать на поезде (плацкарт), с приезжими рабочими и водителями (с разных регионов Росссии), 6 дней в поезде (по 3 дня туда и обратно).
Был приятно удивлен, что за 17 дней не слышал ни одного слова матом. Разве только от себя и то, про себя.
Такой вот приятный культурный шок испытал.
В Харпе проплывали мимо колонии строгого режима, в которой в то время сидел подельник Ходорковского. Колония т.н. «крытка», т.е. полностью под одной крышей вся колония, все помещения, без прогулок на свежем отдыхе. Т.е. действительно очень строгая. Девушки устали и прямо в 10 метрах от колючки начали ставить палатки передохнуть :) прямо под вышкой наблюдения. С вышки услышали очень приятный, ровный, без мата и малейшего наезда голос, который сказал, что тут не самое лучшее место, а в 200х метрах левее есть удобная полянка. С Харпа в Лабытанги и далее в позде до Москвы ехали в одной маршрутке с освободившимися «зэками». Даже их поведение и лексика были очень корректным.
Получается, что все же поведение в Интернете сильно отличается от поведения в общении. Или же эти аудитории мало пересекаются :)
Я читал, что в местах заключения как раз и не ругаются матом. Так как за неосторожное слово, например, «козел» человека могут просто убить. Зеки как раз могут разговаривать как питерские интеллигенты.
Мне кажется, в интернете обсценную лексику используют, в основном, школьники из неблагополучных семей и им подобные.
Если бы замеры проводились в школах России было бы любопытное исследование.
Школьники из любых семей, родители сами в шоке, если случайно видят переписку. Дети не исправляются, просто меняют пароли. В данном случае просто способ самоутверждения, «круче» только курить. Такое точно с 5го по 9й класс.
Из собственных наблюдений добавил бы 2 такие функции обсценной лексики: 1. Социальная — если матерится «лидер группы» (начальник, вожак стада, душа компании итп) остальные будут даже неосознанно копировать его поведение. 2. Самая банальная — человек не знает термина, забыл слова, путается в падежах и все эти дырки заменяет «помогалками».
Первое — это скорее поведенческая функция, лексика тут может быть ни при чем. А вторая — это идеоматическая: заменил, потому что забыл, или потому что так «интереснее».
Спасибо за статью, но очень не хватает относительных величин, потому как иначе получается как на картинке

У меня read-only аккаунт и мне не удалось вставить картинку тэгом.
Вот она: https://imgs.xkcd.com/comics/heatmap.png
Данное микро исследование не является заявкой на истину, и никак не привязано ни к бизнесу, ни к аналитике. Показано состояние употребления обсценной лексики в определенный период времени. Картинка может меняться в зависимости от причин, которые было бы интересно выяснить, например.
>> Идиоматической функцией больше пользуются творческие личности, чтобы подчеркнуть свою эксклюзивность
Матерятся на лунную дорожку :)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий