lingvolab 25 мая 2016 в 00:21

Четыре слова, которые нельзя (часть 2)

4 мин

12K

Блог компании PalitrumLabБлог компании Brand AnalyticsЧитальный зал

+12

Комментарии 19

EndUser 25 мая 2016 в 05:18

(undone)

-1

Survtur 25 мая 2016 в 08:55

Ваши пай-чарты построены по абсолютным количествам. Думаю было бы интереснее посмотреть доли обсценной лексики среди обычной.

Kelt_Rivera 25 мая 2016 в 10:42

Согласен. рисунки 1-3 выглядят просто как распределения пользователей по соц. сетям и жителей России по регионам. Стоило хотя бы на общее число пользователей\жителей поделить.

lingvolab 25 мая 2016 в 10:58

Да, к сожалению, пока нет хорошего инструмента нормировки (в разработке). Ниже мы написали подробнее почему и как нормировали для рисунка 6.

Gryphon88 25 мая 2016 в 09:22

Пожалуйста, расскажите. как нормировались данные для рисунка 6

lingvolab 25 мая 2016 в 10:56

Попробую объяснить, это не очень тривиальная нормировка. Нормировать на все население региона некорректно, т.к. разное проникновение интернета, разная активность и пр. Нормировать на количество пользователей наверно можно, но тут, опять же, влияет разная активность пользователей (у одного через слово, а у другого всего один раз), да и инструмент визуализации в Brand Analytics пока не реализован. Поэтому нормировка производилась на количество некоторых общеупотребительных слов, которые более-менее равномерно распределены по регионам. Это могут быть союзы, модальные глаголы, или другие слова, которые всегда в топе частотного словаря и имеют маленькую дисперсию по времени и месту. Пробовали разные варианты, картинка практически не меняется, за исключением «крайних точек» — регионов с очень низкой активностью, откуда очень мало сообщений (как Чукотка, например).

Gryphon88 25 мая 2016 в 11:11

Насколько я понял, Вы сделали как делают в ПЦР (полимеразной цепной реакции) — выбрали набор housekeeping genes и нормировали по нему? Кстати, а как такой набор звучит, сколько там слов?

lingvolab 25 мая 2016 в 11:23

Именно рисунок 6 нормирован на модальных глаголах, их частота не сильно колеблется по времени и месту, особенно когда речь идет о больших числах (более 700 тыс. вхождений).

toby3d 25 мая 2016 в 09:22

Кр. — сес. тал., бл!

Alexlexandr 25 мая 2016 в 10:22

Статья понравилась. Хочу поделиться наблюдениями из жизни. Три года назад ходил на байдарке по Полярному Уралу, по реке Собь. В районе городов Воркута, Лабытанги, Харп-Северное сияние. Пересекался там с местными людьми на маршруте, в городах, когда пару дней не мог уехать на поезде (плацкарт), с приезжими рабочими и водителями (с разных регионов Росссии), 6 дней в поезде (по 3 дня туда и обратно).
Был приятно удивлен, что за 17 дней не слышал ни одного слова матом. Разве только от себя и то, про себя.
Такой вот приятный культурный шок испытал.
В Харпе проплывали мимо колонии строгого режима, в которой в то время сидел подельник Ходорковского. Колония т.н. «крытка», т.е. полностью под одной крышей вся колония, все помещения, без прогулок на свежем отдыхе. Т.е. действительно очень строгая. Девушки устали и прямо в 10 метрах от колючки начали ставить палатки передохнуть :) прямо под вышкой наблюдения. С вышки услышали очень приятный, ровный, без мата и малейшего наезда голос, который сказал, что тут не самое лучшее место, а в 200х метрах левее есть удобная полянка. С Харпа в Лабытанги и далее в позде до Москвы ехали в одной маршрутке с освободившимися «зэками». Даже их поведение и лексика были очень корректным.
Получается, что все же поведение в Интернете сильно отличается от поведения в общении. Или же эти аудитории мало пересекаются :)

maxberger 25 мая 2016 в 10:43

Я читал, что в местах заключения как раз и не ругаются матом. Так как за неосторожное слово, например, «козел» человека могут просто убить. Зеки как раз могут разговаривать как питерские интеллигенты.

alexisneverlate 27 мая 2016 в 12:45

Мне кажется, в интернете обсценную лексику используют, в основном, школьники из неблагополучных семей и им подобные.
Если бы замеры проводились в школах России было бы любопытное исследование.

sim31r 31 мая 2016 в 04:08

Школьники из любых семей, родители сами в шоке, если случайно видят переписку. Дети не исправляются, просто меняют пароли. В данном случае просто способ самоутверждения, «круче» только курить. Такое точно с 5го по 9й класс.

SirAlex 25 мая 2016 в 10:43

Из собственных наблюдений добавил бы 2 такие функции обсценной лексики: 1. Социальная — если матерится «лидер группы» (начальник, вожак стада, душа компании итп) остальные будут даже неосознанно копировать его поведение. 2. Самая банальная — человек не знает термина, забыл слова, путается в падежах и все эти дырки заменяет «помогалками».

elingur 25 мая 2016 в 11:42

Первое — это скорее поведенческая функция, лексика тут может быть ни при чем. А вторая — это идеоматическая: заменил, потому что забыл, или потому что так «интереснее».

netaholic 25 мая 2016 в 10:43

Спасибо за статью, но очень не хватает относительных величин, потому как иначе получается как на картинке

netaholic 25 мая 2016 в 10:47

У меня read-only аккаунт и мне не удалось вставить картинку тэгом.
Вот она: https://imgs.xkcd.com/comics/heatmap.png

lingvolab 25 мая 2016 в 11:12

Данное микро исследование не является заявкой на истину, и никак не привязано ни к бизнесу, ни к аналитике. Показано состояние употребления обсценной лексики в определенный период времени. Картинка может меняться в зависимости от причин, которые было бы интересно выяснить, например.

AstarothAst 25 мая 2016 в 18:27

>> Идиоматической функцией больше пользуются творческие личности, чтобы подчеркнуть свою эксклюзивность
Матерятся на лунную дорожку :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий