Комментарии 44
А с динамикой употребления обсценной лексики во время до кризиса и во время кризиса все ясно: до кризиса мы переживаем, волнуемся, пишем сообщения в духе «Лишь бы Х не случилось...», «Б, вот-вот все П накроется!», «Е как страшно-то!» и так далее) А как кризис наступит там слов много не надо, достаточно одного емкого П. Или продолжительного Е.
О***енно!
Ну наконец-то! Теперь понятно, что делать.
Спасибо! Очень интересно!
Не ожидал, что у группы П такое большое кол-во глагольных форм.
Не ожидал, что у группы П такое большое кол-во глагольных форм.
Интересно поставить звукозаписывающее устройство в комнату к админам, и посмотреть на корреляцию с релизом, факапами, кол-ву закрытых задач и других "нестандартных решений".
Мат. частьНеоднозначно…
А почему, б*я, совсем нет слов на Б — междометий?
вот кстати да
видимо в существительные (обращения?) посчиталось.
видимо в существительные (обращения?) посчиталось.
Тоже интересно. Мне кажется, они что-то с определением частей речи напутали.
Было бы интересно посмотреть графики для динамики на более длинном периоде, два месяца — не очень показательно. Год или два — вот это да.
А у меня вот такой вопрос. Известно, что обсценная лексика обладает следующим свойством: междометия и существительные омонимичны (т.е. пишутся одинаково). Например:
1) «Б, как страшно-то!» «Вот и все, П...»
2) «Я тут свою б навещал...» «П нагрянул неожиданно и бесповоротно»
В первом случае мы имеем дело с междометиями, а во втором с существительными.
Насколько хорошо автоматика справляется с определением части речи в таких случаях?
1) «Б, как страшно-то!» «Вот и все, П...»
2) «Я тут свою б навещал...» «П нагрянул неожиданно и бесповоротно»
В первом случае мы имеем дело с междометиями, а во втором с существительными.
Насколько хорошо автоматика справляется с определением части речи в таких случаях?
Говорят, что в первом случае Б должно оканчиваться на ть, в другом — на дь
На таких объемах (до 100 сообщений в секунду) мы не включали pos-tagger — затратно для такой задачи, т.е. части речи проставляли вручную по результату. А вообще, это зависит от того, на каком материале систему обучить. Обычно у междометий высокая точность определения — около 99%.
Не совсем понял рисунок 9. Вы строили график употребления слова из групп по отношению ко всем остальным словам в этот же день?
забыли еще слово на букву З — или оно тоже в группе O?
Вывод: а @#$ его знает…
Интересно вот что: если представить соц.медиа как некий живой организм, то а можно как-то прогнозировать (диагностировать) его поведение (отклонения) на какие-либо события, и наоборот, по его поведению предсказывать возможные события (например, в экономике)?
О том и речь! За экономику не ручаюсь, но прогнозировать что-то можно. Пока, скажем, это первая попытка найти связи между эмоциями и событиями.
Мне кажется, интересная задача оценить встречаемость и сложность по отраслям (новостные ленты, политика, экономика, религия, технические науки, материнство и детство, отношения и семья), по посещаемости и по обязательности регистрации.
А с какой целью? Для классификации сообщений по отраслям? Можно, но это не очень точный алгоритм. Тут скорее нужно искать корреляции лексики/сложности по отраслям к описываемым событиям. Но пока не очень понятно, как — параметров получается очень много.
Лично мне интересны следующие вопросы (ожидает подтверждение/опровержение для утверждений):
- Российскую политику и экономику (почти) невозможно обсуждать без использования обсценной лексики. Предположительно, лидирует группа П
- Официальные новостные ленты модерируются активнее, чем либеральные
- Матерятся в основном анонимусы
- На женских форумах матерятся не меньше, чем на мужских. Или меньше, но сложнее.
- На технических ресурсах матершина реже, но сложнее.
- С ростом популярности ресурса растёт частота, но падает сложность. При падении популярности — процесс обратный.
Про возраст тоже очень интересно. Я ожидаю параболу в осях сложность/возраст, если от 12 до 50 брать.
С регионами будет сложно, советую вооружиться двухтомничком "Энциклопедия русского мата", там учитываются региональные особенности. Как в той шутке, "а у нас, в Новгороде, говорят через Ярослав" (про самый популярный глагол группы Е)
Ну это больше социологические вопросы. Наиболее интересен шестой пункт, т.к. менее всего очевиден.
Мы не учитываем региональные особенности, но учитываем наиболее частотные употребления: Я вместо Е имеется.
Собираемся посмотреть распределение по регионам, по полу и по возрасту. Надеюсь, публикуем в скором времени.
Мы не учитываем региональные особенности, но учитываем наиболее частотные употребления: Я вместо Е имеется.
Собираемся посмотреть распределение по регионам, по полу и по возрасту. Надеюсь, публикуем в скором времени.
А данные были без привязки к чему-либо? Интересно было бы увидеть распределение групп по возрасту употребляющих.
Да-да, в процессе. Собираемся сделать распределение по возрасту, полу и регионам.
Вспомнился анекдот в тему (и, кстати, вопрос: учитываются ли указанный тип слов?)
Урок русского языка. Учительница дает задание:
(У) — Дети, назовите несколько слов на букву "х".
Вовочка тянет руку. (У), зная Вовочкин словарный запас, слова ему не дает.
(У) — Ну, давай ты, Леша.
(Л) — Хвостики!!!
(У) — Молодец! Ну, давай ты, Оля.
(О) — Хомутики!!!
(У) — Очень хорошо! Теперь назовите слова на букву "р".
Вовочка отчаянно тянет руку. (У), не вспомнив ни одного плохого слова на "р", дает слово Вовочке.
(В, выбегая из класса) — Хвостики! Хомутики! Расп3.14здяи!!! Я из-за вас чуть не обоссался!!!
Урок русского языка. Учительница дает задание:
(У) — Дети, назовите несколько слов на букву "х".
Вовочка тянет руку. (У), зная Вовочкин словарный запас, слова ему не дает.
(У) — Ну, давай ты, Леша.
(Л) — Хвостики!!!
(У) — Молодец! Ну, давай ты, Оля.
(О) — Хомутики!!!
(У) — Очень хорошо! Теперь назовите слова на букву "р".
Вовочка отчаянно тянет руку. (У), не вспомнив ни одного плохого слова на "р", дает слово Вовочке.
(В, выбегая из класса) — Хвостики! Хомутики! Расп3.14здяи!!! Я из-за вас чуть не обоссался!!!
а как обрабатывались "многоэтажные" фразы?
разбивались сначала на "корневые" части по словарю?
или они не очень "частотны" в исследуемой среде?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Четыре слова, которые нельзя (исследование русской обсценной лексики на материалах соц.медиа)