byrdas May 8 2020 at 18:23

Сравнение российской рэп сцены используя R и техники Text Mining. Noize Mc and Kasta vs Pharaoh and Morgenshtern

8 min

37K

Data Mining * Natural Language Processing * R *

From sandbox

+24

Comments 47

0xf0a00 May 8 2020 at 19:11

Математическое обоснование того что новое поколение исполнителей сильно с «душком».
За статью спасибо, очень интересно.

obabichev May 8 2020 at 19:16

Про двух из разобранных исполнителей я слышу впервые (и беглый гугл говорит, что я об этом не сильно пожалею), но возможно, если отсечь творчество всех исполнителей одним возрастом (например самым молодым из предложенных), то разница по критерию ненормативной лексики несколько сгладится =)

Andoryu May 8 2020 at 19:43

давать, хотеть, тырить

приоритеты :)

trawl May 8 2020 at 19:46

Эх, Дядю Женю бы в этот анализ добавить… Но это уже прям андерграунд старой школы. Не в самых широких кругах популярен. У него были тексты, в которых все слова начинались на одну букву.

dymmasja May 8 2020 at 19:51

У него была не менее интересная фишка — никто долгое время не знал, что он картавит, потому что… он не употреблял в текстах слова, содержащие букву «р»!

trawl May 9 2020 at 15:05

Я сначала тоже хотел упомянуть этот факт, но засомневался в его истинности. И не зря. Таки сегодня послушал несколько треков и могу опровергнуть. Нет-нет, да проскользнёт. Например, трек "без правил".

Hasol43 May 9 2020 at 17:56

Ну он же там картавит. Посмотри его видео с фестиваля 8 официального.

dymmasja May 8 2020 at 19:54

Хорошо бы провести подсчёт наиболее часто используемых слов в разных песнях, то есть без учёта повтора слов в одной песне.
А то например у Моргенштерна в топ попало слово «дед», и я предполагаю, что это из-за трека «Я съел деда» (не спрашивайте, откуда я это знаю), где эта фраза просто 100500 раз повторяется.
Аналогично у Нойза слова «рок» и «кал» явно попали в облако из-за трека «Рок — это кал».

П.с. было бы любопытно провести анализ словарного запаса Оксимирона и сравнить его с Нойзом.

byrdas May 8 2020 at 20:18

Тоже сначала думал показать кол-во слов в разных песнях, откинуть экстремальные случаи(вот как к примеру слово «дед» у Моргенштерна) и потом уже показать наиболее часто повторяющиеся слова. Но потом решил, что некоторые люди заслушивают до «дыр» единичные песни, и у кого-то засядет в голове «дед», а у кого-то связка слов «Рок — это кал», поэтому не стал выбрасывать.

А на счёт Оксимирона, хотел его в этом же анализе разобрать, но они с Нойзом явно 2 лидера по текстам, и сильно бы выделялись из всех. Даже не так. Каста, Нойз и Окси с явным превосходством затмили бы Фараона и Моргенштерна.

А вот сравнить отдельно Оксимирона и Нойза довольно интересно. Наверное этим и займусь

kranid May 8 2020 at 21:14

С удовольствием бы ознакомился с таким сравнением.

byrdas May 8 2020 at 21:33

Постараюсь в скором времени подготовить

trawl May 9 2020 at 05:45

А Дядю Женю в таком случае не добавите?

byrdas May 9 2020 at 09:06

Дядю Женю бонусом сделаю

Rollant May 9 2020 at 14:54

Я, конечно, страшный зануда, но у людей есть неприятная особенность — они склонны предпочитать факты, подтверждающие их точку зрения и отвергать опровергающие. Поэтому более объективным было бы не сравнивать две произвольно выбраные пары исполнителей, а, например, исследовать лидеров чартов за эти 20 лет

byrdas May 9 2020 at 15:00

Полностью с Вами согласен и разделяю существование данной особенности. Только я лишь хотел показать, как отличается музыка\тексты кумиров моей молодости (Каста немного раньше, и чуть позже Нойз Мс) с кумирами нынешней молодёжи (довольно хорошо знаком с популярностью Фараона и Моргенштерна в 2020). Плюс к этому, хотел представить возможности R и Text Mining, так как после прогугливания не нашёл сравнения русской музыкальной сцены используя данные инструменты. И конечно, каждый вправе решать сам, что ему слушать. Я лишь хотел показать явные отличия и ни в коем случае не хотел навязывать свои предпочтения, лишь сделал выводы опираясь на полученных результатах.

Amomum May 10 2020 at 22:37

Возможно еще, что вы (не сознательно, конечно) выбрали такую метрику, сравнение по которой подтверждает вашу точку зрения.

Допустим, мне лично кажется не совсем корректным оценивать эмоциональную окраску текста целой песни по отдельным словами. Нет ли возможности оценить окраску всего текста? Или предложений/абзацев?

N-Z-K May 10 2020 at 09:23

ATL бы туда добавить, к Нойзу с Мироном. У него интересно, что по него по негативу/позитиву получится; лексика и так понятно, сильно выделяется на общем фоне.

chelovek-jpeg May 10 2020 at 16:46

да, не нужно было учитывать повторяющиейся слова в песне. То же якобы часто встречающееся у Нойза слово «орфей

GritsanY May 9 2020 at 06:56

Аналогично со словом «Тырим» у Касты — в одной-единственной песне они столько раз его натараторили, что оно всё их творчество перевесило :)

Tarson May 8 2020 at 21:32

Сравните Пушкина с Лермонтовым. Тоже интересно, что получится.

daiver19 May 9 2020 at 04:29

Уже давно, не раз, и не только их, а очень многих поэтов вместе. Вот очень занимательная лекция на эту тему.

gatoazul May 9 2020 at 08:00

Видел еще у какого-то западного автора анализ повторяемости слов в тексте — он проверял это через процент архивирования текста, и пришел к выводу, что тексты стали более однообразные и примитивные.

ajijiadduh May 9 2020 at 11:24

в качестве более позитивных исполнителей для сравнения, предлагаю KRec

bibiw_one May 9 2020 at 15:48

Интересно было бы посмотреть на количество уникальных слов относительно общего количества слов в треках, или относительно количества треков исполнителя.

Абсолютное значение количества уникальных слов становится немного менее показательным, если количество треков у исполнителей отличается в два раза.

Спасибо за статью

megahertz May 9 2020 at 16:32

Раз разговор о лексическом разнообразии современных русскоязычных rap исполнителей, было бы интересно увидеть ATL.

Psy_Nejumi303 May 9 2020 at 18:22

кровосток не хватает

Latrommy May 9 2020 at 18:50

Тема заинтересовала. Скачал Mystem с yandex. Мануал прочёл. Не понял, как получить список наиболее употребляемых слов с сортировкой по убыванию.

byrdas May 9 2020 at 19:56

Mystem нужен для того, чтобы найти основы слов для заданных исходных. На пример, имеем слова: «красивый, красивая, красивейший, красивее» — исходным словом для них является «красивый». Процесс, «стемминг», нужен именно для этого. И программа mystem помогает это сделать. Ведь не хотелось считать несколько раз вариативность на пример, слова «красивый». Целью было найти и показать уникальные слова, которые использовали артисты. А весь анализ был сделан в R. Это довольно длительный процесс, который кроме стемминга включает еще несколько этапов.

Latrommy May 9 2020 at 20:33

Нашёл istio.com
Интересно! Если Вы сделаете сервис с анализом, что показали в статье, он будет востребован!
$lyrics-get <author.name> ∥ <author.pseudo> out.text
$lyrics-analyse out.text out.html
Или онлайн-сервис, который будет выдавать результаты анализа текстов по автору… О, я точно adblock/umatrix включать не буду :)

SAR87 May 9 2020 at 19:45

Бро, это просто гениально. Так проанализировать и показать факты на блюдечке, сделав их очевидными — это нечто. Спасибо!

byrdas May 9 2020 at 19:47

Спасибо, очень приятно слышать, что понравилось. На днях займусь анализом двух словесных гениев — Нойза и Оксимирона, с бонусом в виде Дяди Жени.

khonin May 10 2020 at 09:24

Интересный обзор у вас получился! Хотелось бы добавить, что у "Касты" нет альбома под названием "Четырёхглавый Орёл". Посмотрите повнимательнее на название их предпоследнего альбома. Спасибо за статью!

byrdas May 10 2020 at 09:25

Спасибо за отзыв и за ошибку. Уже исправил

phillennium May 10 2020 at 10:12

1. Конкретно про упомянутых исполнителей этот текст что-то сообщает, но про старую/новую школы так, чтобы их можно было сравнивать — нет. Потому что старая школа — это не только Каста и Нойз, но также Децл (как думаете, какой у него был словарный запас?), Гуф (напомню строку «я на седьмом этаже, это как шестой, но на один повыше») и так далее вплоть до группы АК-47. Вот для примера припев хита старой школы:

«Хули мусора, хули мусора, хули?
Едем так, как ехали, даже в хуй не дули
Хули, ну, допустим, ремень не пристегнули
Я кругом тонирован — значит, всё в ажуре»

Боюсь, если бы старую школу мы измерили по этому, то Фараон на этом фоне внезапно оказался бы титаном слова.

В общем, вы взяли из старой школы тех, кто нравится лично вам, но это нерепрезентативная выборка.

А те, кто на пике сегодня, тоже ощутимо различаются — у ATL тексты совершенно не про сук, и это не мешает ему собирать в Москве больше 5000 зрителей.

2. Если вам лично не нравятся песни, где слов мало и они плохие — это ваше полное право. Но когда пытаются сделать какие-то глобальные выводы для всех, хочется напомнить, что человечество всё это уже проходило больше 40 лет назад с панком. Там тоже говорили, что музыка испортилась, потому что слов мало и они плохие. А теперь Sex Pistols и The Clash включают в списки лучших рок-групп наряду с Pink Floyd, у которых много умных слов. Человечество в целом сошлось на том, что музыка может брать как умными текстами и выстроенным звуком, так и совершенно другими вещами — например, сырым драйвом, которому умные слова не помогут, а помешают.

Я не говорю, что конкретно Фараона когда-то включат в список лучших (вряд ли). Но если делать выводы «лучше/хуже» по количеству слов, так можно дойти до того, что у Баха в «Хорошо темперированном клавире» слов вообще нет и поэтому он глупее Фараона. С точки зрения таланта это не говорит примерно ни о чём.

byrdas May 10 2020 at 10:56

Постараюсь ответить по пунктам:

1. Децл — рискну предположить, что у него довольно широкий словарный запас. Вы наверное перестали следить за его творчеством после альбома «Кто? ты». Советую для прослушивания, к примеру альбом «Неважно кто там у руля».

2. Понятное дело, что Каста и Нойз Мс не определяют старую школу, есть множество других артистов, тот же упомянутый Вами Гуф и Витя Ак, но еще есть Лигалайз, Мастер Шеff, Баста, Кровосток и тд. Я и не пытался доказать кому-то и навязать своё мнение, что артисты из старой школы более талантливые. Они есть, но естественно не все. И приведённый Вами пример «хита» явно это доказывает. В своей работе я подметил, что «Музыкальный вкус дело индивидуальное и каждый сам решает, что ему слушать». Будь то Нойз, Каста, Оксимирон с одной стороны, или Фараон, Моргенштерн, Gone.Fludd с другой(что не мешает конечно же слушать их всех и быть самым счастливым)

3. ATL мне трудно отнести к новой, так как он в творчестве с 2006 года.

4. Выборка нерепрезентативная, я с Вами полностью согласен. Но тут вопрос, кого взять для анализа, чтобы была репрезентативная? Ответ скорее всего будет — практически всех. У каждого свой почерк и стиль, есть много андрерграудной рэп музыки. И всегда будет кто-то, кто скажет, что выборка плоха, так как нету того или иного артиста.

Количество слов явно не является предопределяющим звеном в качестве песен, ведь тогда у классики были бы большие проблемы в конкурентноспособности.

5. И последнее, глобальной целью моей работы было показать, как можно применить text mining в довольно интересной теме, может кто-то сможет почерпнуть для себя что-то новое, и я буду несказанно этому рад.

И спасибо за Ваш отзыв, надеюсь, что в целом, статья доставила Вам удовольствие при прочтении

phillennium May 10 2020 at 11:23

1. Про Децла в контексте «старая/новая школа» логично рассматривать ранние тексты, потому что они стали суперхитами и определили хип-хоп своего времени, а поздние мало кто слушал. Строго говоря, речь даже не о лично его словарном запасе, потому что на первом альбоме тексты писали другие люди. Но именно эти тексты куча подростков знала наизусть.

3. Тут мы упираемся в сложность чёткого определения. У вас в тексте про новую школу сказано «сейчас находятся на пике своей популярности и привлекают обширную и, в основном, молодую аудиторию» — и под такое определение ATL подходит: массовая популярность к нему пришла только в последние годы, и на его концертах вижу молодёжь. Но одновременно с этим он действительно другого поколения, да. По какому критерию правильнее делить — не знаю.

4. Если бы речь шла о зарубежной музыке, я бы для репрезентативной картины посоветовал использовать хип-хоповый чарт Billboard: кого люди массовее слушали в каждый год, тех и анализировать. Но с русскоязычной сложнее, потому что у нас нет внятных чартов(

5. Само по себе как применение text mining это интересно, да. Скажем так: я за то, чтобы такие данные собирать (и спасибо вам за них), но дальше после их сбора надо быть очень осторожным с выводами, потому что в числа очень легко вписать что-то, что в них захотелось увидеть :)

byrdas May 10 2020 at 11:31

Категорически с Вами согласен на счёт последнего пункта) поэтому всегда стараюсь отдать для редактирования нескольким людям, дабы сгладили мои выводы)
Спасибо ещё раз за отзыв.

chelovek-jpeg May 10 2020 at 16:44

Атл однозначно старая школа, он же давно стал известным, наряду со Стимом, Мироном, Нойзом ещё в 10 годах или даже раньше. Да даже в силу возраста, ему 31 год, ну не близок он молодёже по-настоящему. Децл это ещё более старая школа, поколений же много, но когда сравнивают, берут предыдущую

phillennium May 10 2020 at 20:09

Я уж ссылался на определение из текста «сейчас находятся на пике своей популярности» — ну, могу ещё раз сослаться.

Какие площадки собирал ATL «в 10 годах или даже раньше», и какие — в последние годы? Насколько понимаю, массы узнали о нём после «Марабу» (2015). О Фараоне — после «Black Siemens» (2015).

Bizonozubr May 10 2020 at 11:48

А можно немного подробностей про сентиментальный анализ текста — каким пакетом делали, как распределяли на негатив/позитив?

byrdas May 10 2020 at 13:37

К сожалению в R нету грамотного словаря для сентиментального анализа для русского языка (для английского есть библиотеки с шикарными словарями). Поэтому пришлось пользоваться внешним со своим дополнением. Вот Вам ссылка на него, с полным описанием:
github.com/dkulagin/kartaslov/tree/master/dataset/emo_dict

Bizonozubr May 10 2020 at 13:48

Благодарю, спасибо! Про отсуствия корпусов русского языка для R заметил, поэтому в своё время делал проект именно на Python.

Nastradamus May 11 2020 at 14:07

А ваши исходники выложите?

LinaRisa May 10 2020 at 20:47

Довольно показательное исследование!
Хотя, вот по поводу исключения из анализа местоимений и союзов я бы не согласилась — смысловая и эмоциональная характеристика текста сильно зависит от того, что написано: «убивать» или «не убивать».
Интересно, если бы исследование применить не только к произведениям рэп-исполнителей, но и текстам других музыкальных направлений?! Какие результаты получились бы? ))
А при охвате таким исследованием ТОП-100 музыкальных произведений, как мне видится, можно вообще получить представление не только о музыкальных предпочтениях слушателей, но также об уровне их интеллектуально развития, в том числе о психических состояниях слушателей, а также получить довольно наглядное ранжирование социальных явлений/институтов (то есть получить картину, какие категории, например: «семья» / «одиночество», «мир»/ «война» и т.д. имеют приоритет в головах слушателей).
Ох, я очень надеюсь, что Яндекс или SUP не проводят такого рода исследований уровня Big Data.

a3aquB May 10 2020 at 21:45

шансончик еще надо загнать в такой же анализатор

toroboan May 11 2020 at 07:17

Спасибо, весьма любопытно.
Но как уже отмечалось, жаль выбрасывать местоимения, предлоги итп. Они же не виноваты, что самые частые.
Избежать этого можно, рассматривая относительную частотность исполнителя по сравнению с некоторой общей частотностью Н.
Т.е. для каждого слова С, которое встречается у исполнителя с частотой h(С), относительная частотность равна h(С)/Н(С). Она описывает, насколько данный исполнитель, предпочитает это слово по сравнению с усреднённый по некоторому объёму текстов.
В качестве Н можно взять частотность:
1 — общую для русского языка;
2 — литературных текстов;
3 — суммарную по всем исполнителям, участвующих в сравнении (при этом учитывая, что объёмы разные);
4 — некую взвешенную производную предыдущих трёх.

LinearLeopard May 23 2020 at 20:28

Как-то с числом слов не понятно, два графика, которые интересны, но не так, как число различных слов. Лучше это подчеркнуть, что вот тут словоформ всего с повторами, вот тут после фильтрации и удаления словоформ, вот тут уникальные, и лучше подписать графики, чтобы это было понятнее.

Ну и не надо давать эмоциональную окраску результатам эмоциональной окраски, все сами всё поймут, как и цензурить слова, вроде не институт благородных девиц, лучше больше данных.