Как стать автором
Обновить

Комментарии 47

Математическое обоснование того что новое поколение исполнителей сильно с «душком».
За статью спасибо, очень интересно.

Про двух из разобранных исполнителей я слышу впервые (и беглый гугл говорит, что я об этом не сильно пожалею), но возможно, если отсечь творчество всех исполнителей одним возрастом (например самым молодым из предложенных), то разница по критерию ненормативной лексики несколько сгладится =)

давать, хотеть, тырить

приоритеты :)

Эх, Дядю Женю бы в этот анализ добавить… Но это уже прям андерграунд старой школы. Не в самых широких кругах популярен. У него были тексты, в которых все слова начинались на одну букву.

У него была не менее интересная фишка — никто долгое время не знал, что он картавит, потому что… он не употреблял в текстах слова, содержащие букву «р»!

Я сначала тоже хотел упомянуть этот факт, но засомневался в его истинности. И не зря. Таки сегодня послушал несколько треков и могу опровергнуть. Нет-нет, да проскользнёт. Например, трек "без правил".

Ну он же там картавит. Посмотри его видео с фестиваля 8 официального.

Хорошо бы провести подсчёт наиболее часто используемых слов в разных песнях, то есть без учёта повтора слов в одной песне.
А то например у Моргенштерна в топ попало слово «дед», и я предполагаю, что это из-за трека «Я съел деда» (не спрашивайте, откуда я это знаю), где эта фраза просто 100500 раз повторяется.
Аналогично у Нойза слова «рок» и «кал» явно попали в облако из-за трека «Рок — это кал».

П.с. было бы любопытно провести анализ словарного запаса Оксимирона и сравнить его с Нойзом.
Тоже сначала думал показать кол-во слов в разных песнях, откинуть экстремальные случаи(вот как к примеру слово «дед» у Моргенштерна) и потом уже показать наиболее часто повторяющиеся слова. Но потом решил, что некоторые люди заслушивают до «дыр» единичные песни, и у кого-то засядет в голове «дед», а у кого-то связка слов «Рок — это кал», поэтому не стал выбрасывать.

А на счёт Оксимирона, хотел его в этом же анализе разобрать, но они с Нойзом явно 2 лидера по текстам, и сильно бы выделялись из всех. Даже не так. Каста, Нойз и Окси с явным превосходством затмили бы Фараона и Моргенштерна.

А вот сравнить отдельно Оксимирона и Нойза довольно интересно. Наверное этим и займусь

С удовольствием бы ознакомился с таким сравнением.
Постараюсь в скором времени подготовить

А Дядю Женю в таком случае не добавите?

Дядю Женю бонусом сделаю
Я, конечно, страшный зануда, но у людей есть неприятная особенность — они склонны предпочитать факты, подтверждающие их точку зрения и отвергать опровергающие. Поэтому более объективным было бы не сравнивать две произвольно выбраные пары исполнителей, а, например, исследовать лидеров чартов за эти 20 лет
Полностью с Вами согласен и разделяю существование данной особенности. Только я лишь хотел показать, как отличается музыка\тексты кумиров моей молодости (Каста немного раньше, и чуть позже Нойз Мс) с кумирами нынешней молодёжи (довольно хорошо знаком с популярностью Фараона и Моргенштерна в 2020). Плюс к этому, хотел представить возможности R и Text Mining, так как после прогугливания не нашёл сравнения русской музыкальной сцены используя данные инструменты. И конечно, каждый вправе решать сам, что ему слушать. Я лишь хотел показать явные отличия и ни в коем случае не хотел навязывать свои предпочтения, лишь сделал выводы опираясь на полученных результатах.

Возможно еще, что вы (не сознательно, конечно) выбрали такую метрику, сравнение по которой подтверждает вашу точку зрения.


Допустим, мне лично кажется не совсем корректным оценивать эмоциональную окраску текста целой песни по отдельным словами. Нет ли возможности оценить окраску всего текста? Или предложений/абзацев?

ATL бы туда добавить, к Нойзу с Мироном. У него интересно, что по него по негативу/позитиву получится; лексика и так понятно, сильно выделяется на общем фоне.

да, не нужно было учитывать повторяющиейся слова в песне. То же якобы часто встречающееся у Нойза слово «орфей

Аналогично со словом «Тырим» у Касты — в одной-единственной песне они столько раз его натараторили, что оно всё их творчество перевесило :)

Сравните Пушкина с Лермонтовым. Тоже интересно, что получится.
Уже давно, не раз, и не только их, а очень многих поэтов вместе. Вот очень занимательная лекция на эту тему.
Видел еще у какого-то западного автора анализ повторяемости слов в тексте — он проверял это через процент архивирования текста, и пришел к выводу, что тексты стали более однообразные и примитивные.
в качестве более позитивных исполнителей для сравнения, предлагаю KRec

Интересно было бы посмотреть на количество уникальных слов относительно общего количества слов в треках, или относительно количества треков исполнителя.


Абсолютное значение количества уникальных слов становится немного менее показательным, если количество треков у исполнителей отличается в два раза.


Спасибо за статью

Раз разговор о лексическом разнообразии современных русскоязычных rap исполнителей, было бы интересно увидеть ATL.

Тема заинтересовала. Скачал Mystem с yandex. Мануал прочёл. Не понял, как получить список наиболее употребляемых слов с сортировкой по убыванию.
Mystem нужен для того, чтобы найти основы слов для заданных исходных. На пример, имеем слова: «красивый, красивая, красивейший, красивее» — исходным словом для них является «красивый». Процесс, «стемминг», нужен именно для этого. И программа mystem помогает это сделать. Ведь не хотелось считать несколько раз вариативность на пример, слова «красивый». Целью было найти и показать уникальные слова, которые использовали артисты. А весь анализ был сделан в R. Это довольно длительный процесс, который кроме стемминга включает еще несколько этапов.
Нашёл istio.com
Интересно! Если Вы сделаете сервис с анализом, что показали в статье, он будет востребован!
$lyrics-get <author.name> ∥ <author.pseudo> out.text
$lyrics-analyse out.text out.html
Или онлайн-сервис, который будет выдавать результаты анализа текстов по автору… О, я точно adblock/umatrix включать не буду :)

Бро, это просто гениально. Так проанализировать и показать факты на блюдечке, сделав их очевидными — это нечто. Спасибо!

Спасибо, очень приятно слышать, что понравилось. На днях займусь анализом двух словесных гениев — Нойза и Оксимирона, с бонусом в виде Дяди Жени.

Интересный обзор у вас получился! Хотелось бы добавить, что у "Касты" нет альбома под названием "Четырёхглавый Орёл". Посмотрите повнимательнее на название их предпоследнего альбома. Спасибо за статью!

Спасибо за отзыв и за ошибку. Уже исправил
1. Конкретно про упомянутых исполнителей этот текст что-то сообщает, но про старую/новую школы так, чтобы их можно было сравнивать — нет. Потому что старая школа — это не только Каста и Нойз, но также Децл (как думаете, какой у него был словарный запас?), Гуф (напомню строку «я на седьмом этаже, это как шестой, но на один повыше») и так далее вплоть до группы АК-47. Вот для примера припев хита старой школы:

«Хули мусора, хули мусора, хули?
Едем так, как ехали, даже в хуй не дули
Хули, ну, допустим, ремень не пристегнули
Я кругом тонирован — значит, всё в ажуре»

Боюсь, если бы старую школу мы измерили по этому, то Фараон на этом фоне внезапно оказался бы титаном слова.

В общем, вы взяли из старой школы тех, кто нравится лично вам, но это нерепрезентативная выборка.

А те, кто на пике сегодня, тоже ощутимо различаются — у ATL тексты совершенно не про сук, и это не мешает ему собирать в Москве больше 5000 зрителей.

2. Если вам лично не нравятся песни, где слов мало и они плохие — это ваше полное право. Но когда пытаются сделать какие-то глобальные выводы для всех, хочется напомнить, что человечество всё это уже проходило больше 40 лет назад с панком. Там тоже говорили, что музыка испортилась, потому что слов мало и они плохие. А теперь Sex Pistols и The Clash включают в списки лучших рок-групп наряду с Pink Floyd, у которых много умных слов. Человечество в целом сошлось на том, что музыка может брать как умными текстами и выстроенным звуком, так и совершенно другими вещами — например, сырым драйвом, которому умные слова не помогут, а помешают.

Я не говорю, что конкретно Фараона когда-то включат в список лучших (вряд ли). Но если делать выводы «лучше/хуже» по количеству слов, так можно дойти до того, что у Баха в «Хорошо темперированном клавире» слов вообще нет и поэтому он глупее Фараона. С точки зрения таланта это не говорит примерно ни о чём.
Постараюсь ответить по пунктам:

1. Децл — рискну предположить, что у него довольно широкий словарный запас. Вы наверное перестали следить за его творчеством после альбома «Кто? ты». Советую для прослушивания, к примеру альбом «Неважно кто там у руля».

2. Понятное дело, что Каста и Нойз Мс не определяют старую школу, есть множество других артистов, тот же упомянутый Вами Гуф и Витя Ак, но еще есть Лигалайз, Мастер Шеff, Баста, Кровосток и тд. Я и не пытался доказать кому-то и навязать своё мнение, что артисты из старой школы более талантливые. Они есть, но естественно не все. И приведённый Вами пример «хита» явно это доказывает. В своей работе я подметил, что «Музыкальный вкус дело индивидуальное и каждый сам решает, что ему слушать». Будь то Нойз, Каста, Оксимирон с одной стороны, или Фараон, Моргенштерн, Gone.Fludd с другой(что не мешает конечно же слушать их всех и быть самым счастливым)

3. ATL мне трудно отнести к новой, так как он в творчестве с 2006 года.

4. Выборка нерепрезентативная, я с Вами полностью согласен. Но тут вопрос, кого взять для анализа, чтобы была репрезентативная? Ответ скорее всего будет — практически всех. У каждого свой почерк и стиль, есть много андрерграудной рэп музыки. И всегда будет кто-то, кто скажет, что выборка плоха, так как нету того или иного артиста.

Количество слов явно не является предопределяющим звеном в качестве песен, ведь тогда у классики были бы большие проблемы в конкурентноспособности.

5. И последнее, глобальной целью моей работы было показать, как можно применить text mining в довольно интересной теме, может кто-то сможет почерпнуть для себя что-то новое, и я буду несказанно этому рад.

И спасибо за Ваш отзыв, надеюсь, что в целом, статья доставила Вам удовольствие при прочтении
1. Про Децла в контексте «старая/новая школа» логично рассматривать ранние тексты, потому что они стали суперхитами и определили хип-хоп своего времени, а поздние мало кто слушал. Строго говоря, речь даже не о лично его словарном запасе, потому что на первом альбоме тексты писали другие люди. Но именно эти тексты куча подростков знала наизусть.

3. Тут мы упираемся в сложность чёткого определения. У вас в тексте про новую школу сказано «сейчас находятся на пике своей популярности и привлекают обширную и, в основном, молодую аудиторию» — и под такое определение ATL подходит: массовая популярность к нему пришла только в последние годы, и на его концертах вижу молодёжь. Но одновременно с этим он действительно другого поколения, да. По какому критерию правильнее делить — не знаю.

4. Если бы речь шла о зарубежной музыке, я бы для репрезентативной картины посоветовал использовать хип-хоповый чарт Billboard: кого люди массовее слушали в каждый год, тех и анализировать. Но с русскоязычной сложнее, потому что у нас нет внятных чартов(

5. Само по себе как применение text mining это интересно, да. Скажем так: я за то, чтобы такие данные собирать (и спасибо вам за них), но дальше после их сбора надо быть очень осторожным с выводами, потому что в числа очень легко вписать что-то, что в них захотелось увидеть :)

Категорически с Вами согласен на счёт последнего пункта) поэтому всегда стараюсь отдать для редактирования нескольким людям, дабы сгладили мои выводы)
Спасибо ещё раз за отзыв.

Атл однозначно старая школа, он же давно стал известным, наряду со Стимом, Мироном, Нойзом ещё в 10 годах или даже раньше. Да даже в силу возраста, ему 31 год, ну не близок он молодёже по-настоящему. Децл это ещё более старая школа, поколений же много, но когда сравнивают, берут предыдущую
Я уж ссылался на определение из текста «сейчас находятся на пике своей популярности» — ну, могу ещё раз сослаться.

Какие площадки собирал ATL «в 10 годах или даже раньше», и какие — в последние годы? Насколько понимаю, массы узнали о нём после «Марабу» (2015). О Фараоне — после «Black Siemens» (2015).
А можно немного подробностей про сентиментальный анализ текста — каким пакетом делали, как распределяли на негатив/позитив?
К сожалению в R нету грамотного словаря для сентиментального анализа для русского языка (для английского есть библиотеки с шикарными словарями). Поэтому пришлось пользоваться внешним со своим дополнением. Вот Вам ссылка на него, с полным описанием:
github.com/dkulagin/kartaslov/tree/master/dataset/emo_dict
Благодарю, спасибо! Про отсуствия корпусов русского языка для R заметил, поэтому в своё время делал проект именно на Python.

А ваши исходники выложите?

Довольно показательное исследование!
Хотя, вот по поводу исключения из анализа местоимений и союзов я бы не согласилась — смысловая и эмоциональная характеристика текста сильно зависит от того, что написано: «убивать» или «не убивать».
Интересно, если бы исследование применить не только к произведениям рэп-исполнителей, но и текстам других музыкальных направлений?! Какие результаты получились бы? ))
А при охвате таким исследованием ТОП-100 музыкальных произведений, как мне видится, можно вообще получить представление не только о музыкальных предпочтениях слушателей, но также об уровне их интеллектуально развития, в том числе о психических состояниях слушателей, а также получить довольно наглядное ранжирование социальных явлений/институтов (то есть получить картину, какие категории, например: «семья» / «одиночество», «мир»/ «война» и т.д. имеют приоритет в головах слушателей).
Ох, я очень надеюсь, что Яндекс или SUP не проводят такого рода исследований уровня Big Data.
шансончик еще надо загнать в такой же анализатор

Спасибо, весьма любопытно.
Но как уже отмечалось, жаль выбрасывать местоимения, предлоги итп. Они же не виноваты, что самые частые.
Избежать этого можно, рассматривая относительную частотность исполнителя по сравнению с некоторой общей частотностью Н.
Т.е. для каждого слова С, которое встречается у исполнителя с частотой h(С), относительная частотность равна h(С)/Н(С). Она описывает, насколько данный исполнитель, предпочитает это слово по сравнению с усреднённый по некоторому объёму текстов.
В качестве Н можно взять частотность:
1 — общую для русского языка;
2 — литературных текстов;
3 — суммарную по всем исполнителям, участвующих в сравнении (при этом учитывая, что объёмы разные);
4 — некую взвешенную производную предыдущих трёх.

Как-то с числом слов не понятно, два графика, которые интересны, но не так, как число различных слов. Лучше это подчеркнуть, что вот тут словоформ всего с повторами, вот тут после фильтрации и удаления словоформ, вот тут уникальные, и лучше подписать графики, чтобы это было понятнее.

Ну и не надо давать эмоциональную окраску результатам эмоциональной окраски, все сами всё поймут, как и цензурить слова, вроде не институт благородных девиц, лучше больше данных.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории