Comments 47
За статью спасибо, очень интересно.
давать, хотеть, тырить
приоритеты :)
Эх, Дядю Женю бы в этот анализ добавить… Но это уже прям андерграунд старой школы. Не в самых широких кругах популярен. У него были тексты, в которых все слова начинались на одну букву.
А то например у Моргенштерна в топ попало слово «дед», и я предполагаю, что это из-за трека «Я съел деда» (не спрашивайте, откуда я это знаю), где эта фраза просто 100500 раз повторяется.
Аналогично у Нойза слова «рок» и «кал» явно попали в облако из-за трека «Рок — это кал».
П.с. было бы любопытно провести анализ словарного запаса Оксимирона и сравнить его с Нойзом.
А на счёт Оксимирона, хотел его в этом же анализе разобрать, но они с Нойзом явно 2 лидера по текстам, и сильно бы выделялись из всех. Даже не так. Каста, Нойз и Окси с явным превосходством затмили бы Фараона и Моргенштерна.
А вот сравнить отдельно Оксимирона и Нойза довольно интересно. Наверное этим и займусь
А Дядю Женю в таком случае не добавите?
Возможно еще, что вы (не сознательно, конечно) выбрали такую метрику, сравнение по которой подтверждает вашу точку зрения.
Допустим, мне лично кажется не совсем корректным оценивать эмоциональную окраску текста целой песни по отдельным словами. Нет ли возможности оценить окраску всего текста? Или предложений/абзацев?
ATL бы туда добавить, к Нойзу с Мироном. У него интересно, что по него по негативу/позитиву получится; лексика и так понятно, сильно выделяется на общем фоне.
Аналогично со словом «Тырим» у Касты — в одной-единственной песне они столько раз его натараторили, что оно всё их творчество перевесило :)
Интересно было бы посмотреть на количество уникальных слов относительно общего количества слов в треках, или относительно количества треков исполнителя.
Абсолютное значение количества уникальных слов становится немного менее показательным, если количество треков у исполнителей отличается в два раза.
Спасибо за статью
Раз разговор о лексическом разнообразии современных русскоязычных rap исполнителей, было бы интересно увидеть ATL.
Интересно! Если Вы сделаете сервис с анализом, что показали в статье, он будет востребован!
$lyrics-get <author.name> ∥ <author.pseudo> out.text
$lyrics-analyse out.text out.html
Или онлайн-сервис, который будет выдавать результаты анализа текстов по автору… О, я точно adblock/umatrix включать не буду :)
Бро, это просто гениально. Так проанализировать и показать факты на блюдечке, сделав их очевидными — это нечто. Спасибо!
Интересный обзор у вас получился! Хотелось бы добавить, что у "Касты" нет альбома под названием "Четырёхглавый Орёл". Посмотрите повнимательнее на название их предпоследнего альбома. Спасибо за статью!
«Хули мусора, хули мусора, хули?
Едем так, как ехали, даже в хуй не дули
Хули, ну, допустим, ремень не пристегнули
Я кругом тонирован — значит, всё в ажуре»
Боюсь, если бы старую школу мы измерили по этому, то Фараон на этом фоне внезапно оказался бы титаном слова.
В общем, вы взяли из старой школы тех, кто нравится лично вам, но это нерепрезентативная выборка.
А те, кто на пике сегодня, тоже ощутимо различаются — у ATL тексты совершенно не про сук, и это не мешает ему собирать в Москве больше 5000 зрителей.
2. Если вам лично не нравятся песни, где слов мало и они плохие — это ваше полное право. Но когда пытаются сделать какие-то глобальные выводы для всех, хочется напомнить, что человечество всё это уже проходило больше 40 лет назад с панком. Там тоже говорили, что музыка испортилась, потому что слов мало и они плохие. А теперь Sex Pistols и The Clash включают в списки лучших рок-групп наряду с Pink Floyd, у которых много умных слов. Человечество в целом сошлось на том, что музыка может брать как умными текстами и выстроенным звуком, так и совершенно другими вещами — например, сырым драйвом, которому умные слова не помогут, а помешают.
Я не говорю, что конкретно Фараона когда-то включат в список лучших (вряд ли). Но если делать выводы «лучше/хуже» по количеству слов, так можно дойти до того, что у Баха в «Хорошо темперированном клавире» слов вообще нет и поэтому он глупее Фараона. С точки зрения таланта это не говорит примерно ни о чём.
1. Децл — рискну предположить, что у него довольно широкий словарный запас. Вы наверное перестали следить за его творчеством после альбома «Кто? ты». Советую для прослушивания, к примеру альбом «Неважно кто там у руля».
2. Понятное дело, что Каста и Нойз Мс не определяют старую школу, есть множество других артистов, тот же упомянутый Вами Гуф и Витя Ак, но еще есть Лигалайз, Мастер Шеff, Баста, Кровосток и тд. Я и не пытался доказать кому-то и навязать своё мнение, что артисты из старой школы более талантливые. Они есть, но естественно не все. И приведённый Вами пример «хита» явно это доказывает. В своей работе я подметил, что «Музыкальный вкус дело индивидуальное и каждый сам решает, что ему слушать». Будь то Нойз, Каста, Оксимирон с одной стороны, или Фараон, Моргенштерн, Gone.Fludd с другой(что не мешает конечно же слушать их всех и быть самым счастливым)
3. ATL мне трудно отнести к новой, так как он в творчестве с 2006 года.
4. Выборка нерепрезентативная, я с Вами полностью согласен. Но тут вопрос, кого взять для анализа, чтобы была репрезентативная? Ответ скорее всего будет — практически всех. У каждого свой почерк и стиль, есть много андрерграудной рэп музыки. И всегда будет кто-то, кто скажет, что выборка плоха, так как нету того или иного артиста.
Количество слов явно не является предопределяющим звеном в качестве песен, ведь тогда у классики были бы большие проблемы в конкурентноспособности.
5. И последнее, глобальной целью моей работы было показать, как можно применить text mining в довольно интересной теме, может кто-то сможет почерпнуть для себя что-то новое, и я буду несказанно этому рад.
И спасибо за Ваш отзыв, надеюсь, что в целом, статья доставила Вам удовольствие при прочтении
3. Тут мы упираемся в сложность чёткого определения. У вас в тексте про новую школу сказано «сейчас находятся на пике своей популярности и привлекают обширную и, в основном, молодую аудиторию» — и под такое определение ATL подходит: массовая популярность к нему пришла только в последние годы, и на его концертах вижу молодёжь. Но одновременно с этим он действительно другого поколения, да. По какому критерию правильнее делить — не знаю.
4. Если бы речь шла о зарубежной музыке, я бы для репрезентативной картины посоветовал использовать хип-хоповый чарт Billboard: кого люди массовее слушали в каждый год, тех и анализировать. Но с русскоязычной сложнее, потому что у нас нет внятных чартов(
5. Само по себе как применение text mining это интересно, да. Скажем так: я за то, чтобы такие данные собирать (и спасибо вам за них), но дальше после их сбора надо быть очень осторожным с выводами, потому что в числа очень легко вписать что-то, что в них захотелось увидеть :)
Категорически с Вами согласен на счёт последнего пункта) поэтому всегда стараюсь отдать для редактирования нескольким людям, дабы сгладили мои выводы)
Спасибо ещё раз за отзыв.
Какие площадки собирал ATL «в 10 годах или даже раньше», и какие — в последние годы? Насколько понимаю, массы узнали о нём после «Марабу» (2015). О Фараоне — после «Black Siemens» (2015).
github.com/dkulagin/kartaslov/tree/master/dataset/emo_dict
Хотя, вот по поводу исключения из анализа местоимений и союзов я бы не согласилась — смысловая и эмоциональная характеристика текста сильно зависит от того, что написано: «убивать» или «не убивать».
Интересно, если бы исследование применить не только к произведениям рэп-исполнителей, но и текстам других музыкальных направлений?! Какие результаты получились бы? ))
А при охвате таким исследованием ТОП-100 музыкальных произведений, как мне видится, можно вообще получить представление не только о музыкальных предпочтениях слушателей, но также об уровне их интеллектуально развития, в том числе о психических состояниях слушателей, а также получить довольно наглядное ранжирование социальных явлений/институтов (то есть получить картину, какие категории, например: «семья» / «одиночество», «мир»/ «война» и т.д. имеют приоритет в головах слушателей).
Ох, я очень надеюсь, что Яндекс или SUP не проводят такого рода исследований уровня Big Data.
Спасибо, весьма любопытно.
Но как уже отмечалось, жаль выбрасывать местоимения, предлоги итп. Они же не виноваты, что самые частые.
Избежать этого можно, рассматривая относительную частотность исполнителя по сравнению с некоторой общей частотностью Н.
Т.е. для каждого слова С, которое встречается у исполнителя с частотой h(С), относительная частотность равна h(С)/Н(С). Она описывает, насколько данный исполнитель, предпочитает это слово по сравнению с усреднённый по некоторому объёму текстов.
В качестве Н можно взять частотность:
1 — общую для русского языка;
2 — литературных текстов;
3 — суммарную по всем исполнителям, участвующих в сравнении (при этом учитывая, что объёмы разные);
4 — некую взвешенную производную предыдущих трёх.
Ну и не надо давать эмоциональную окраску результатам эмоциональной окраски, все сами всё поймут, как и цензурить слова, вроде не институт благородных девиц, лучше больше данных.
Сравнение российской рэп сцены используя R и техники Text Mining. Noize Mc and Kasta vs Pharaoh and Morgenshtern