Сравнение российской рэп сцены используя R и техники Text Mining. Noize Mc and Kasta vs Pharaoh and Morgenshtern

R. Text Mining. Rap


Популярность многих современных рэп исполнителей остается для меня и других приверженцев “старой школы” большой загадкой. Постоянные споры о том, кто лучше, чьи тексты интереснее, чья музыка разнообразнее занимают умы многих интернет-пользователей. Чтобы подтвердить эти споры не просто словами, а фактами я проанализировал тексты четырех российских рэп исполнителей, используя для этого язык программирования R.

Часть из них были безумно популярны в начале 2000-х годов. Сейчас они все также привлекают своих слушателей, но их, к сожалению, становится все меньше. А двое сейчас находятся на пике своей популярности и привлекают обширную и, в основном, молодую аудиторию. И мой дальнейший разбор покажет, что учитывая словарный запас, который они используют, этот факт не вызывает радости. Узнать кто есть кто будет довольно просто, ведь артисты, чьи песни я использовал это: Каста, Noize-Mc, Фараон и Моргенштерн. Думаю, всем понятно, что Касту и Нойза я буду относить к «старой школе», а Фараона и Моргенштерна к «новой».

Альбомы для анализа


Для анализа я отобрал все студийные официальные альбомы вышедшие у исполнителей (информация об альбомах была взята с сайта www.wikipedia.com, вся литература в конце):

  1. Kasta: «Громче воды, выше травы»; «Быль в глаза»; «Четырёхглавый Орёт»; «Об изъяне понятно» — 74 трека.
  2. Noize Mc: «The Greatest Hits Vol. 1»; «Последний альбом»; «Новый альбом»; «Protivo Gunz»; «Неразбериха»; «Hard Reboot 3.0»; «Царь горы»; «Хипхопера: Орфей & Эвридика» — 160 треков.
  3. Pharaoh: «Уаджет»; «Phlora»; «Dolor»; «Phosphor»; «Pink Phloyd»; «Phuneral»; «Правило» — 95 треков.
  4. Morgenshtern: «До того как стал известен»; «Улыбнись, дурак!»; «Легендарная пыль» — 30 треков.

Я специально подбирал вышеупомянутых артистов так как даже те, кто хоть немного знаком с их творчеством, согласятся, что тексты очень сильно отличаются (Каста + Нойз vs Фараон + Моргенштерн) и будет интересно сравнить их между собой. Возникает логичный вопрос: как можно объективно и правильно сравнить четыре альбома Касты и восемь альбомов Фараона? Все очень просто — после некоторых манипуляций, о которых я расскажу дальше, объем слов станет более-менее сопоставимым. Ведь, как всем известно, количество не равно качество.
Для сбора самих слов я использовал сайт genius.com и их API. К счастью, разработчики сервиса предоставляют открытый интерфейс программирования приложений (API) позволяющий достаточно легко извлекать тексты песен (по артистам, альбомам) из базы данных для их последующего анализа.

Весь анализ был произведён с использованием языка программирования R, плюс для стемминга (процесс нахождения основы слова для заданного исходного слова) использован был python, так как не получалось совладать с кодировкой в R и программой mystem (Windows 10 не очень любит дружить с UTF-8 и R, говорят используя яблочную ОС либо Линукс таких проблем не возникает).

До обработки. Обзор Текстов. Количество слов


Для загрузки текстов песен использовалась библиотека «genius». Функция из этого пакета «genius_album» очень легко позволяет скачать сразу все тексты по альбомам. Будьте внимательны и перепроверяйте, так как не всегда для всех исполнителей имеются все тексты песен, некоторые из них пришлось добавлять вручную. После загрузки стало интересно, какое количество слов используется в песнях в целом (вместе с местоимениями, предлогами, частицами и и тд). Потом мы сравним эти цифры с уже обработанными стеммингом и стоп-словами результатами. Чтобы проще понимать соотношение количества альбомов и треков к количеству используемых слов я еще раз продублирую эту информацию:

  1. Noize Mc — 8 альбомов, 160 треков.
  2. Каста — 4 альбома, 74 трека.
  3. Фараон — 7 альбомов, 95 треков.
  4. Моргенштерн — 3 альбома, 30 треков.

image

Интересно, что Фараон и Нойз имеют практически одинаковое количество альбомов (семь и восемь соответственно), но, как видно из графика, качество альбомов сильно отличается как по количеству песен, так и по насыщенности словарного запаса (57962 vs 24184).

Для того, чтобы минимизировать эту разницу и сделать сравнение более корректным и правильным, было подсчитано сколько в среднем слов использует тот или иной артист в одной своей песне:

  1. Noize Mc — 362 слова.
  2. Каста — 388 слов.
  3. Фараон — 254 слова.
  4. Моргенштерн — 273 слова

Понятно, что такое сравнение является условным и довольно приблизительным, однако цифры говорят сами за себя.

А так выглядит топ 10 слов у каждого из артистов и количество упоминаний этих слов:

image

image

Как и следовало ожидать, без обработки «топ-словами» являются предлоги, местоимения и союзы, которые не отражают никаких результатов и не несут особой смысловой нагрузки. Поэтому на данном этапе ничего интересного и неожиданного не произошло.

Следующим этапом была обработка и подготовка текстов для анализа. Процесс стеммизации был произведён с помощью программы mystem от Yandex в Python, которая доступна для каждого. Данный шаг был проделан для того, чтобы понять сколько уникальных слов используют артисты и насколько широко они задействуют русский язык в своих текстах. Ведь ошибкой было бы посчитать одно и тоже слово в разных падежах несколько раз. Это показывает вариативность и способность певца склонять, а не широту его словарного запаса.

Также для того, чтобы получить более репрезентативный результат необходимо избавиться от стоп-слов, которые не несут эмоциональной и смысловой нагрузки (предлоги, местоимения, частицы и др.). К сожалению, в R пакетах нету хороших библиотек где бы содержались стоп-слова для русского языка. Хочу обратить ваше внимание на то, что автор сам должен определять является то или иное слово стоп-словом и нужно ли его удалять. Всегда внимательно просматривайте данного рода словари, чтобы не отсеять нужное и полезное для вас слово. Пакет «stopwords» поддерживает довольно много языков, но я предпочёл использовать слова с внешнего ресурса со своей доработкой.

После обработки


Как видно из графика количество слов значительно уменьшилось после стемминга и удаления стоп-слов. Это не удивительно учитывая, что почти все первоначальные самые популярные слова попали в стоп.

image

В целом, количество слов, которые остались после стемминга и удаления стоп-слов, в процентном соотношении к первоначальному количеству практически равны у всех. Стоит отметить, что равны и в группах. В «старой школе» это 55-58%, в «новой» 46-50%.
Очень важная и интересная информация — это количество уникальных слов у каждого из артистов. У Нойза это 8891 слово, у Касты 5307, у Фараона 3899 и у Моргенштерна 1242. Кто хочет немного расширить свой словарный запас, но не хочет читать книги, может слушать Noize Mc и Касту.

Конечно, многим интересно какие слова лидируют теперь, после обработки. Представляю графики с топ 10 слов для каждого исполнителя:

image

image

Наверняка многим из читающих бросились в глаза слова со звёздочками. У Фараона и Моргенштерна действительно в текстах очень много ненормативной лексики, которая, по моему личному мнению, довольно негативно сказывается на полноценной структуре текста и его восприятии. У этих двух исполнителей одно и тоже слово занимает вторую позицию. Слово, которое прекрасно демонстрирует дух и культуру их музыки. Чуть позже, я наглядно продемонстрирую какой эмоциональный оттенок лидирует в текстах исполнителей.

Общие слова. Сравнение слов


Чтобы сделать информацию более наглядной, я поместил все слова исполнителей на одном графике используя для этого функцию «comparison.cloud» из пакета «wordcloud», так их легче сравнивать и воспринимать (и опять мы можем видеть как выделяются маты). Показывать слова с помощью bar plots может быть довольно проблематично, так как при большем их количестве требуется много места. Также хорошей функцией из одноименного пакета является «wordcloud2»: при наведении на слово появляется окно, которое показывает частоту его использования.

image

Так как артисты для написания своих песен используют один язык, будет интересно посмотреть, без разделения на исполнителей, какие слова они чаще всего употребляют. Для данного графика была использована функция commonality.cloud из пакета «wordcloud». Размер шрифта соответствует частоте упоминаний слова в текстах.

image

Сентиментальный анализ текста


У каждого фильма, книги или песни есть своё настроение, которое передаётся зрителям или слушателям и воздействует на них. Интересно увидеть какое настроение транслируют своим слушателям исполнители старой и новой школы. Узнать это можно проанализировав, слова из какой категории: «Негативные», «Позитивные», «Нейтральные», преобладают в песнях музыкантов. Как и ожидалось, для русского языка не имеется довольно качественного словаря с сентиментальным анализом слов для R (если кто-то знает такой, просьба поделиться). Поэтому пришлось использовать внешний со своим апгрейдом (ссылка на словарь в конце текста).

Не все слова имели соответствия в словаре, что конечно немножечко грустно, с английским языком таких проблем практически не возникает. Поэтому я решил показать эмоциональную окраску наиболее часто повторяющихся слов. Именно эти слова слушатель чаще всего слышит, и именно они оказывают на него наиболее сильное воздействие и определяют восприятие всей песни. В целом, если читатель хоть немного знаком с творчеством всех авторов, то он вряд ли удивится. Ну а если для кого-то анализируемые имена в новинку, то please welcome, знакомьтесь с их творчеством. Ниже вы можете увидеть графики. Для всех артистов показаны наиболее часто используемые слова.

Моргенштерн. Частота повторения слова более 10 раз. Довольно сильно выделяется обильное количество красных столбцов, а если разобраться что это за слова, то становится вдвойне печально от того, какой посыл этот исполнитель несет своей аудитории.

image

Фараон. Лексикон также оставляет желать лучшего. Частота более 20 раз.

image

Далее время для старожилов российской рэп сцены. Те, за кого действительно не стыдно, и можно рекомендовать для прослушивания.

Каста. Яркое преобладание слов с позитивным оттенком. Да и негативные слова не шокируют своей безнравственностью. Частота >= 25

image

Ну и напоследок, мастер рифмы и слова Noize Mc (частота >= 30).

image

Обилие негативно окрашенной лексики, которую используют в своих песнях Моргенштерн и Фараон, сказывается на восприятии их песен и на том настроении, которое они транслируют. Сложно получать приятные эмоции от музыки, когда она изо всех сил навязывает тебе обратное.
Так как используемый словарь с сентиментальным разбором содержит в себе далеко не все слова, трудно сделать стопроцентный и уверенный вывод о настроении песен у артистов, так как многое зависит также и от контекста. Однако, я покажу вам сколько и каких слов используют артисты (из того, что удалось присоединить).

image

Очевидно, что большинство слов у всех артистов имеют нейтральный оттенок, который практически никак не влияет на слушателя. Но, что интересно, Фараон и Моргенштерн используют больше слов с негативным оттенком чем с позитивным. И это, несмотря на неполноценность словаря и отсутствие там множества нецензурных слов и их вариаций (словарь содержит 28248 слов и часть из них мне пришлось добавлять вручную).

image

У Касты и Нойз Мс также лидируют нейтральные слова, но на втором месте находятся позитивные, которые не вызывают у нас отрицательных эмоций.

Да, несомненно, влияние контекста в данном виде анализа я оценить не могу и, например, слово «люблю» может быть использовано с частицей «не» и иметь негативную окраску. Но согласитесь, фраза “Я тебя не люблю” является более приятной, чем фраза «Я тебя ненавижу». И негатив этой фразы не исправит даже частица «не». Мы все равно будем слышать только слово «Ненавижу”.

Музыкальный вкус дело индивидуальное и каждый сам решает, что ему слушать. Но взгляните еще раз на графики и подумайте, чем вы хотите наполнить свои будни. Музыка сопровождает нас везде и часто очень сильно влияет на наше настроение, так зачем осознанно каждый день делать его хуже?

А вообще эта статья еще про то, что программирование может быть интересным и применяться в различных сферах. Оно может показывать уже знакомую информацию под новым углом, заставлять задуматься над тем, что казалось очевидным или незначительным. Только от вас зависит, что будет скрываться за строками кода и что интересное они расскажут.

Учите языки программирования, развивайтесь и слушайте качественную музыку на написание которой уходит более семи дней онлайн времени на ютубе. Для тех кто не в курсе, альбом Моргенштерна «Легендарная Пыль» записывался 6 дней во время онлайн трансляций на ютубе и в итоге стал самым успешным в карьере Моргенштерна, набрав ВКонтакте миллион прослушиваний за первые полчаса релиза и пять миллионов прослушиваний за одиннадцать часов. За первые два дня после релиза альбом прослушали ВКонтакте более 21 миллиона раз, что является рекордом для социальной сети.

Список используемой литературы:

1. ru.wikipedia.org/wiki/Noize_MC
2. ru.wikipedia.org/wiki/Pharaoh
3. ru.wikipedia.org/wiki/Каста_(группа)
4. ru.wikipedia.org/wiki/Моргенштерн_(музыкант)
5. github.com/stopwords-iso/stopwords-ru/blob/master/stopwords-ru.txt (стоп-слова)
6. github.com/dkulagin/kartaslov/tree/master/dataset/emo_dict (словарь сентиментов).
Лицензия: creativecommons.org/licenses/by-nc-sa/4.0
7. ru.wikipedia.org/wiki/Легендарная_пыль
AdBlock похитил этот баннер, но баннеры не зубы — отрастут

Подробнее
Реклама

Комментарии 47

    +14
    Математическое обоснование того что новое поколение исполнителей сильно с «душком».
    За статью спасибо, очень интересно.
      +1

      Про двух из разобранных исполнителей я слышу впервые (и беглый гугл говорит, что я об этом не сильно пожалею), но возможно, если отсечь творчество всех исполнителей одним возрастом (например самым молодым из предложенных), то разница по критерию ненормативной лексики несколько сгладится =)

      +4
      давать, хотеть, тырить

      приоритеты :)
        +5

        Эх, Дядю Женю бы в этот анализ добавить… Но это уже прям андерграунд старой школы. Не в самых широких кругах популярен. У него были тексты, в которых все слова начинались на одну букву.

          +5
          У него была не менее интересная фишка — никто долгое время не знал, что он картавит, потому что… он не употреблял в текстах слова, содержащие букву «р»!
            0

            Я сначала тоже хотел упомянуть этот факт, но засомневался в его истинности. И не зря. Таки сегодня послушал несколько треков и могу опровергнуть. Нет-нет, да проскользнёт. Например, трек "без правил".

              0

              Ну он же там картавит. Посмотри его видео с фестиваля 8 официального.

          +1
          Хорошо бы провести подсчёт наиболее часто используемых слов в разных песнях, то есть без учёта повтора слов в одной песне.
          А то например у Моргенштерна в топ попало слово «дед», и я предполагаю, что это из-за трека «Я съел деда» (не спрашивайте, откуда я это знаю), где эта фраза просто 100500 раз повторяется.
          Аналогично у Нойза слова «рок» и «кал» явно попали в облако из-за трека «Рок — это кал».

          П.с. было бы любопытно провести анализ словарного запаса Оксимирона и сравнить его с Нойзом.
            +5
            Тоже сначала думал показать кол-во слов в разных песнях, откинуть экстремальные случаи(вот как к примеру слово «дед» у Моргенштерна) и потом уже показать наиболее часто повторяющиеся слова. Но потом решил, что некоторые люди заслушивают до «дыр» единичные песни, и у кого-то засядет в голове «дед», а у кого-то связка слов «Рок — это кал», поэтому не стал выбрасывать.

            А на счёт Оксимирона, хотел его в этом же анализе разобрать, но они с Нойзом явно 2 лидера по текстам, и сильно бы выделялись из всех. Даже не так. Каста, Нойз и Окси с явным превосходством затмили бы Фараона и Моргенштерна.

            А вот сравнить отдельно Оксимирона и Нойза довольно интересно. Наверное этим и займусь

              +2
              С удовольствием бы ознакомился с таким сравнением.
                +3
                Постараюсь в скором времени подготовить
                0

                А Дядю Женю в таком случае не добавите?

                  +3
                  Дядю Женю бонусом сделаю
                  +2
                  Я, конечно, страшный зануда, но у людей есть неприятная особенность — они склонны предпочитать факты, подтверждающие их точку зрения и отвергать опровергающие. Поэтому более объективным было бы не сравнивать две произвольно выбраные пары исполнителей, а, например, исследовать лидеров чартов за эти 20 лет
                    +1
                    Полностью с Вами согласен и разделяю существование данной особенности. Только я лишь хотел показать, как отличается музыка\тексты кумиров моей молодости (Каста немного раньше, и чуть позже Нойз Мс) с кумирами нынешней молодёжи (довольно хорошо знаком с популярностью Фараона и Моргенштерна в 2020). Плюс к этому, хотел представить возможности R и Text Mining, так как после прогугливания не нашёл сравнения русской музыкальной сцены используя данные инструменты. И конечно, каждый вправе решать сам, что ему слушать. Я лишь хотел показать явные отличия и ни в коем случае не хотел навязывать свои предпочтения, лишь сделал выводы опираясь на полученных результатах.
                      0

                      Возможно еще, что вы (не сознательно, конечно) выбрали такую метрику, сравнение по которой подтверждает вашу точку зрения.


                      Допустим, мне лично кажется не совсем корректным оценивать эмоциональную окраску текста целой песни по отдельным словами. Нет ли возможности оценить окраску всего текста? Или предложений/абзацев?

                    0

                    ATL бы туда добавить, к Нойзу с Мироном. У него интересно, что по него по негативу/позитиву получится; лексика и так понятно, сильно выделяется на общем фоне.

                      0
                      да, не нужно было учитывать повторяющиейся слова в песне. То же якобы часто встречающееся у Нойза слово «орфей
                      +1

                      Аналогично со словом «Тырим» у Касты — в одной-единственной песне они столько раз его натараторили, что оно всё их творчество перевесило :)

                      +2
                      Сравните Пушкина с Лермонтовым. Тоже интересно, что получится.
                        +1
                        Уже давно, не раз, и не только их, а очень многих поэтов вместе. Вот очень занимательная лекция на эту тему.
                        0
                        Видел еще у какого-то западного автора анализ повторяемости слов в тексте — он проверял это через процент архивирования текста, и пришел к выводу, что тексты стали более однообразные и примитивные.
                          0
                          в качестве более позитивных исполнителей для сравнения, предлагаю KRec
                            0

                            Интересно было бы посмотреть на количество уникальных слов относительно общего количества слов в треках, или относительно количества треков исполнителя.


                            Абсолютное значение количества уникальных слов становится немного менее показательным, если количество треков у исполнителей отличается в два раза.


                            Спасибо за статью

                              +1

                              Раз разговор о лексическом разнообразии современных русскоязычных rap исполнителей, было бы интересно увидеть ATL.

                                +2
                                кровосток не хватает
                                  0
                                  Тема заинтересовала. Скачал Mystem с yandex. Мануал прочёл. Не понял, как получить список наиболее употребляемых слов с сортировкой по убыванию.
                                    0
                                    Mystem нужен для того, чтобы найти основы слов для заданных исходных. На пример, имеем слова: «красивый, красивая, красивейший, красивее» — исходным словом для них является «красивый». Процесс, «стемминг», нужен именно для этого. И программа mystem помогает это сделать. Ведь не хотелось считать несколько раз вариативность на пример, слова «красивый». Целью было найти и показать уникальные слова, которые использовали артисты. А весь анализ был сделан в R. Это довольно длительный процесс, который кроме стемминга включает еще несколько этапов.
                                      0
                                      Нашёл istio.com
                                      Интересно! Если Вы сделаете сервис с анализом, что показали в статье, он будет востребован!
                                      $lyrics-get <author.name> ∥ <author.pseudo> out.text
                                      $lyrics-analyse out.text out.html
                                      Или онлайн-сервис, который будет выдавать результаты анализа текстов по автору… О, я точно adblock/umatrix включать не буду :)
                                    +1

                                    Бро, это просто гениально. Так проанализировать и показать факты на блюдечке, сделав их очевидными — это нечто. Спасибо!

                                      +2
                                      Спасибо, очень приятно слышать, что понравилось. На днях займусь анализом двух словесных гениев — Нойза и Оксимирона, с бонусом в виде Дяди Жени.
                                      0

                                      Интересный обзор у вас получился! Хотелось бы добавить, что у "Касты" нет альбома под названием "Четырёхглавый Орёл". Посмотрите повнимательнее на название их предпоследнего альбома. Спасибо за статью!

                                        0
                                        Спасибо за отзыв и за ошибку. Уже исправил
                                        +1
                                        1. Конкретно про упомянутых исполнителей этот текст что-то сообщает, но про старую/новую школы так, чтобы их можно было сравнивать — нет. Потому что старая школа — это не только Каста и Нойз, но также Децл (как думаете, какой у него был словарный запас?), Гуф (напомню строку «я на седьмом этаже, это как шестой, но на один повыше») и так далее вплоть до группы АК-47. Вот для примера припев хита старой школы:

                                        «Хули мусора, хули мусора, хули?
                                        Едем так, как ехали, даже в хуй не дули
                                        Хули, ну, допустим, ремень не пристегнули
                                        Я кругом тонирован — значит, всё в ажуре»

                                        Боюсь, если бы старую школу мы измерили по этому, то Фараон на этом фоне внезапно оказался бы титаном слова.

                                        В общем, вы взяли из старой школы тех, кто нравится лично вам, но это нерепрезентативная выборка.

                                        А те, кто на пике сегодня, тоже ощутимо различаются — у ATL тексты совершенно не про сук, и это не мешает ему собирать в Москве больше 5000 зрителей.

                                        2. Если вам лично не нравятся песни, где слов мало и они плохие — это ваше полное право. Но когда пытаются сделать какие-то глобальные выводы для всех, хочется напомнить, что человечество всё это уже проходило больше 40 лет назад с панком. Там тоже говорили, что музыка испортилась, потому что слов мало и они плохие. А теперь Sex Pistols и The Clash включают в списки лучших рок-групп наряду с Pink Floyd, у которых много умных слов. Человечество в целом сошлось на том, что музыка может брать как умными текстами и выстроенным звуком, так и совершенно другими вещами — например, сырым драйвом, которому умные слова не помогут, а помешают.

                                        Я не говорю, что конкретно Фараона когда-то включат в список лучших (вряд ли). Но если делать выводы «лучше/хуже» по количеству слов, так можно дойти до того, что у Баха в «Хорошо темперированном клавире» слов вообще нет и поэтому он глупее Фараона. С точки зрения таланта это не говорит примерно ни о чём.
                                          0
                                          Постараюсь ответить по пунктам:

                                          1. Децл — рискну предположить, что у него довольно широкий словарный запас. Вы наверное перестали следить за его творчеством после альбома «Кто? ты». Советую для прослушивания, к примеру альбом «Неважно кто там у руля».

                                          2. Понятное дело, что Каста и Нойз Мс не определяют старую школу, есть множество других артистов, тот же упомянутый Вами Гуф и Витя Ак, но еще есть Лигалайз, Мастер Шеff, Баста, Кровосток и тд. Я и не пытался доказать кому-то и навязать своё мнение, что артисты из старой школы более талантливые. Они есть, но естественно не все. И приведённый Вами пример «хита» явно это доказывает. В своей работе я подметил, что «Музыкальный вкус дело индивидуальное и каждый сам решает, что ему слушать». Будь то Нойз, Каста, Оксимирон с одной стороны, или Фараон, Моргенштерн, Gone.Fludd с другой(что не мешает конечно же слушать их всех и быть самым счастливым)

                                          3. ATL мне трудно отнести к новой, так как он в творчестве с 2006 года.

                                          4. Выборка нерепрезентативная, я с Вами полностью согласен. Но тут вопрос, кого взять для анализа, чтобы была репрезентативная? Ответ скорее всего будет — практически всех. У каждого свой почерк и стиль, есть много андрерграудной рэп музыки. И всегда будет кто-то, кто скажет, что выборка плоха, так как нету того или иного артиста.

                                          Количество слов явно не является предопределяющим звеном в качестве песен, ведь тогда у классики были бы большие проблемы в конкурентноспособности.

                                          5. И последнее, глобальной целью моей работы было показать, как можно применить text mining в довольно интересной теме, может кто-то сможет почерпнуть для себя что-то новое, и я буду несказанно этому рад.

                                          И спасибо за Ваш отзыв, надеюсь, что в целом, статья доставила Вам удовольствие при прочтении
                                            0
                                            1. Про Децла в контексте «старая/новая школа» логично рассматривать ранние тексты, потому что они стали суперхитами и определили хип-хоп своего времени, а поздние мало кто слушал. Строго говоря, речь даже не о лично его словарном запасе, потому что на первом альбоме тексты писали другие люди. Но именно эти тексты куча подростков знала наизусть.

                                            3. Тут мы упираемся в сложность чёткого определения. У вас в тексте про новую школу сказано «сейчас находятся на пике своей популярности и привлекают обширную и, в основном, молодую аудиторию» — и под такое определение ATL подходит: массовая популярность к нему пришла только в последние годы, и на его концертах вижу молодёжь. Но одновременно с этим он действительно другого поколения, да. По какому критерию правильнее делить — не знаю.

                                            4. Если бы речь шла о зарубежной музыке, я бы для репрезентативной картины посоветовал использовать хип-хоповый чарт Billboard: кого люди массовее слушали в каждый год, тех и анализировать. Но с русскоязычной сложнее, потому что у нас нет внятных чартов(

                                            5. Само по себе как применение text mining это интересно, да. Скажем так: я за то, чтобы такие данные собирать (и спасибо вам за них), но дальше после их сбора надо быть очень осторожным с выводами, потому что в числа очень легко вписать что-то, что в них захотелось увидеть :)
                                              0

                                              Категорически с Вами согласен на счёт последнего пункта) поэтому всегда стараюсь отдать для редактирования нескольким людям, дабы сгладили мои выводы)
                                              Спасибо ещё раз за отзыв.

                                                0
                                                Атл однозначно старая школа, он же давно стал известным, наряду со Стимом, Мироном, Нойзом ещё в 10 годах или даже раньше. Да даже в силу возраста, ему 31 год, ну не близок он молодёже по-настоящему. Децл это ещё более старая школа, поколений же много, но когда сравнивают, берут предыдущую
                                                  0
                                                  Я уж ссылался на определение из текста «сейчас находятся на пике своей популярности» — ну, могу ещё раз сослаться.

                                                  Какие площадки собирал ATL «в 10 годах или даже раньше», и какие — в последние годы? Насколько понимаю, массы узнали о нём после «Марабу» (2015). О Фараоне — после «Black Siemens» (2015).
                                            0
                                            А можно немного подробностей про сентиментальный анализ текста — каким пакетом делали, как распределяли на негатив/позитив?
                                              +1
                                              К сожалению в R нету грамотного словаря для сентиментального анализа для русского языка (для английского есть библиотеки с шикарными словарями). Поэтому пришлось пользоваться внешним со своим дополнением. Вот Вам ссылка на него, с полным описанием:
                                              github.com/dkulagin/kartaslov/tree/master/dataset/emo_dict
                                                0
                                                Благодарю, спасибо! Про отсуствия корпусов русского языка для R заметил, поэтому в своё время делал проект именно на Python.
                                                  0

                                                  А ваши исходники выложите?

                                                0
                                                Довольно показательное исследование!
                                                Хотя, вот по поводу исключения из анализа местоимений и союзов я бы не согласилась — смысловая и эмоциональная характеристика текста сильно зависит от того, что написано: «убивать» или «не убивать».
                                                Интересно, если бы исследование применить не только к произведениям рэп-исполнителей, но и текстам других музыкальных направлений?! Какие результаты получились бы? ))
                                                А при охвате таким исследованием ТОП-100 музыкальных произведений, как мне видится, можно вообще получить представление не только о музыкальных предпочтениях слушателей, но также об уровне их интеллектуально развития, в том числе о психических состояниях слушателей, а также получить довольно наглядное ранжирование социальных явлений/институтов (то есть получить картину, какие категории, например: «семья» / «одиночество», «мир»/ «война» и т.д. имеют приоритет в головах слушателей).
                                                Ох, я очень надеюсь, что Яндекс или SUP не проводят такого рода исследований уровня Big Data.
                                                  0
                                                  шансончик еще надо загнать в такой же анализатор
                                                    0

                                                    Спасибо, весьма любопытно.
                                                    Но как уже отмечалось, жаль выбрасывать местоимения, предлоги итп. Они же не виноваты, что самые частые.
                                                    Избежать этого можно, рассматривая относительную частотность исполнителя по сравнению с некоторой общей частотностью Н.
                                                    Т.е. для каждого слова С, которое встречается у исполнителя с частотой h(С), относительная частотность равна h(С)/Н(С). Она описывает, насколько данный исполнитель, предпочитает это слово по сравнению с усреднённый по некоторому объёму текстов.
                                                    В качестве Н можно взять частотность:
                                                    1 — общую для русского языка;
                                                    2 — литературных текстов;
                                                    3 — суммарную по всем исполнителям, участвующих в сравнении (при этом учитывая, что объёмы разные);
                                                    4 — некую взвешенную производную предыдущих трёх.

                                                      0
                                                      Как-то с числом слов не понятно, два графика, которые интересны, но не так, как число различных слов. Лучше это подчеркнуть, что вот тут словоформ всего с повторами, вот тут после фильтрации и удаления словоформ, вот тут уникальные, и лучше подписать графики, чтобы это было понятнее.

                                                      Ну и не надо давать эмоциональную окраску результатам эмоциональной окраски, все сами всё поймут, как и цензурить слова, вроде не институт благородных девиц, лучше больше данных.

                                                      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                      Самое читаемое