sismetanin 3 сен 2020 в 11:37

Анализ тональности в русскоязычных текстах, часть 3: вызовы и перспективы

14 мин

12K

Блог компании VKМашинное обучение*Социальные сети

Анализ тональности успешно применяется для социальных сетей, отзывов, новостей и даже учебников. На основе ключевых исследований для русского языка, описанных в предыдущей статье, здесь мы рассмотрим основные вызовы, с которыми сталкиваются исследователи, а также перспективные направления на будущее. В отличие от предыдущих работ я сосредоточился на прикладном применении, а не на самих подходах и их качестве классификации.

NB: Статья писалась для научного журнала, поэтому будет много ссылок на источники.

1. Текущие вызовы

На основе анализа исследовательских статей были выявлены десять общих проблем. В целом, исследователи обычно сталкиваются с многочисленными трудностями, включая доступ к репрезентативным историческим данным и к обучающим данным, а также включая аннотирование эмоций, исчерпывающее описание ограничений исследования и извлечение тем из текстов.

1.1. Доступ к репрезентативным историческим данным в анализируемых источниках

Исторические данные — например, публикации и обзоры, — собранные с помощью API источников или агрегирующих платформ, часто используются и анализируются в исследованиях тональности. Иногда разработчики API предоставляют только частичный доступ к опубликованным данным. Например, базовый API Twitter следует политике, согласно которой доступ ко всем открытым сообщениям предоставляет только исторический API Twitter. А что касается агрегирующих платформ, то даже если они заявляют, что у них есть полный доступ к данным конкретного источника, проверить это невозможно. Поэтому есть лишь два способа убедиться в репрезентативности данных для исследования:

Тщательно изучить описание API и выбрать опции, дающие полный доступ к историческим данным. В случае с агрегирующими платформами нужно убедиться, что они используют опции API для полного доступа к историческим данным.
Запросить прямой доступ к историческим данным выбранного источника. Например, через OK Data Science Lab можно запросить доступ к историческим данным Одноклассников [98].

1.2. Доступ к обучающим данным по интересующей теме

Хотя русский язык и является одним из самых распространённых в интернете, количество источников на нём значительно меньше, чем на английском, особенно в сфере анализа тональности. Хотя классификации эмоций в русскоязычных текстах посвящено немало исследований, но лишь авторы некоторых из них выложили свои наборы данных в открытый доступ. Если для темы исследования нельзя применить ни один из доступных наборов, тогда авторы вручную размечают обучающие наборы. Проанализировав литературные источники и научные работы [142], [173], я выявил и описал 14 публично доступных набора данных для анализа тональности русскоязычных текстов (см. Таблицу 2). Я рассматривал лишь те наборы, доступ к которым можно получить в соответствии с инструкциями, описанными в соответствующих научных работах или на официальных сайтах. В связи с этим в список не попали, к примеру, наборы ROMIP [174], [175], потому что через их официальный сайт получить доступ к данным не удалось.

Таблица 2. Русскоязычные наборы данных для анализа тональности.

Датасет	Описание	Аннотирование	Классы	Доступ
RuReviews [143]	Набор с примерами настроений из обзоров товаров категории «Женская одежда и аксессуары» в крупном российском интернет-магазине.	Автоматическое	3	Страница на GitHub
RuSentiment [142]	Открытый набор с примерами настроений из публикаций в соцсети ВКонтакте.	Ручное	5	Страница проекта
Russian Hotel Reviews Dataset [171]	Аспектный набор с примерами настроений из 50 329 русскоязычных обзоров отелей.	Автоматическое	5	Google Drive
RuSentRel [172]	Набор с аналитическими статьями с сайта ИноСМИ, в которых представлено авторское мнение об освещаемой теме и многочисленные ссылки, упоминаемые участниками описанных ситуаций.	Ручное	2	Страница на GitHub
LINIS Crowd [26]	Открытый набор с примерами настроений, собранный из социальных и политических статей на сайтах различных СМИ.	Ручное	5	Страница проекта
Twitter Sentiment for 15 European Languages [173]	Набор с примерами настроений, содержащий больше 1,6 млн Twitter-сообщений (их ID) на 15 языках, в том числе русском.	Ручное	3	Страница проекта
SemEval-2016 Task 5: Russian [49]	Открытый аспектный набор с примерами настроений, содержащий тексты, относящиеся к ресторанному делу. Основан на SentiRuEval-2015 [2017].	Ручное	3	Страница проекта
SentuRuEval-2016 [18]	Открытый аспектный набор с примерами настроений, содержащий результаты анализа тональности русскоязычных Twitter-сообщений о телекоммуникационных компаниях и банках.	Ручное	3	Страница проекта
SentuRuEval-2015 [17]	Открытый аспектный набор с примерами настроений, содержащий результаты анализа пользовательских обзоров ресторанов и автомобилей.	Ручное	4	Страница проекта
RuTweetCorp [141]	Крупнейший, автоматически аннотируемый, открытый корпус текстов с небольшим ручным фильтрованием. Собран автоматически из русскоязычного Twitter с помощью стратегии [144].	Автоматическое	3	Страница проекта
Kaggle Russian News Dataset	Открытый набор с примерами настроений из российских новостей.	не указано	3	Страница на Kaggle
Kaggle Sentiment Analysis Dataset	Набор с примерами настроений из российских новостей.	не указано	3	Страница на Kaggle
Kaggle IS161AIDAY	Набор с примерами настроений, опубликованный Alem Research.	не указано	3	Страница на Kaggle
Kaggle Russian_twitter_sentiment	Набор с примерами настроений из русскоязычных Twitter-сообщений.	не указано	2	Страница на Kaggle

1.3. Отсутствие тестовых данных для расчета метрик классификации при использовании сторонних систем анализа тональности.

Используя сторонние системы анализа, такие как SentiStrength [22], алгоритмы Медиалогии или POLYARNIK [107], авторы обычно не пишут о качестве классификации на анализируемых текстах, поэтому становится сложно проверить точность результатов исследования. Я предполагаю, что использование сторонних решений также связано с тем, что исследователи не аннотировали тестовые наборы текстов для вычисления метрик классификации. Однако кажется, что внедрение этого этапа значительно повысит научную ценность работы. Поэтому очень рекомендую авторам вручную аннотировать образцы целевых данных, чтобы измерять метрики классификации при анализе тональности.

1.4. Извлечение тем из текстов

Для извлечения тем в большинстве исследований используются методы тематического моделирования. Но если доля текстов, относящихся к интересующей теме, значительно ниже 1 %, тогда тематическое моделирование не позволит работать с извлечением темы [54]. Более того, тематическое моделирование демонстрирует низкую точность при анализе коротких текстов, особенно если они представляют собой повседневную речь [54]. Поэтому нужно разрабатывать более точные и менее зависящие от шума подходы.

1.5. Руководства по аннотированию тональности для ручной разметки.

Поскольку русскоязычные релевантные обучающие наборы по интересующей тематике не всегда доступны, исследователи обычно аннотируют тексты вручную. Без описания руководства и других подробностей процесса аннотации сложно проверить качество разметки для набора данных. Четкие и простые пошаговые инструкции крайне важны для получения высококачественных аннотаций как от сертифицированных лингвистов, так и от асессоров, не имеющих лингвистической подготовки [176]. Некоторые типы текстов особенно сложны для аннотирования тональности, например, эмоциональное состояние говорящего, нейтральное сообщение ценной информации, сарказм, насмешки и другие [162].

В качестве примера руководства по аннотированию настроений для русского языка в дальнейших исследованиях могут быть использованы руководства, разработанные при аннотации RuSentiment [142]. Если у вас нет сертифицированных лингвистов для аннотирования, тогда вы можете воспользоваться помощью асессоров из Яндекс.Толоки — это краудсорсинговая платформа для ручного аннотирования данных. Она уже использовалась в нескольких академических исследованиях русскоязычных текстов [177]—[180]. Также настоятельно рекомендуется публиковать соглашения между аннотаторами, например, каппу Фляйса (Fleiss' kappa) [181] или альфу Криппендорфа (Krippendorff's alpha) [182], а также другие подробности процесса аннотирования.

1.6 Исчерпывающее описание ограничений

В большинстве проанализированных работы приведены неполные списки ограничений. Кроме технических и методологических ограничений настоятельно рекомендуется описывать:

Уровень распространённости интернета в стране. Одно из критических ограничений, потому что определённые группы людей не будут охвачены исследованием. Согласно результатам опросов Omnibus GFK в декабре 2018-го [9], распространённость интернета в России достигла 75,4 %, им пользуется 90 млн россиян в возрасте от 16 лет. Использование интернета молодёжью (16—29 лет) и людьми среднего возраста (20—54 года) близко к уровню насыщения — 99 % и 88 % соответственно. Но несмотря на значительный рост распространённости, интернетом пользуется лишь 36 % людей старше 55 лет.
Репрезентативность аудитории источника данных. При анализе содержимого соцсетей одним из источников неопределённости является тот факт, что аудитория определённых сайтов может быть в целом нерепрезентативна с точки зрения общества [183]. Более того, разные соцсети могут иметь совершенно разную аудиторию. Однако нерепрезентативность по отношению к обществу ещё не означает, что к этим группам нельзя применять выводы обо всём обществе. Например, можно повысить веса информации о настроениях, собранной из нерепрезентативных возрастных групп анализируемой соцсети, таким образом математически смоделировав ситуацию, при которой аудитория соцсети более репрезентативна по отношению к населению страны.
Свобода СМИ. В России, как и в многих других странах, существуют ограничительные меры по распространению определённой информации. Поскольку негативные заявления могут содержать нападки с использованием личных данных, а также оскорбления и ненавистнические высказывания, они могут быть подвергнуты цензуре в соответствии с пользовательским соглашением соцсети и законодательства. Например, пропаганда, возбуждающая социальную, расовую, национальную или религиозную ненависть и вражду; реабилитация нацизма; богохульство; клевета, оскорбления, пропаганда наркотиков, пропаганда гомосексуализма, использование нецензурной лексики в СМИ; распространение информации о частной жизни человека без его согласия и прочее. Таким образом, ограничительные меры призваны уменьшить количество ярко выраженных негативных заявлений в сети и традиционных СМИ. Этот нюанс нужно явно описать в списке ограничений, особенно в исследованиях конфликтных ситуаций.
Цензура в интернете. Согласно рейтингу Freedom House за 2018-й [184], с точки зрения свободы в интернете Россия находится на 53 месте из 65. Начиная с 2012-го Роскомнадзор поддерживает централизованный чёрный список, который используется для цензурирования отдельных IP-адресов, доменных имён и URL. В апреле 2019-го Дума приняла закон об устойчивости интернета в России. Помимо прочих мер, закон предписывает обмениваться трафиком внутри страны только через шлюзы, которые одобрены властями и внесены в соответствующий реестр. Таким образом, регулирующие политики могут повлиять на количество доступных для исследования сайтов, что снизит разнообразие анализируемых точек зрения.

1.7. Межтематический анализ тональности.

Поскольку люди могут выражать свои мнения по огромному количеству тем, анализ всех этих мнений может потребовать большого количества ресурсов, потому что обучающие наборы должны быть аннотированы для каждой темы [186]. Отсутствие аннотированных коллекций текстов для обучения всетематических моделей анализа тональности приводит к снижению точности анализа. Согласно исследованию [187], у межтематического анализа есть три важные проблемы. Мнения, выраженные в контексте одной темы, могут иметь обратное значение в контексте другой темы. Вторая проблема связана с различиями между словарями эмоций для разных тем, которые нужно учитывать при анализе. И последнее — каждому токену в словаре эмоций разумно присвоить маркер силы эмоции.

1.8. Определение сарказма и иронии

Онлайн-общение часто содержит саркастические и иронические фразы [188], которые даже людям не всегда легко распознать, не то что алгоритмам обработки естественного языка. Пока что очень мало исследований [189] посвящено определению иронии и сарказма в русском языке. Поэтому для корректной обработки широкого диапазона мнений требуется разработать и применять больше подходов с автоматической классификацией сложных речевых приемов.

1.9. Определение ботов

Боты сильно влияют на различные аспекты соцсетей, особенно когда они составляют большую часть пользователей. Их могут использовать для разных вредоносных задач, связанных с общественным мнением. Например, для раздувания популярности знаменитостей или распространения фальшивой информации о политиках [190]. Как следствие, необходимо разрабатывать и применять в исследованиях тональности методы определения ботов.

1.10. Эффективность результатов анализа

По-прежнему существуют значительные разногласия по поводу эффективности измерения реакций посредством автоматического анализа данных в сети. Авторы некоторых исследований [191], [192] считают, что подходы с использованием соцсетей менее точны, чем традиционные исследования. Другие заявляют [193], что эти подходы демонстрируют более высокую производительность по сравнению с традиционными методами. Поэтому настоятельно рекомендуется по возможности сравнивать результаты исследования с результатами, полученными с помощью других методик.

2. Перспективные направления исследований

Проанализировав литературные источники, я выявил семь возможностей для будущих исследований.

В целом, в будущих исследованиях необходимо тщательно изучить представленные в этой статье подходы к мониторингу настроений, чтобы выявить потенциальную синергию между отдельными подходами для более полного анализа настроений, выраженных в различных текстовых источниках.

2.1 Обучение с переносом знаний языковых моделей

В большинстве работ применяются подходы на основе правил или простых методов машинного обучения. Только в двух исследованиях [69], [72] применялись нейросети. Однако недавние работы доказали, что обучение с переносом знаний от заранее обученных языковых моделей позволяет эффективно решать задачи классификации эмоций, уверенно добиваясь хороших результатов [43], [194]—[198].

Таким образом, использование тонко настроенных языковых моделей может существенно повысить качество анализа тональности, а следовательно, улучшить точность результатов мониторинга тональности. Начальное исследование было проведено в работе [199], авторы которого обучили shallow-and-wide свёрточную нейросеть с ELMo-эмбеддингами [42] и получили новые рекордные метрики классификации на наборе данных RuSentiment [142], превзойдя все прежние подходы на основе нейросетей. В качестве первого шага в этом направлении исследователи могли бы обучить и опубликовать исходные показатели переноса обучения для разных русскоязычных наборов текстов.

2.2. Анализ тональности многоязычных текстов

Россия — многонациональная страна, а следовательно и многоязычная. Поэтому разные люди и группы людей могут выражать свои мнения на разных языках. Лингвисты насчитывают в России более 150 языков, начиная с русского, на котором говорит 96,25 % населения, и заканчивая негидальским, на котором говорят несколько сотен человек в Приамурье. В нескольких исследованиях анализировались тексты на нескольких языках, что позволило авторам охватить более широкий набор источников и сравнить выражение мнений по одной теме на разных языках.

Для классификации эмоций в разных языках некоторые исследователи переводили все тексты на один язык и проводили моноязычный анализ тональности (например, [72]). Другие разрабатывали многоязычные модели классификации (например, [79]). В качестве развития последнего подхода исследователи могут использовать заранее обученные языковые модели, например, Bidirectional Encoder Representations из Transformers [43] и Multilingual Universal Sentence Encoder [198].

2.3. Извлечение из текстов общепредметных тем

В большинстве исследований, посвящённых тематическому моделированию, авторы выбирали только несколько тем для извлечения и будущего анализа. Однако этот подход не позволяет извлекать релевантные темы из больших наборов текста, например, когда доля текста, относящегося к интересующим темам, сильно меньше 1 % [54]. Более того, тематическое моделирование демонстрирует низкую точность анализа коротких текстов, особенно если это повседневная речь [54]. Задача извлечения тем может быть сужена не только до тематического моделирования, но и до задачи классификации текстов, если доступен обширный набор обучающих данных по извлечению общепредметных тем.

Создание такого набора данных представляется трудоемким и ресурсоемким процессом в случае базового подхода с аннотированием с помощью группы лингвистов или краудсорсинга. Однако некоторые соцсети предоставляют пользователям возможность указывать соответствующие теги для своих сообщений, например Reddit и Pikabu. Это означает, что пользователи таких социальных сетей берут на себя процесс аннотирования, следовательно, с дополнительной проверкой эти данные потенциально могут быть использованы для создания обучающего набора по извлечения из сообщений общепредметных тем.

2.4. Лайки и другие виды реакции на содержимое как опосредованный способ выражения эмоций

В большинстве исследований выражение мнений оценивалось только по содержимому публикаций. Однако лайки и другие виды реакций на публикации могут быть источником выражаемых читателями эмоций. Поэтому эту информацию можно учитывать при мониторинге тональности. В исследовании [200] была проведена предварительная работа по изучению связи между выставлением лайков и эмоциями по поводу публикации: исследователи изучили роль содержимого публикаций, связь между автором публикации и личностью пользователя. Основываясь на онлайн-исследовании, авторы утверждают, что публикациям с позитивными эмоциями лайки обычно ставят автоматически, без внимательного чтения. Также отмечено, что позитивность публикаций коррелирует с относительными и буквальными мотивами. В качестве дополнения к простой кнопке Like в некоторых социальных сетях была введена функциональность реагирования, позволяющая пользователям легко показывать свою эмоциональную реакцию на сообщение. Например, набор реакций в Facebook состоит из Like, Love, Wow, Haha, Angry и Sad.

В своем исследовании эмоциональных стимулов в реакционном поведении русскоязычных пользователей Facebook, Смолярова и др. [201] показывают, что реакция Love обычно используется прямолинейно, становясь альтернативой традиционному Like. И наоборот, публикация, вызывающая реакцию Wow, с определенной вероятностью может быть отмечена и другими эмоциями. Такие реакции, как Love, Haha и Wow, как правило, препятствуют желанию дополнительно взаимодействовать с публикациями посредством комментариев или кнопки «поделиться» [202]. Таким образом, потенциально значимым направлением исследований является связь между реакцией, настроением людей и настроением публикации, что может быть использовано в дальнейшем в мониторинге настроений.

2.5. Контекстуальная классификация эмоций

Эмоциональная реакция пользователя в тексте может сильно зависеть от контекста: один и тот же текст в одном контексте может выражать положительную тональность, а в другом — отрицательную [203]. Поэтому при анализе тональности бесед, например, ответов в комментариях, очень важно фиксировать и контекст беседы в дополнение к самим эмоциональным реакциям. Исследователям стоит уделить внимание контекстуальной классификации эмоций, когда они анализируют беседы.

2.6. Анализ содержимого менее исследованных источников

Значительная доля исследований оперирует данными из ВКонтакте, Twitter, LiveJournal и YouTube, хотя есть и другие популярные соцсети, которые можно использовать как источник данных, например, Одноклассники, Мой Мир и RuTube. Таким образом, исследователи могут уделить внимание Одноклассникам, потому что это вторая по размеру российская соцсеть, которой пользуется 42 % населения страны [98]. Платформа популярна среди пользователей от 35 лет, поэтому она может быть полезным источником мнений старших поколений. Более того, доступ к репрезентативной статистике Одноклассников можно получить через OK Data Science Lab, платформу, разработанной Одноклассниками для исследования.

2.7. Автоматический анализ содержимого соцсетей в качестве альтернативы традиционным опросам

В настоящее время результаты анализа онлайн-текстов не могут рассматриваться как полноценная альтернатива классическим подходам к оценке мнений на основе массовых опросов [204]. Для преодоления этого препятствия нужна теоретическая база по обобщению данных до уровня более крупных групп населения [205]. Традиционный массовый опрос предполагает ассоциирование мнений с социально-демографическими группами, а в соцсетях достоверная демографическая информация, как правило, недоступна. Для сравнения полученных результатов с традиционными опросами общественного мнения исследователи могут использовать геолокационную информацию, данные из профилей пользователей, а также системы прогнозирования пола и возраста [206]—[211].

2.8. Мониторинг индекса настроений русскоязычного cегмента соцсетей

В передовой работе 2010 года [212], Мислов и др. исследовали динамику настроений в течение дня, проанализировав с помощью подхода на основе словаря больше 300 млн Twitter-сообщений из США с привязкой к местности. Были отмечены некоторые интересные тенденции, например, уровень счастья выше всего ранним утром и поздним вечером. Выходные дни были намного счастливее, чем будни. Выявленные закономерности были подтверждены исследованием настроения бразильцев в Twitter [213], в котором применялась наивная байесова классификация настроений [30]. Дзоганг также исследовал циркадные закономерности в изменении настроения [214]. Если для многих языков такие исследования уже проводились, то русскоязычные тексты пока исследованы мало [93], [137]. Их можно исследовать шире и глубже с точки зрения объёма анализируемых данных, качества моделей классификации эмоций и методов вычисления социальных индексов.

Также некоторые исследования были посвящены разработке систем мониторинга эмоций в русскоязычных соцсетях, но авторы обычно не сообщают о результатах мониторинга. Например, исследователи из Университета ИТМО описали подход к оценке эмоциональной тональности общественного мнения [215], авторы работы [216] рассматривали общий принцип мониторинга соцсетей с помощью интеллектуального анализа текстовых сообщений, а в статье [148] авторы описали разработку ПО для мониторинга общественных настроений через русскоязычные Twitter-сообщения.

3. Заключение

Как мы видим, для русского языка уже есть хорошая база исследований, охватывающая широкий круг целей исследования и анализируемых источников. Однако также есть и ряд сложностей и перспективных направлений, которые следует учитывать при проведении новых исследований.

4. Источники

Полный список источников можно найти здесь.

Хабы: