Новогодний датасет 2019: открытый тональный словарь русского языка
Обычно в преддверии Нового года мы обновляем наш датасет по Открытой семантике. В этом году было сделано много работы, но она не подошла к логическому завершению и мы продолжим её в следующем году. Сейчас же мы хотим рассказать о не менее важном открытом датасете, вызвавшим живой интерес на ряде лингвистических конференций этого года, как по стороны исследователей, так и со стороны представителей индустрии. Речь в посте пойдёт об открытом тональном словаре русского языка.
Зачем?
Тональность, или простыми словами хорошо/плохо — естественная характеристика слов. Естественная для человека и его восприятия, но не для понимания компьютером. Язык устроен таким образом, что в нём присутствует симметрия относительно полярности слов и отделить хорошие слова от плохих, не прибегая к внешней разметке, не представляется возможным. Собственно изначально задача создания тонального словаря возникла из потребности кластеризовать получаемые автоматически алгоритмом списки слов в соответствии с их полярностью.
Конечно, тональность является лишь одним из аспектов значения слова и реальное понимание сентимента требует полного семантического анализа, понимание ролей в конкретной ситуации и знание положения, занимаемого наблюдателем. Так, например, «снижение цены акций» для разных сторон может иметь различную тональность, а «издержки выросли» и «прибыль выросла» иметь разнонаправленную полярность, хотя в обоих словосочетаниях употребляется глагол расти, имеющий скорее положительную оценку (согласно нашему датасету).
Существует и довольно обширный спектр причин, по которым мы относим то или иное слово к конкретной тональности. Иногда это наши непосредственные ощущения — радость и тоска; иногда это качества человека — профессионализм и беспечность: а иногда такие понятия как образование или предпринимательство, связанные со сложными социальными институтами и дающие выгоду в долгосрочной перспективе. И оценка таких слов сильно связана с культурой и общественным договором. А, соответственно, может не иметь общепризнанной и универсальной оценки.
Тем не менее язык и коммуникация не могли бы существовать, если бы системы координат разных людей в рамках одной культуры не имели бы ничего общего между собой. А поэтому для достаточно больших групп слов их оценочная составляющая более-менее согласована.
Каким образом?
Существует два основных способа сбора большого объёма лингвистических данных — привлечение экспертов и опрос людей (или более современная версия последнего — краудсорсинг). Не будем повторяться об очевидных различиях этих подходов, а лучше уделим внимание тем из них, которые оказывают непосредственное влияние на свойства получаемого датасета.
Экспертная разметка подразумевает чёткую ориентацию на будущее применение, а соответственно оговаривает способ принятия решения в ситуации неоднозначности, диктуемый данным применением. Для конечного датасета это означает:
- фиксацию предметной области;
- чёткое определение позиции наблюдателя.
Так, если эксперт составляет тональный словарь для анализа новостей, ориентированных на массовую аудиторию, то он занимает позицию обобщённого читателя и принимает на себя негласные соглашения между СМИ и читателями. Скажем «понижение стоимости» в таких установках будет иметь положительную оценку, а «рост тарифов» — отрицательную (согласно датасету РуСентиЛекс-2017).
Краудсорсинг лишён возможности задания подобных рамок и вряд ли является оптимальным средством для решения узкоспециализированных прикладных задач. Но он позволяет захватить другой важный аспект оценки тональности — согласованность между отвечающими. Какие-то слова будут однозначно оценены как положительные или отрицательные; какие-то разделят оценку между нейтральным и полярным вариантами; а небольшая группа слов покажет выраженную рассогласованность оценок.
Распределение согласованности оценок
Слева на графике — максимальная согласованность оценок, справа — максимальная рассогласованность.
Также, в отличие от экспертной оценки, краудсорсинг позволяет получить непрерывное значение полярности, разграничивая строго положительные (отрицательные), скорее положительные (отрицательные) и нейтральные слова. Распределение по этим группам зависит, конечно же, от выбранных пороговых значений. Впрочем дискретизацию проводить совершенно необязательно — возможно для ряда применений непрерывное значение будет более удобным.
Распределение оценок
Структура датасета
Структура датасета довольно простая: это тональный словарь, ставящий в соответствие словам их оценку в диапазоне от -1 (предельная отрицательная оценка) до +1 (предельная положительная оценка). Для удобства указывается человекопонятный тег из набора «положительное», «нейтральное», «отрицательное» рассчитанный с использованием пороговых значений.
Примеры положительных, нейтральных и отрицательных слов из датасета
- положительные: надёжный, помириться, доброта, помилование, добросовестный, окрыляться, фотогеничный, прибыль, воспитанность, воссоединение, воодушевить, доверие, восторг, ребятушки, преобразиться, оздоровительный, новоселье, уют, вразумительный, учёность, волонтёрский;
- нейтральные: аббревиатура, причислить, прилеплять, туника, многогранник, касание, мебельный, житель, кликнуть, таять, словоупотребление, перешагнуть, автодорожный, ингредиент, сдуть, подчеркнуть, эмблема, ложиться, длиннорукий, семёрка, ничья;
- отрицательные: прогульщик, зажраться, проболтаться, заложник, жлоб, заносчивый, фальшивый, загрязнённость, завистник, придушить, замёрзнуть, протранжирить, жульнический, деградировать, зависимый, загрызть, простуда, придраться, напугаться, грабитель, неуч;
Дополнительно в данной версии датасета (есть ещё предыдущая, первая версия) приводятся сырые данные — процентное соотношение голосов, отданных за каждый из вариантов. Это позволяет применить пользовательские модели вычисления итоговой полярности и уровня согласованности разметки.
Прим. Представленная версия датасета покрывает наиболее узнаваемые слова РЯ (активный лексикон); словосочетания не размечались. При сравнении с другими словарями тональности мы обнаружили ряд слов, имеющихся в активном лексиконе, но не представленных в нашем наборе данных. Мы будем производить доразметку и планируем включить недостающие языковые единицы в течение следующего года.
Дальнейшие планы
Разметка сентимента — одна из частных задач в рамках исследования семантической системы языка. Как мы уже отмечали выше, полезность представленного набора данных напрямую зависит от возможности связать представленные в нём значения полярности с другой семантической информацией. С классами слов, например. Мы начали эту работу и планируем развивать её в дальнейшем.
Также важным направлением исследования является стремление понять причину окрашивания тех или иных слов, разведение слов, связанных с чувствами, эмоциями и непосредственной оценкой и тех слов, где описываемый ими концепт или ситуация сулят отложенную выгоду или потерю. А следовательно такие слова больше подвержены культурному и социальному влиянию.
Также планируется расширить разметку словосочетаниями, включая устойчивые выражения и фразеологизмы. Но здесь речь уже идёт о совсем других объёмах лексики, поэтому общая задача понять, как сентимент работает на более общем уровне (подробнее под спойлером).
Сентимент и семантика
При внимательном рассмотрении становится понятно, что язык оперирует компактным относительно количества слов и их сочетаний набором концептов, каждый из которых может выражаться более чем одним способом. Это наблюдение нашло подробное отражение в работах отечественных лингвистов и в созданной ими модели «Смысл — Текст».
Так например «снижение цен», «падение цен», «цены рухнули», «цены снизились» — это разные способы описать схожий процесс, но выраженный различными языковыми средствами. При этом в схожих контекстах можно встретить и другие концепты, имеющие количественное выражение — «падение уровня доверия», «рост уровня доходов» и т.д. В каждом случае достаточно понимать соответствие выше/ниже — хорошо/плохо (уровень знаний и мире) и какими лексическими средствами выражается движение в заданную сторону (уровень языка).
Так например «снижение цен», «падение цен», «цены рухнули», «цены снизились» — это разные способы описать схожий процесс, но выраженный различными языковыми средствами. При этом в схожих контекстах можно встретить и другие концепты, имеющие количественное выражение — «падение уровня доверия», «рост уровня доходов» и т.д. В каждом случае достаточно понимать соответствие выше/ниже — хорошо/плохо (уровень знаний и мире) и какими лексическими средствами выражается движение в заданную сторону (уровень языка).
Обратная связь и распространение датасета
Будем рады любой обратной связи в комментариях — от критики работы и выбранных нами подходов до ссылок на интересные исследования и статьи по теме.
Если у вас есть знакомые или коллеги, которым может быть интересен опубликованный датасет, перешлите им ссылку на статью или репозиторий, чтобы помочь в распространении открытых данных.
Ссылка на датасет и лицензия
Датасет: открытый тональный словарь русского языка
Объём датасета составляет 28197 слов.
Датасет распространяется по лицензии CC BY-NC-SA 4.0.