Как стать автором
Обновить

Анализ тональности в русскоязычных текстах, часть 2: основные исследования

Время на прочтение38 мин
Количество просмотров8.1K
Всего голосов 26: ↑25 и ↓1+24
Комментарии3

Комментарии 3

Отличный обзор, спасибо!
К теме следующей статьи — на мой взгляд основная сложность в установлении тональности текстов практически любой тематики, которая сложнее отзывов на товары и фильмы — это низкая степень согласия кодировщиков между со собой. В статье Measuring the Reliability of Hate Speech Annotations показано, что альфа-Криппендорфа в ответе на вопрос содержит ли текст язык вражды, не превышает 0.29 при минимальном рекомендуемом значении в 0.66.

Для более-менее сносной классификации таких текстов необходимо 1) выделять разные аспекты тональности, 2) делать синтаксический парсинг (для русского языка подойдёт SyntaxNet, например) и определять тональность на уровне субъектов и объектов в отдельных предложениях (или нескольких предложений).
Спасибо!
Да, проблема с низким уровнем inter-rater agreement однозначно есть, и к ее решению можно подходить разными способами. Один из них – создание четких и пошагово расписанных гайдлайнов для аннотации тестов, которые особо важны при разметке силами асессоров без лингвистической подготовки. В заключительной статье есть раздал про это.
А почему одноклассников нет?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий