Search
Write a publication
Pull to refresh

Opinion Mining (aka Sentiment Analysis)

Недавно прочитал на Хабре серию интересных публикаций про Data Mining и решил, что пора попытаться перейти из разряда читателей в разряд писателей. А написать я хочу о сфере смежной с Data Mining, но имеющей ряд специфических черт — opinion mining.

1. О названии. Единого и устоявшегося названия у этой области исследований пока нет. В научных кругах идёт черезполосица из opinion mining, sentiment classification, sentiment analysis, sentiment extraction и подобных. В русском языке переводов и /или аналогов я пока не встречал, поэтому использую, может быть, не самое изящное название (но зато понятное, надеюсь) — автоматический анализ оценочной составляющей, или просто — анализ оценочности.
2. Что это? Это попытка автоматическим образом найти и проанализировать тексты, содержащие мнения, высказывания, оценки по тому или иному поводу. Например, продавца бытовой техники может интересовать, что пишут его покупатели в своих блогах, ревью, отзывах о его товаре. Больше ругают или хвалят? Что привлекает, а что отталкивает и т.д. Политиков может интересовать мнение как простых людей, так и прессы об отдельных персоналиях, событиях и пр.
3. Зачем это надо? Ведь есть же маркетинг! Есть. И описываемая технология маркетингу не замена, а дополнение, скорее даже инструмент. Дело в том, что автоматический он-лайн анализ мнений позволяет производить мониторинг 24 часа в сутки и семь дней в неделю. Не нужно печатать опросники и приставать к покупателям с просьбой «ответить на пару вопросиков». Более того, продавец сможет узнать о наличии проблемы ещё до того, как проблема «ударит» по продажам! Ведь известно, что покупатели зачастую доверяют мнению таких же людей, как и они сами, больше, чем самой яркой рекламе. Вспомните, что вы читали, когда хотели купить что-то. Наверняка кроме профессиональных обзоров вы внимательно изучали и то, что писали «простые смертные», на что жаловались и чему радовались. Тут уместно упомянуть о том, что социальные сети сейчас становятся всё более «горячей» темой у маркетологов…
4. Как это работает? Мне известны три основные технологии, которые используются для анализа оценочности. Год назад общался с руководителем одной английской фирмы, которая занимается этим… вручную. Всё очень просто — они нанимают двух (именно двух) индусов с хорошим английским и те по восемь часов в день читают тексты на заданную тему, помечая положительные и отрицательные и делая «выжимки» из прочитанного. Плюсы такой технологии традиционны для всех «ручных» методов обработки данных, И основаны они на том, что человек понимает текст несравненно лучше, чем автомат, но и минусов тут хватает. Всякому ли человеку можно это доверить? Квалификация, «лояльность», усидчивость… Слишком много переменных. Да и не железный человек, много из него не выжмешь…
Другой способ обрабтки информации тоже без «двух индусов» работать не сможет :) Построен он на старом и добром machine learning. «Два индуса» вручную помечают тексты с положительным и отрицательным контентом (в самом общем случае), всё это дают машине на обучение и она уже готова работать хоть круглые сутки. Но и тут не всё хорошо. Дело в том, что анализ оценочности очень зависим от тематической области. Судите сами: слово «непредсказуемость» выражает положительную характеристику, например, фильма или книги, а вот если речь идёт о техническом устройстве, то здесь уже ничего хорошего нет. Так что индусов придётся привлекать каждый раз, когда в тематической области происходят какие-то подвижки.
Ну и последняя технология построена по принципу самообучаемости автомата. Компьютеру дают «след» в виде минимальной информации о том, что такое «хорошо» и что такое «плохо», а он уж сам пытается вычислить, что именно хорошо или плохо, например, для фотокамеры. Минусы тут очевидны — машине тоже свойственно ошибаться, но в отличие от человека, машина в своих ошибках крайне настойчива :) Но и плюсы в таком подходе есть. Если нужно обработать большое количество данных, да ещё и быстро (он-лайн), то альтернативы такому подходу просто нет. А ошибки могут нивелироваться за счёт большого объёма.

Вот пока всё. Вкратце, так сказать. Если интересно, буду рад продолжить.
Tags:
Hubs:
You can’t comment this publication because its author is not yet a full member of the community. You will be able to contact the author only after he or she has been invited by someone in the community. Until then, author’s username will be hidden by an alias.