Недавно прочитал на Хабре серию интересных публикаций про Data Mining и решил, что пора попытаться перейти из разряда читателей в разряд писателей. А написать я хочу о сфере смежной с Data Mining, но имеющей ряд специфических черт — opinion mining.
1. О названии. Единого и устоявшегося названия у этой области исследований пока нет. В научных кругах идёт черезполосица из opinion mining, sentiment classification, sentiment analysis, sentiment extraction и подобных. В русском языке переводов и /или аналогов я пока не встречал, поэтому использую, может быть, не самое изящное название (но зато понятное, надеюсь) — автоматический анализ оценочной составляющей, или просто — анализ оценочности.
2. Что это? Это попытка автоматическим образом найти и проанализировать тексты, содержащие мнения, высказывания, оценки по тому или иному поводу. Например, продавца бытовой техники может интересовать, что пишут его покупатели в своих блогах, ревью, отзывах о его товаре. Больше ругают или хвалят? Что привлекает, а что отталкивает и т.д. Политиков может интересовать мнение как простых людей, так и прессы об отдельных персоналиях, событиях и пр.
3. Зачем это надо? Ведь есть же маркетинг! Есть. И описываемая технология маркетингу не замена, а дополнение, скорее даже инструмент. Дело в том, что автоматический он-лайн анализ мнений позволяет производить мониторинг 24 часа в сутки и семь дней в неделю. Не нужно печатать опросники и приставать к покупателям с просьбой «ответить на пару вопросиков». Более того, продавец сможет узнать о наличии проблемы ещё до того, как проблема «ударит» по продажам! Ведь известно, что покупатели зачастую доверяют мнению таких же людей, как и они сами, больше, чем самой яркой рекламе. Вспомните, что вы читали, когда хотели купить что-то. Наверняка кроме профессиональных обзоров вы внимательно изучали и то, что писали «простые смертные», на что жаловались и чему радовались. Тут уместно упомянуть о том, что социальные сети сейчас становятся всё более «горячей» темой у маркетологов…
4. Как это работает? Мне известны три основные технологии, которые используются для анализа оценочности. Год назад общался с руководителем одной английской фирмы, которая занимается этим… вручную. Всё очень просто — они нанимают двух (именно двух) индусов с хорошим английским и те по восемь часов в день читают тексты на заданную тему, помечая положительные и отрицательные и делая «выжимки» из прочитанного. Плюсы такой технологии традиционны для всех «ручных» методов обработки данных, И основаны они на том, что человек понимает текст несравненно лучше, чем автомат, но и минусов тут хватает. Всякому ли человеку можно это доверить? Квалификация, «лояльность», усидчивость… Слишком много переменных. Да и не железный человек, много из него не выжмешь…
Другой способ обрабтки информации тоже без «двух индусов» работать не сможет :) Построен он на старом и добром machine learning. «Два индуса» вручную помечают тексты с положительным и отрицательным контентом (в самом общем случае), всё это дают машине на обучение и она уже готова работать хоть круглые сутки. Но и тут не всё хорошо. Дело в том, что анализ оценочности очень зависим от тематической области. Судите сами: слово «непредсказуемость» выражает положительную характеристику, например, фильма или книги, а вот если речь идёт о техническом устройстве, то здесь уже ничего хорошего нет. Так что индусов придётся привлекать каждый раз, когда в тематической области происходят какие-то подвижки.
Ну и последняя технология построена по принципу самообучаемости автомата. Компьютеру дают «след» в виде минимальной информации о том, что такое «хорошо» и что такое «плохо», а он уж сам пытается вычислить, что именно хорошо или плохо, например, для фотокамеры. Минусы тут очевидны — машине тоже свойственно ошибаться, но в отличие от человека, машина в своих ошибках крайне настойчива :) Но и плюсы в таком подходе есть. Если нужно обработать большое количество данных, да ещё и быстро (он-лайн), то альтернативы такому подходу просто нет. А ошибки могут нивелироваться за счёт большого объёма.
Вот пока всё. Вкратце, так сказать. Если интересно, буду рад продолжить.
1. О названии. Единого и устоявшегося названия у этой области исследований пока нет. В научных кругах идёт черезполосица из opinion mining, sentiment classification, sentiment analysis, sentiment extraction и подобных. В русском языке переводов и /или аналогов я пока не встречал, поэтому использую, может быть, не самое изящное название (но зато понятное, надеюсь) — автоматический анализ оценочной составляющей, или просто — анализ оценочности.
2. Что это? Это попытка автоматическим образом найти и проанализировать тексты, содержащие мнения, высказывания, оценки по тому или иному поводу. Например, продавца бытовой техники может интересовать, что пишут его покупатели в своих блогах, ревью, отзывах о его товаре. Больше ругают или хвалят? Что привлекает, а что отталкивает и т.д. Политиков может интересовать мнение как простых людей, так и прессы об отдельных персоналиях, событиях и пр.
3. Зачем это надо? Ведь есть же маркетинг! Есть. И описываемая технология маркетингу не замена, а дополнение, скорее даже инструмент. Дело в том, что автоматический он-лайн анализ мнений позволяет производить мониторинг 24 часа в сутки и семь дней в неделю. Не нужно печатать опросники и приставать к покупателям с просьбой «ответить на пару вопросиков». Более того, продавец сможет узнать о наличии проблемы ещё до того, как проблема «ударит» по продажам! Ведь известно, что покупатели зачастую доверяют мнению таких же людей, как и они сами, больше, чем самой яркой рекламе. Вспомните, что вы читали, когда хотели купить что-то. Наверняка кроме профессиональных обзоров вы внимательно изучали и то, что писали «простые смертные», на что жаловались и чему радовались. Тут уместно упомянуть о том, что социальные сети сейчас становятся всё более «горячей» темой у маркетологов…
4. Как это работает? Мне известны три основные технологии, которые используются для анализа оценочности. Год назад общался с руководителем одной английской фирмы, которая занимается этим… вручную. Всё очень просто — они нанимают двух (именно двух) индусов с хорошим английским и те по восемь часов в день читают тексты на заданную тему, помечая положительные и отрицательные и делая «выжимки» из прочитанного. Плюсы такой технологии традиционны для всех «ручных» методов обработки данных, И основаны они на том, что человек понимает текст несравненно лучше, чем автомат, но и минусов тут хватает. Всякому ли человеку можно это доверить? Квалификация, «лояльность», усидчивость… Слишком много переменных. Да и не железный человек, много из него не выжмешь…
Другой способ обрабтки информации тоже без «двух индусов» работать не сможет :) Построен он на старом и добром machine learning. «Два индуса» вручную помечают тексты с положительным и отрицательным контентом (в самом общем случае), всё это дают машине на обучение и она уже готова работать хоть круглые сутки. Но и тут не всё хорошо. Дело в том, что анализ оценочности очень зависим от тематической области. Судите сами: слово «непредсказуемость» выражает положительную характеристику, например, фильма или книги, а вот если речь идёт о техническом устройстве, то здесь уже ничего хорошего нет. Так что индусов придётся привлекать каждый раз, когда в тематической области происходят какие-то подвижки.
Ну и последняя технология построена по принципу самообучаемости автомата. Компьютеру дают «след» в виде минимальной информации о том, что такое «хорошо» и что такое «плохо», а он уж сам пытается вычислить, что именно хорошо или плохо, например, для фотокамеры. Минусы тут очевидны — машине тоже свойственно ошибаться, но в отличие от человека, машина в своих ошибках крайне настойчива :) Но и плюсы в таком подходе есть. Если нужно обработать большое количество данных, да ещё и быстро (он-лайн), то альтернативы такому подходу просто нет. А ошибки могут нивелироваться за счёт большого объёма.
Вот пока всё. Вкратце, так сказать. Если интересно, буду рад продолжить.