RubikS 31 авг 2016 в 15:14

iKnow Review Analyzer (iKRA)

4 мин

12K

Блог компании InterSystemsData Mining * Программирование *

Intro

С помощью технологии InterSystems iKnow мы сделали систему оценки отзывов под названием iKnow Reviews Analyzer (iKRA). О прототипе проекта можно прочитать здесь. iKRA анализирует текстовые отзывы пользователей, автоматически выставляя численную оценку предмету исследования. Эти функции могут быть очень кстати, например, на сайтах онлайн-продаж, тематических форумах или сборниках медиа контента. Другими словами, везде, где идет обсуждение сообществом каких-либо вещей.

Что делает решение?

iKnow Reviews Analyzer выполняет анализ любой предметной области, будь то сфера онлайн-продаж бытовой техники или же бронирование туристических отелей в жарких странах. Для получения результатов необходимо пройти следующие ключевые шаги:

собрать отзывы в интересующей нас предметной области;
создать словари – базу слов для расчета;
создать область для загрузки и анализа данных;
запустить модель на расчет;
попить кофе / подождать;
посмотреть результаты.

Пример использования

Теперь как это выглядит на практике… В качестве примера будем анализировать отзывы по смартфонам. Отберем пять производителей:

Apple;
HTC;
LG;
Samsung;
Sony.

Допустим, что у каждого из них нас интересует по две модели смартфонов. Для каждой выбранной модели загрузим по 50 отзывов – в итоге 500. Комментарии возьмем с Яндекс.Маркет:

Каждый из отзывов разместим в отдельном файле и для удобства используем следующую схему расположения файлов (Рисунок 1):

Рисунок 1. Иерархия расположения файлов

В скобках приведена общая оценка смартфона, которую поставил пользователь при написании отзыва. Она заносятся в метаданные и используются впоследствии для оптимизации алгоритма расчета. Исходные отзывы находятся здесь.

Для проведения анализа необходимо создать домен iKnow – хранилище неструктурированных данных. Подробно останавливаться на этом не будем, так как данный вопрос подробно описан здесь.

Когда домен создан и заполнен отзывами, приступим к анализу его содержимого. При выборе смартфона для меня являются критичными следующие параметры:

производительность;
качество связи;
комфортабельность/удобство.

Для простоты дальнейшего повествования введу следующие понятия:

категория – параметр, подлежащий оценке;
функциональный (ф) маркер – термин, который характеризует оцениваемый параметр/категорию;
функциональный словарь – множество ф-Маркеров;
эмоциональный (э) маркер – слово отражающее отношение автора к описываемому предмету;
эмоциональный словарь – множество э-Маркеров.

На основе выбранных характеристик составляем функциональный словарь, где для каждой из указанных категорий отбираем ф-Маркеры – определяющие слова. Например, для категории «производительность» это могут быть: «быстродействие», «процессор», «память», «скорость», «ядро» и так далее. Все ф-Маркеры заносятся в специальный файл. На Рисунке 2 представлен пример категории «Perfomance»/«Производительность»:

Рисунок 2. ф-Маркеры

Далее составляем эмоциональный словарь, наполняя его соответствующими э-Маркерами. Весь список здесь не привести, но для наглядности перечислю некоторые из них: «хороший», «удобный», «понравился», «проблемный», «недостаток». э-Маркеры придают позитивный или негативный окрас предложению в тексте. Каждому э-Маркеру будет соответствовать численная оценка. Для простоты используем +1 для положительных, -1 для отрицательных. Все э-Маркеры так же заносятся в специальный файл. На Рисунке 3 представлен пример э-Маркеров:

Рисунок 3. э-Маркеры

После того, как словари готовы, можно произвести расчет оценок. Для этого на вкладке «Домены» выбираем нужный и жмем «Выполнить расчет» (Рисунок 4):

Рисунок 4. Расчет оценок

Чтобы посмотреть результат, открываем таблицу класса ikra.Dictionary.MarksUnit – который содержит оценки по каждой модели смартфона или обращаемся к классу ikra.Dictionary.MarksReview – который содержит оценки по каждому отдельному отзыву. Информация выводится в портале управления. Выбираем раздел SQL и просматриваем интересующую нас таблицу. На Рисунке 5 приведен пример просмотра таблицы класса ikra.Dictionary.MarksUnit.

Рисунок 5. Просмотр таблицы ikra.Dictionary.MarksUnit

С помощью DeepSee посмотрим, что же у нас получилось. Мы создали куб, который использует результаты расчета оценок по категориям и построили график для каждого исследуемого аппарата (Рисунок 6):

Рисунок 6. График оценок по категориям

Среди проанализированных данных первые места распределились следующим образом:

производительность – HTC ONE;
качество связи – HTC ONE;
комфортабельность/удобство — Samsung Galaxy S5 SM-G900F.

А что если надо добавить еще одну категорию?

Ранее, для оценки каждой отдельной категории приходилось прописывать соответствующее свойство класса вручную. Это создавало неудобство, когда при анализе новых предметных областей менялись категории и их количество, возникала необходимость правки кода при каждом таком изменении, что, очевидно, самое веселое и продуктивное использование времени. Чтобы выйти из этой ситуации мы рассмотрели два варианта решения:

Резервирование большого числа свойств класса;
Использование базы данных.

Первый вариант позволяет забыть о постоянно меняющемся числе категорий, не заморачиваясь со структурой БД. Но хранить такой объем свойств неудобно, да и к тому же никто не гарантирует, что не возникнет большее число оцениваемых параметров. От этого пути мы отказались.

Второй вариант решает задачу с неопределенным числом категорий и не требует фиксированного количества памяти под хранение каждого экземпляра класса. На основе БД система легко подстраивается под расчет любой предметной области с любым количеством категорий.

Учитывая преимущества второго варианта, в системе iKRA реализован именно он.

Добавление новой категории

«И тут я понял, что мне необходимо оценить еще один параметр смартфона – камеру! (Уж если ловить покемонов, то с удовольствием)»

Добавить новую категорию не составляет труда, для этого изменим состав функционального словаря и впишем новое название – Camera (Рисунок 7).

Рисунок 7. Добавление категории Camera

Определим категорию, добавив ф-Маркеры на соответствующей вкладке (Рисунок 2).
На вкладке домены выбираем нужный и запускаем расчет (Рисунок 4).
Дожидаемся окончания и переходим к просмотру (Рисунок 8):

Рисунок 8. Обновленный график оценок по категориям

Ура! Мы легко ввели новую категорию и оценили ее. Теперь картина выглядит следующим образом:

камера – iPhone 4S
производительность – HTC ONE;
качество связи – HTC ONE;
комфортабельность/удобство — Samsung Galaxy S5 SM-G900F.

Продолжение следует

Теперь мы быстро и без затрат на переписывание кода получаем оценки любых категорий продуктов по их отзывам. Сейчас для этого надо настроить словарь и запустить расчет. Сложным местом пока остается процесс загрузки отзывов в базу данных, но о решении этого вопроса мы поговорим в следующей статье.

» GitHub

Хабы: