Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Testing on 1000 samples, 23626 words, 122403 characters...
Time 82 ms.
Speed 1492.719512195122 chars/ms
Speed 288.1219512195122 words/ms
Я бы не советовал использовать такую систему для серьёзых, тем боле коммерческих приложений.
Во-первых, анализ тональности, построенный на машинном обучении, очень зависим от предметной сферы, в которой он был натренирован (так называемая domain-dependency). Более того, даже без смены предметной сферы модели тональности очень быстро устаревают и через, скажем, месяц ваша модель начнёт «чудить».
Общая ошибка — верить результатам n-fold cross validation. Да, на том же корпусе результаты будут вполне приемлимые (ок 80%), но к реальной жизни это, увы, никакого отношения не имеет.
Во-вторых, самая большая ошибка сообщать результат по всем трём классам сразу. Обычно нейтральный класс очень многочисленный и самый простой «классификатор», который всё относит к этому классу, легко набирает и 90%. Если у вас корпус сбалансирован по трём классам, то это, скорее всего, очень далеко от жизни — крайне редко мне попадались такие предметные области, где все три класса распределенны одинаково. Как правило, нейтральные высказывания заметно более частотны. Либо наоборот — есть «ругательные» темы, где негатив зашкаливает, а есть «хвалебные» темы, где «солнце, радость, пазитифф»))
Added 34345 instances
Of which 27273 positive instances, 7072 negative instances
Added 14144 instances
Of which 7072 positive instances, 7072 negative instances
Correctly Classified Instances 11976 84.6719 %
Incorrectly Classified Instances 2168 15.3281 %
Kappa statistic 0.6934
Mean absolute error 0.2109
Root mean squared error 0.3347
Relative absolute error 42.1894 %
Root relative squared error 66.9461 %
Coverage of cases (0.95 level) 98.1123 %
Mean rel. region size (0.95 level) 78.7719 %
Total Number of Instances 14144
Weka проект для задачи распознавания тональности (сентимента)