0decca Apr 27 2015 at 18:33

Не очень большие данные и определение тональности текста

2 min

7.7K

Machine learning*Programming*Semantics*

+10

Comments 12

Alexlexandr Apr 27 2015 at 20:44

327 просмотров, 7 заносов в избранное и ни одного комментария за 2 часа с момента публикации, статистика интересная уже сама по себе :)

MichaelBorisov Apr 27 2015 at 20:55

Вопрос: какого результата автор добился? Что дают полученные данные?

0decca Apr 28 2015 at 03:58

Автор показал, что пока ведущие специалисты мира разрабатывают структуры слоев нейронных сетей или спорят о типах дистанции в автоэнкодерах — существуют полностью агностические методы, дающие сравнимый результат.

Что в свою очередь как бы намекает, что ни автоэнкодеры, ни сверточные слои, ни loss-функции не являются необходимым элементом для построения классификатора.

Вот здесь habrahabr.ru/company/meanotek/blog/256593 например конволюционка на 8 нейронах дает меньше. А на 16 — больше.

Разумеется в реальных задачах никто не делает троллейбусы из буханки черного хлеба.
Но в реальных задачах на больших данных приведение размерности к дистанциям выборки из базы — обычная практика и может быть названо deep learning для бедных.
Такой известный продукт как sofia-ml например его использует, скорость весьма впечатляет.

0decca Apr 28 2015 at 04:31

добавил апдейт в пост

dcc0 Apr 27 2015 at 21:29

Интересует практическое применение. Какова разница в результатах для разных языков? Для текстов разного уровня?
Что будете делать с завуалированным текстом? Метафорами, метонимиями, синекдохами, афоризмами и т.д…
Т.е. что можно, в конечном счете, решить с помощью данной модели?
Проанализировать комментарии к Mail.ru?

0decca Apr 28 2015 at 03:41

Практического применения здесь нет — слишком затратен метод. Разве что использовать персональный десктоп в качестве зимнего отопления.

ServPonomarev Apr 28 2015 at 07:40

На самом деле метод крут. И спасибо, что обратили на него внимание. Дело в том, что полноценный разбор текста — ещё затратнее. И существенно алгоритмически сложнее.

Подобным архивированием можно из большой выборки выделять потенциально интересные сообщения, а уж их-то проверять полным разбором или даже оператором. 75% точности для первого фильтра — хороший результат.

0decca Apr 28 2015 at 09:01

Для полноценного разбора текста требуется еще и иметь языковую модель.
Которая не только разная для каждого языка, но и в пределах одного языка может сильно варьироваться.
Я как-то вытаскивал данные из сотни тысяч английских текстов, написанных индусами, китайцами и филиппинцами.
По результату пришлось писать свой экстрактор — готовые системы (коммерческие и бесплатные) давали очень плохое качество. Хотя казалось бы — где уже сделано все и все истоптано — так это в английском языке.

Поэтому агностические модели столь привлекательны — более традиционные схемы предполагают большой объем ручной адаптации, что реально дорого IRL.

Zveroloff Apr 28 2015 at 08:40

А почему бы не использовать обычный gzip? Разве метод не станет менее затратным? Для алгоритма, мне кажется, без разницы?

0decca Apr 28 2015 at 08:54

Разница есть и gzip не подходит.
Вообще блочные упаковщики плохо работают для таких целей.
Проверить насколько хорош упаковщик можно простой процедурой.
cat somefile | packer >test1
cat somefile somefile | packer >test2

Если рамеры файлов test1 и test2 мало отличаются — то упаковщик подходит.
Второе требование — чем сильнее он пакует целевые файлы — тем лучше для результата.

elingur Apr 28 2015 at 15:04

Спасибо, не знал, что длина архива зависит от последовательности конкатенации файлов.
На самом деле ожидаемый результат точности. Думаю, если использовать сим-хеши для побайтового сравнения результат будет еще лучше.
Для промышленных решений такая точность маловата, но идею можно применить для предварительной классификации чего угодно. Кстати, все эти SVM и Байесы — так же методы классификации, столь популярные в русскоязычном сегменте тональности, достигают примерно такого же уровня точности или чуть лучше (все-таки там применяют всякие лингвистические эвристики типа н-грамм). Ну а чтобы получить более 90% нужна глубокая лингво информация, даже не языковая модель — что от нее толку — а грамматика и синтаксис.

0decca Apr 28 2015 at 15:31

Обычный Random Forest на случайных байтовых n-граммах так сразу мне показал 72.95% — без тюнинга.
При том, что быстрее Random Forest в детекции наверное ничего придумать и нельзя.
И это тоже агностический метод, количество параметров ненамного больше и знание содержимого файла не требуется — он будет работать и на классификации вирусов, спама, ДНК и чего угодно с линейной структурой и произвольной длиной.
Возможно n-граммы на словах или на синсетах покажут лучший результат, но они уже преполагают текст, причем на европейском языке, с пробелами и пунктуациями.

Для существенного поднятия точности нужен уже deep learning — трансфомация пространства признаков. И получать их лучше с очень больших объемов неклассифицированных данных.
Приведенный датасет для таких задач вообще непригоден, он слишком мал.