Pull to refresh

Comments 40

UFO just landed and posted this here
Смотря что вы имеете в виду под «реальным использованием». Я лишь принимал участие в исследовательских проектах. В частности, наша система на РОМИП в этом году занимала 1-е место по классификации тональности на 5 классов. Если вы имеете в виду коммерческое применение, то таких данных у меня к сожалению нет.
UFO just landed and posted this here
Да, тестовая коллекция была оценена двумя экспертами.
Sentiment analysis сейчас активно набирает популярность именно в коммерческой среде. За последний год я общался примерно с десятком людей, которые хотели внедрить себе такую систему, и ещё столько же видел готовых реализаций. Существуют открытые примеры и даже SaaS, такие как AlchemyAPI (правда, Alchemy занимается много большим, чем только анализом тональности, и поэтому подходы у него тоже более общие, чем просто машинное обучение).

Если вас интересуют цифры, то у нас было так. Мы классифицировали твиты о выборах в США и во Франции, на английском и французском языках, соответсвенно. Для французского получилось достичь точности ~80%, для английского чуть меньше — ~76%. Здесь надо сказать, что в sentiment analysis, особенно для таких источников, как Твиттер, всё, что выше 70% — это уже почти идеал. Просто потому, что оставшиеся 30% записей слишком спорно написаны, чтобы делать о них однозначные суждения.
Ах да, забыл сказать. В обоих случаях предвыборные показатели отзывов в твиттере почти точно отражали реальные результаты выборов. Эх, жаль, что к Российским выборам не успели насобирать данных :)
Поделюсь и я своим опытом.

Во-первых, классов при классификации оказывается гораздо больше, чем 2. С точки зрения тональности, любой документ имеет определённое значение по 2-м шкалам: объективности-субъективности и позитивности-негативности. Одно только это приводит к 4 классам: субъективно-позитивный, субъективно-негативный, субъективно-нейтральный и объективный (информационный). Последние 2 категории могут быть не совсем понятны, поэтому поясню: субъективно-нейтральный документ выражает эмоции, но общая их сумма равна нулю (например, «с одной стороны, мне его жаль, а с другой — чего он ожидал?»); объективные (информативные) документы просто несут некоторую информацию («сегодня президент России встретился с японскими школьницами»). Кроме того, при работе с реальными источниками а-ля Твиттера добавляются ещё как минимум 2 класса: нерелевантные (случайно попали в результаты поиска, не относятся к исследуемой теме) и спам. Например, во время президентских выборов в России больше 95% твитов по запросам «Путин», «Медведев», «Навальный» и т.д. были именно спамом. Если количество таких «левых» записей не удаётся сократить вручную (мы, например, убирали все записи, начинающиеся с хеш-тега — спам практически исчез), то придётся строить дополнительный «входной» классификатор.

Во-вторых, для анализа тональности очень важную роль играет использование в качестве атрибутов тегов частей речи (part of speech, POS). В частности, теггер частей речи определяет время глаголов, что сильно влияет на классификацию. Сравните: «Франсуа Холланд планирует посетить Россию в октябре» (настоящее время, информативный текст) и «Франсуа Холланд планировал-планировал, да не выпланировал. Так всё и загнулось» (прошедшее время, субъективно-негативный текст). В последней инкорнации нашей системы мы использовали 2 последовательный классификатора — сначала проверяли на объективность с помощью классификатора по частям речи, затем подсчитывали собственно тональность с помощью униграм.

В-третьих, опять же, если речь идёт о соц. сетях, то имеет смысл использовать другие, нетекстовые признаки. Например, мы в твитах заменяли все ссылки просто на атрибут [LINK], таким образом он начинал учитываться как отдельный признак (очень помогает в поиске информативных твитов). Очистка user generated content тоже играет существенную роль. Для того же твиттера необходимо убирать имена пользователей (в большинстве случаев они не несут информации, но загрязняют список атрибутов). Исправление опечаток и стандартных «словозаменителей» (fuck -> f*ck, fck, etc.) также играет немаловажную роль.

В-четвёртых, использовние N-грамм зависит от языка. Для английского лучший результат показали биграммы, для французского и русского — триграммы. Это связано с разными моделями построения предложений: в английском много сочетаний вида глагол-предлог (e.g.: give up), во французском часто используются более длинные связки (Est-ce que… ?).

В-пятых, независимо от используемой модели N-грамм отрицательные конструкции необходимо слеплевать с соседними словами. Причём какие именно конструкции и как именно слеплевать — зависит от языка. Для русского обычного хватает склеивать «не» со впереди идущим глаголом («не люблю») и «нет» с впереди и позади идущими существительными («идиотизма нет», «нет идиотизма»). Для английского приходится учитывать модальные глаголы («not going», «don't go», «won't go», etc.) и некоторые обстоятельства, выполняюзие роль отрицания («never go»). Для французского, где отрицание строится частицей «ne» перед глаголом и частицей «pas» (или некоторыми наречиями типа «jamais») приходится придумывать ещё более сложные схемы.

В-шестых, выбор классификатора сильно зависит от источника информации. Так, мы заметили, что для блогов лучше себя ведёт SVM (с практически любым из нелинейных ядер), а для Твиттера — Naive Bayes. Лично я это связываю с близостью используемых моделей к реальным данным. Например, можно сказать, что для Твиттера выполняется основное допущение наивного Байеса — слова в предложениях практически не связаны лексически, а смысл мы понимаем из общего набора слов (пример из сегодняшнего Твиттера: «Hey Redditors: Who's in for an #AMA with an #MSL engineer or 2...or 3...or more? Thur Aug 16 8am PT (1500 UT) @Reddit» — практически нечитаемо с точки зрения граммотной речи).

В принципе, есть ещё много нюансов, но полный обзор занял бы несколько полноценных статей :)
Скажите, пожалуйста, а существуют ли работы, в которых подробно бы разбирался вопроc использования методик sentiment analysis к языкам различных семей. Если у Вас есть ссылки — буду очень признателен.
Я думаю, тут следует говорить не конкретно о sentiment analysis, а о методиках NLP для разных языковых групп вообще. По большому счёту, разница между английским, русским, французским и большинством других европейских языков с точки зрения анализа тональности не такая большая — методы одни и те же, просто для разных языков и разных тем внутри одного языка данные методы по-разному настраиваются. Сравните, например, европейские языки и арабский или китайский — для последних нужно перестраивать весь «стек» обрабатывающих элеменов, начиная с токенайзера и теггера частей речи.

Например, Стэнфорд предоставляет обучаемый парсер частей речи, который даже на небольшом русском корпусе сразу выдал мне результаты с точностью больше 90%. В то же время, для китайского или даже немецкого (из-за «слепливания» имён прилагательных) такой парсер просто не сработал бы. Поэтому Стэнфорд, в частности, занимается развитием NLP для этих языков (китайский, арабский).
Спасибо за развернутый комментарий. В принципе, я согласен по всем пунктам :)

1. Количество классов, действительно может быть больше. Это зависит либо от задачи либо от применяемой модели. То, что вы описали (две шкалы: субъективность и полярность) широко используется, например в базах SentiWordNet и ANEW. Но существует и куча других моделей, например, модели эмоций, там где вообще до 8 шкал.

На мой взгляд, для анализа тональности двух классов вполне хватает (позитивный, негативный). Определение же содержит ли текст мнение — это уже другая задача, анализ субъективности (subjectivity analysis).

2. Морфологическая информация, действительно, может быть хорошим признаком для классификации тональности. Не только время глаголов, но и лицо (личные сообщения пишут от первого лица, информационные — от третьего), сравнительная и превосходная степень прилагательных и наречий, наличие местоимений и междометий.

3. Анализ твитера заслуживает отдельной статьи. Там, действительно, очень важен препроцессинг сообщений. В основном проблему создают хештеги, т.к. они порой являются членами предложений, а в остальных случаях лишь метками.

4. На моем опыте, триграммы никогда не давали хороших результатов (и во французском, и в китайском). Возможно, мой корпус был недостаточно большим.

5. Несмотря на то, что многие исследователи пишут, что отрицания могут создавать помехи для классификации тональности, в реальных условиях это редко происходит, потому что если отзыв отрицательный, то в нем будет содержаться много других признаков отрицательной тональности. В общем, манипуляции с отрицаниями если и дают прирост в результатах, то очень небольшой.

6. Согласен, но тут сложно сказать, от чего именно зависит производительность того или иного классификатора. Я еще не видел исследований на эту тему. Мы участвовали в соревновании по классификации эмоций, где было 26 команд-участников. Все участники применяли различные алгоритмы классификации, в основном те, с которыми у них был больший опыт. Так вот, примерно одинаковые результаты удалось получить разными командами и с SVM, и с MaxEnt, и прочими классификаторами.
Я бы поспорил с пунктом 5 (со всем остальным я категорически согласен :)). Для того же твиттера других признаков действительно может не быть. Например, когда мы анализировали американские выборы, было очень много твитов типа «Vote for Obama!». Слово «Vote» в целом было хорошим признаком положительного отношения автора к объекту разговора. В то же время, было много твитов типа «Don't vote for Obama!», т.е. отличающихся только отрицанием. При этом само по себе отрицание тоже не могло быть использовано в качестве признака негативного отзыва: «Don't be stupid, vote for Obama!» — если не учитывать порядок слов, то получается линейная неразделимость. Вначале я пробовал использовать нелинейные классификаторы (e.g. SVM с радиальным ядром), но эффект был минимальным. Затем были биграммы, но они порождали очень много атрибутов, встречающихся во всём корпусе всего 1 раз, а многие отрицания так и не захватывали: «I don't know, why somebody should ever vote for Obama». В общем, для коротких текстов типа твитов акценты несколько смещаются.
Это очень легко проверить экспериментально :) если есть желание можно устроить, если у вас есть размеченные твиты. Хотя я согласен, что, возможно, это более критично для коротких текстов вроде твитов, но в отзывах фильмов, думаю результаты не будут отличаться.
А почему не использовать все возможные N-граммы произвольной длины с частотой выше определенной?
Извлечение всех N-грамм из корпуса сводится к задаче сортировки, затратной конечно, но в принципе решаемой и однократной.
Получаем большое (очень большое) количество бинарных (или ординальных) атрибутов.
Далее фильтруем по FCBF с редукцией подстрок.
Если задавать небольшое количество атрибутов на выходе FCBF, то можно и SVM, если их очень много, то там random forest отлично работает.
Который в отличие от SVM использует не все атрибуты, а только те что нужны.
Соответственно и классификатор на RF получается очень быстрый и эффективный.

Я так делал практически, не в области NLP, но для корпуса в несколько терабайт.
Результаты были весьма неплохи.
В теории всё так, на практике же у вас есть от силы 10-15 тысяч протеггированных документов, из которых получается ~10 000 униграмм, половина из которых встречается всего по одному разу, но могут оказать решающее значение при классификации. В принципе, если использовать полуавтоматическое тегирование (например, по сидам ":-)" и ":-(") и запастись железом/временем на вычисления, то можно собрать 200-300 ты сяч документов и провести нормальное полноценное исследование по той схеме, которую вы описали. Однако в продакшене, как правило, есть определённая тема и определённое время, за которое нужно обучить классификатор. И тут даже если брать такие супер-активные источники информации как Твиттер, то есть риск даже за несколько месяцев не собрать базу нужного размера и с заданными критериями (тема + эмотикон). Т.е. основная проблема смещается от поиска лучшего метода к поиску реализуемого на практике метода.

Наверное, описанная проблема решается для сайтов с отзывами а-ля Амазона, где есть текст и сразу оценка пользователя. Тогда можно собрать базу и попробовать применить ваш метод. Но я с корпусами с уже проставленными оценками не работал, так что про эффективность ничего сказать не могу.
Да, действительно, у меня уже было 29М теггированных объектов, так что было где разгуляться, и проблема переходила в класс supervised.
И создавать сотни тысяч аттрибутов на 10-15К документов выглядит бессмысленно, по крайней мере на первый взгляд.
Хотя тут есть варианты, я микротестирование делал на песочнице из 100 файлов исходников, классифицируя их на C и Р-файлы. Работало неплохо, там атрибутов 20 оставалось после фильтрации.
:-)

Плюс мне дали неплохое время на R&D перед продакшн, что редко бывает.

В любом случае есть еще такой метод, по моему опыту N-граммы произвольной длины несут огромное количество информации.
Может кому-то пригодится.
А Вы не могли бы поделиться обучающими выборками? Очень хочется поэкспериментировать.
Это не текстовые данные, как я писал — это не NLP задача.
Ну и данные мне не принадлежат — их собирали много лет, это бинарники разных вирусов и не только вирусов.
Интересно что эти самые тупейшие n-граммы ловили ряд полиморфов — что теоретически не должно было иметь места.

Эмоционалкой не занимался, а по NLP вообще могу посоветовать.

Собственно первое что я использую для NLP — дамп википедии, например только англоязычных страниц, относящихся к людям — более миллиона.
Причем часто требуемые метки можно получать сразу из инфобокса, ну или дальше из онтологий поверх википедии.
А n-граммы на тексте получаются сразу двух уровней — посимвольные и как списки слов.
Соответственно атрибутов в два раза больше.

На Kaggle можно много найти.
Еще вот такая свалка archive.ics.uci.edu/ml/datasets.html

Вот для NLP есть некоторые
www.clips.ua.ac.be/conll2003/ner/ — прямо сейчас открыто у меня.
Вообще гуглим CoNLL dataset

Ну и www.americannationalcorpus.org/OANC/index.html
Но тут разметка врет как дышит — я отказался от него, там даже разбивка по предложениям кривая.

Если надо просто большой сет — то files.grouplens.org/datasets/movielens/ml-10m-README.html
Был еще старый 100M NetFlix Prize, но доступ вроде как закрыли, у меня где-то должна была остаться копия, если надо — пишите в личку, могу поискать.

PS
Имхо n-граммы должны хорошо работать когда требуется классификация всего текста, а не его части, причем текст должен быть достаточно объемный.
Если тексты короткие как твиты — то смысла применять нет.
Для начала я хочу анализировать заголовки в СМИ и твиттере на эмоцию
пока что пробую взять из твиттера записи со смайликами
Потому что будет overfitting — признаки становятся слишком специфичны для обучаемой коллекции данных.
Оверфит практически не зависит от признаков, он зависит от классификатора использующего эти признаки.
В крайнем случае он может зависеть от количества признаков, но количество ограничивается селективностью фильтра FCBF — он отбирает лучшие атрибуты с минимальной взаимной информацией.

Я собственно сам так делал и никакой перетренировки не наблюдал, тестил на 4-folds — все было в порядке.
SVM, decision tree и random forest не давали оверфита даже если количество атрибутов было в два раза больше чем количество сэмплов.
Ух, запустить код с гитхаба — хороший квест. Но что-то изменилось в шаблонах кинопоиска и сбор тренировочных отзывов заканчивается с пустыми результатами, и я уже просто сдался. Просьба, дополняйте хотя бы краткой документацией. Что и откуда установить если это не пакетные библиотеки и в каком порядке что запускать. Сэкономит много времени
Да, прошу прощения. Нужно будет добавить README. Я использовал requests, BeautifulSoup, sqlite3.
Не только. Еще cherrypy, BeautifulSoup не из пакетов, а транковый, и билиотеки разбросанные в недрах гитхаба: liblinear, red, ваш же yatk. Может и еще что-то, но у меня уже было.
Для svm вы использовали линейное ядро?

Немножко личного опыта по классификации англоязычных твитеровских сообщений:
— svm с линейным ядром, наивный байес, логист. регрессия давали значительно меньшую точность
— очень важно выбрать правильные фичи, остановились на 1-2-3 граммах
— TF-IDF не дала сильного прироста
— предварительная нормализация важна, особенно для такой помойки как твиттер
— важны знаки препинания
— как сказал ffriend, в реальном приложении скорее всего будет набор классификаторов. Важно правильно составить композицию

А как на счет unsupervised подхода? Мне кажется он идеально подойдет для выделения и взвешивания фич. Вы пробовали это?
Забыл добавить. Конечно же, важен корпус. У нас была целая система маркирования и отряд американских студентов. Был, кстати, забавный случай, когда несколько студентов жили в одной комнате и тупо копировали данные маркировки друг у друга (одни и те же данные должны были быть маркированны несколькими людьми). Мы это дело вычислили и настучали им по шапке :).
Да, я использовал LIBLINEAR, библиотеку для линейных SVM. У меня нет особого опыта в конфигурации SVM, поэтому я обычно использую его «из коробки», т.к. меня в основном интересует выбор признаков и обработка текста, нежели конфигурация параметров и ядер у классификаторов.

Обучения без учителя я в основном применял лишь для уменьшения размерности и последующей визуализации данных только чтобы визуально оценить коллекцию.
Если бы я обучал компьютер, я бы дал сначала не чуства, а базовие инстинкты (есть, дишать, ...)
Вот будет он есть, дишать, просрет все дедлайны, и работать в итоге некому.
Не надо.
Супер, спасибо огромное!

А вы не подскажете, есть ли какие-то ресерчи по классификации иронии? ЕМНИП, это остается одной из главных проблем NLP.
Да, конечно. Ирония и сарказм являются одной из проблем при анализе мнений. Вот несколько статей на эту тему:
  • Carvalho, Paula; Sarmento, Luís; Silva, Mário J.; and de Oliveira,Eugénio. 2009. Clues for detecting irony in user-generated contents:oh...!!! it’s «so easy» ;-)
  • Reyes, Antonio and Rosso, Paolo. 2011. Mining subjective knowl-edge from customer reviews: a specific case of irony detection
  • Davidov, Dmitry; Tsur, Oren; and Rappoport, Ari. 2010. Semi-supervised recognition of sarcastic sentences in Twitter and Amazon
  • González-Ibáñez, Roberto; Muresan, Smaranda; and Wacholder,Nina. 2011. Identifying sarcasm in Twitter: a closer look
Надо бы к хабру такое прикрутить, чтобы показывал положительный комментарий или отрицательный. :)
Ну конечно, и сарказм чтоб детектировался тоже!
Работать в этом направлении моя мечта. Я много чего продумывал в своей голове но браться пока не решался, ввиду того, что прежде чем писать алгоритм нужно очень много чего изучить и расписать по схеме. К тому же, хороший проект — это коллективный проект (лично мое мнение). Надеюсь в будущем, я найду тех людей, с которыми возможно реализовать нечто шире, чем в данной статье. А статья понравилась. Благодарю.
Дельта TF-IDF не пробовал, но на личном опыте убедился, что для отбора фич в sentiment analysis еще неплохо подходит мера Mutual Information.
А в сочетании с FCBF фильтром — вообще вещь классная.
Можно тупо брать случайные паттерны — все равно работает.
Причем далеко не только в sentiment analysis, практически любая классификация относительно длинных текстов.
Практикуется ли набор правил вручную, путем предъявления «эксперту» текстов для ручной разметки их фрагментов (символьных или словесных N-грамм) по шкалам тональности? Сначала всех подряд, затем лишь неожнозначных…
Кажись, может быть перспективно. А?
Здравствуйте. Не подскажете, где можно взять размеченную экспертами по тональности базу комментариев, для того, чтобы проверить качество работы подобных программ?
Подскажите, плз, инструмент(Windows) для простейшей разметки текста в парадигме: позитив/негатив.
Т.е. проставить напротив каждого блока текста метку pos или neg. Данные хранятся в базе, поэтому исходный формат могу сделать какой угодно
Самое простое — конечно, Excel. Но может есть что-то удобнее.
Only those users with full accounts are able to leave comments. Log in, please.