Обновить
30
0

Пользователь

Отправить сообщение
По поводу MTurk есть большие сомнения. Были жалобы на качество разметки (именно по тональности — уж слишком разные у людей представления о том, что такое «хорошо» и что такое «плохо»). Кроме того, помню корпуса, по которым было где-то только около 20% совпадений между аннонтаторами. Создание корпусов — тот ещё геморрой… А для систем анализа тональности на ML этот геморрой не пройдёт никогда. Это я на своём опыте чётко понял.
Я тоже за мир и дружбу между лагерями, но пока не очень представляю, как их «скрестить». В этой связи было бы интересно почитать про опыты с паттернами в машинном обучении. Правда, их тоже нужно делать гибкими (не регексах, например), и много. Так может получится, что просто сделать правилаполучится дешевле.
Про золотые глаза и касту посвящнных я с не совсем согласен. Эта проблема решается довольно просто — созданием «человеческого» интерфейса у редактора правил. Задаче вполне решаемая и разовая. И да, тестовый корпус нужен. А когда он не нужен, если речь идёт об автоматической обработке текста?
Кстати, как машинное обучение решает названные проблемы? Для поиска ошибок глаз нужен такой же «золотой»… Только понять, как их исправить сможет не всякий, даже не всякий автор такой системы. Потому что копаться в дампе модели и смотреть, какие веса каких фич сыграли свою гадкую роль в дикой ошибке класификации, — занятие не для слабонервных)
И про растущий корпус не согласен)) Расти он, конечно, будет, только лучше он станет (если станет) ой как не скоро… Либо он должен расти пропорционально количеству обрабатываемых данных. А это ОЧЕНЬ дорого.
Я понимаю, что тьюториал, понимаю, что kick-start)) Проблема лишь в том, что он, по моему скромному мнению, он не в ту сторону kick делает)
Правила, конечно, тоже могут устареть, но их гораздо легче контроллировать)
Я бы не советовал использовать такую систему для серьёзых, тем боле коммерческих приложений.
Во-первых, анализ тональности, построенный на машинном обучении, очень зависим от предметной сферы, в которой он был натренирован (так называемая domain-dependency). Более того, даже без смены предметной сферы модели тональности очень быстро устаревают и через, скажем, месяц ваша модель начнёт «чудить». Общая ошибка — верить результатам n-fold cross validation. Да, на том же корпусе результаты будут вполне приемлимые (ок 80%), но к реальной жизни это, увы, никакого отношения не имеет.
Во-вторых, самая большая ошибка сообщать результат по всем трём классам сразу. Обычно нейтральный класс очень многочисленный и самый простой «классификатор», который всё относит к этому классу, легко набирает и 90%. Если у вас корпус сбалансирован по трём классам, то это, скорее всего, очень далеко от жизни — крайне редко мне попадались такие предметные области, где все три класса распределенны одинаково. Как правило, нейтральные высказывания заметно более частотны. Либо наоборот — есть «ругательные» темы, где негатив зашкаливает, а есть «хвалебные» темы, где «солнце, радость, пазитифф»))
Есть, конечно, шанс, что на очень большом корпусе можно обучить систему чему-то полезному, но рзметка такого корпуса обойдётся влетит в копеечку (мягко говоря). Так что если хотите серьёзный анализ тональности, забудьте про машинное обучение. По крайней мере в её классической форме, педставленной здесь уважаемым автором.
А корпуса будут в открытом доступе или только для участников?
Ну я его и не таскаю почти — он у меня для работы (мобильная версия десктопа так сказать). Для «потаскать» есть вещи полегче и попроще…
Не Деллом единым жив разработчик Работаю на System76: Core i7 (2.7), 16G RAM, матовый (!) экран FullHD. Что ещё для жизни надо? Ах, да — идёт сразу с Ubuntu 12.04 (проапгрейдился до 12.10)

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность