Pull to refresh

Comments 10

Очень сложно написано. Например, вы начинаете разговор про PMI и даже приводите его формулу, но что это вообще такое не сообщаете.

А каким образом считали точность?
Со стороны, безусловно, виднее. Скорее всего, нужно было писать с бОльшим количеством примеров. Постараюсь в будущем это учесть.
Что такое PMI? PMI — pointwise mutual information или поточечная взаимная информация. Действительно упустил это, сейчас подправлю.
По сути, вы проверяете как часто какой-то биграмм из предложения встречается рядом с хорошими и рядом с плохими словами, а потом находите разницу между ними.

Точность считалась на датасетах из социальных медиа. По ним проводился человеческий аудит и впоследствии сравнивались результаты.
Попробую упростить понимание PMI, исходя из формулы.

По формуле условной вероятности P(A|B) = P(A&B)/P(B), аналогично P(B|A) = P(A&B)/P(A).
Таким образом P(A & B) / (P(A)*P(B)) можно переписать иначе.
P(A & B) / (P(A)*P(B)) = P(A|B)/P(A) = P(B|A)/P(B)

Что это нам дает? Это нам дает связь между событиями в виде одного коэффициента lift(A,B):
lift(A,B) = P(A|B)/P(A) = P(B|A)/P(B)

Его легко трактовать. Он говорит во сколько раз возрастает вероятность события A при наблюдении события B и наоборот. Если lift(A,B) = 1, то наблюдение одного события не влияет на вероятность другого события (события скорее всего никак не связаны между собой), если lift(A,B) > 1, то наблюдение одного события увеличивает в lift(A,B) раз вероятность другого события (наблюдается положительная корреляция между событиями), и, наконец, lift(A,B) < 1 уменьшает вероятность одного из событий при наблюдении другого события.

Рассмотрим простой пример, чтобы лучше понять. У нас есть 10000 чеков с покупками. В 6000 чеков есть покупка компьютерных игр, в 7500 чеках есть покупка видео, в 4000 чеков одновременно есть и покупка видео и компьютерных игр. Прикинем вереоятности.

Вероятность покупки игры
P(game) = 6000/10000 = 0.6 (60%)

Вероятность покупки видео
P(video) = 7500/10000 = 0.75 (75%)

Вероятность покупки игры, при условии, что в чеке есть покупка видео
P(game|video) = 4000/7500 = 0.533 (53.3%)

Вероятность покупки видео, при условии, что в чеке есть покупка компьютерной игры
P(video|game) = 4000/6000 = 0.667 (66.7%)

Как мы видим P(game) > P(game|video), аналогично P(video) > P(video|game). T.e. наблюдение одного из событий уменьшает вероятность наблюдения другого события. Можем даже посчитать во сколько раз:
lift(game,video) = P(game|video) / P(game) = 0.889 = P(video|game) / P(video)

Итак, P(A & B) / (P(A)*P(B)) = lift(A,B) — коэффициент, который показывает связь между событиями.
Таким образом можно переписать PMI иначе:
PMI(A,B) = log(lift(A,B))

Если события независимы lift(A,B) = 1, а PMI тогда будет 0. Если наблюдается положительная корреляция, то lift(A,B) > 1, а PMI тогда будет > 0, и, наконец, если наблюдается отрицательная корреляция, то lift(A,B) < 1, а PMI тогда будет < 0.

Таким образом, PMI — это показатель степени связи между событиями.
Всё верно. Спасибо за дополнение. Оно, пожалуй, лучше самой статьи :)
Да меня, в принципе, только расшифровка термина интересовала, но за подробное описание всё равно спасибо :)
Даже при такой схеме подсчёта точности результаты могут спокойно превышать 90%. Правда, для этого нужно, чтобы результаты проверяли те же люди, которые составляли обучающую выборку (в методах, где таковая есть, конечно же).

Другими словами, не стоит опираться на 70% из википедии, при любом способе оценивания нужно в первую очередь опираться на здравый смысл.

Касательно использования словаря для социальных медиа, не забывайте про то, что очень многие слова в user-generated content имеют описки или даже умышленные ошибки. Например, «культурные» американцы зачастую намеренно пишут что-то вроде «fck», поэтому перед использованием словаря имеет смысл проводить spelling correction.
Spelling correction писал другой человек :)

На 70% я изначально не опирался. Это, скорее, для «затравки». Точность зависит от объема тренировочных данных и, как вы уже заметили, от того, насколько эта тренировочная выборка соответствует тестовой.
90% — это, скорее, фантастика :)
Хорошо бы для начала на уровне человека разобраться, что такое хорошо, а что такое плохо. Прежде чем машине пытаться объяснить.

Проще говоря, субъективизм оценок значительно превышает 30%, если озадачиться тем, что для одного хорошо то, что для другого отвратительно (и это наглядно показывают комментарии в Интернете). Дело осложняется ещё и тем, что это закономерный субъективизм, то есть оценки основываются на формально ценных для говорящего факторах.

Допустим, оценочный алгоритм показал, что 56% респондентов посчитали продукт скорее хорошим, чем плохим, и система нам об этом сообщила, превысив порог уверенности в 0.9. Круто. Можно ли на основании этого сделать какой-то выбор? Нельзя. Поскольку любой опыт индивидуален — и хорошо бы лично проверить, годен ли продукт лично для тебя. После чего уже отзывы о нём никакой ценности не имеют, даже будучи проанализированными машиной.

/bitching mode off
Здрасти. файл на депозите потерли, можно его перезалить?
Sign up to leave a comment.

Articles