Comments 10
Очень сложно написано. Например, вы начинаете разговор про PMI и даже приводите его формулу, но что это вообще такое не сообщаете.
А каким образом считали точность?
А каким образом считали точность?
Со стороны, безусловно, виднее. Скорее всего, нужно было писать с бОльшим количеством примеров. Постараюсь в будущем это учесть.
Что такое PMI? PMI — pointwise mutual information или поточечная взаимная информация. Действительно упустил это, сейчас подправлю.
По сути, вы проверяете как часто какой-то биграмм из предложения встречается рядом с хорошими и рядом с плохими словами, а потом находите разницу между ними.
Точность считалась на датасетах из социальных медиа. По ним проводился человеческий аудит и впоследствии сравнивались результаты.
Что такое PMI? PMI — pointwise mutual information или поточечная взаимная информация. Действительно упустил это, сейчас подправлю.
По сути, вы проверяете как часто какой-то биграмм из предложения встречается рядом с хорошими и рядом с плохими словами, а потом находите разницу между ними.
Точность считалась на датасетах из социальных медиа. По ним проводился человеческий аудит и впоследствии сравнивались результаты.
Попробую упростить понимание PMI, исходя из формулы.
По формуле условной вероятности P(A|B) = P(A&B)/P(B), аналогично P(B|A) = P(A&B)/P(A).
Таким образом P(A & B) / (P(A)*P(B)) можно переписать иначе.
P(A & B) / (P(A)*P(B)) = P(A|B)/P(A) = P(B|A)/P(B)
Что это нам дает? Это нам дает связь между событиями в виде одного коэффициента lift(A,B):
lift(A,B) = P(A|B)/P(A) = P(B|A)/P(B)
Его легко трактовать. Он говорит во сколько раз возрастает вероятность события A при наблюдении события B и наоборот. Если lift(A,B) = 1, то наблюдение одного события не влияет на вероятность другого события (события скорее всего никак не связаны между собой), если lift(A,B) > 1, то наблюдение одного события увеличивает в lift(A,B) раз вероятность другого события (наблюдается положительная корреляция между событиями), и, наконец, lift(A,B) < 1 уменьшает вероятность одного из событий при наблюдении другого события.
Рассмотрим простой пример, чтобы лучше понять. У нас есть 10000 чеков с покупками. В 6000 чеков есть покупка компьютерных игр, в 7500 чеках есть покупка видео, в 4000 чеков одновременно есть и покупка видео и компьютерных игр. Прикинем вереоятности.
Вероятность покупки игры
P(game) = 6000/10000 = 0.6 (60%)
Вероятность покупки видео
P(video) = 7500/10000 = 0.75 (75%)
Вероятность покупки игры, при условии, что в чеке есть покупка видео
P(game|video) = 4000/7500 = 0.533 (53.3%)
Вероятность покупки видео, при условии, что в чеке есть покупка компьютерной игры
P(video|game) = 4000/6000 = 0.667 (66.7%)
Как мы видим P(game) > P(game|video), аналогично P(video) > P(video|game). T.e. наблюдение одного из событий уменьшает вероятность наблюдения другого события. Можем даже посчитать во сколько раз:
lift(game,video) = P(game|video) / P(game) = 0.889 = P(video|game) / P(video)
Итак, P(A & B) / (P(A)*P(B)) = lift(A,B) — коэффициент, который показывает связь между событиями.
Таким образом можно переписать PMI иначе:
PMI(A,B) = log(lift(A,B))
Если события независимы lift(A,B) = 1, а PMI тогда будет 0. Если наблюдается положительная корреляция, то lift(A,B) > 1, а PMI тогда будет > 0, и, наконец, если наблюдается отрицательная корреляция, то lift(A,B) < 1, а PMI тогда будет < 0.
Таким образом, PMI — это показатель степени связи между событиями.
По формуле условной вероятности P(A|B) = P(A&B)/P(B), аналогично P(B|A) = P(A&B)/P(A).
Таким образом P(A & B) / (P(A)*P(B)) можно переписать иначе.
P(A & B) / (P(A)*P(B)) = P(A|B)/P(A) = P(B|A)/P(B)
Что это нам дает? Это нам дает связь между событиями в виде одного коэффициента lift(A,B):
lift(A,B) = P(A|B)/P(A) = P(B|A)/P(B)
Его легко трактовать. Он говорит во сколько раз возрастает вероятность события A при наблюдении события B и наоборот. Если lift(A,B) = 1, то наблюдение одного события не влияет на вероятность другого события (события скорее всего никак не связаны между собой), если lift(A,B) > 1, то наблюдение одного события увеличивает в lift(A,B) раз вероятность другого события (наблюдается положительная корреляция между событиями), и, наконец, lift(A,B) < 1 уменьшает вероятность одного из событий при наблюдении другого события.
Рассмотрим простой пример, чтобы лучше понять. У нас есть 10000 чеков с покупками. В 6000 чеков есть покупка компьютерных игр, в 7500 чеках есть покупка видео, в 4000 чеков одновременно есть и покупка видео и компьютерных игр. Прикинем вереоятности.
Вероятность покупки игры
P(game) = 6000/10000 = 0.6 (60%)
Вероятность покупки видео
P(video) = 7500/10000 = 0.75 (75%)
Вероятность покупки игры, при условии, что в чеке есть покупка видео
P(game|video) = 4000/7500 = 0.533 (53.3%)
Вероятность покупки видео, при условии, что в чеке есть покупка компьютерной игры
P(video|game) = 4000/6000 = 0.667 (66.7%)
Как мы видим P(game) > P(game|video), аналогично P(video) > P(video|game). T.e. наблюдение одного из событий уменьшает вероятность наблюдения другого события. Можем даже посчитать во сколько раз:
lift(game,video) = P(game|video) / P(game) = 0.889 = P(video|game) / P(video)
Итак, P(A & B) / (P(A)*P(B)) = lift(A,B) — коэффициент, который показывает связь между событиями.
Таким образом можно переписать PMI иначе:
PMI(A,B) = log(lift(A,B))
Если события независимы lift(A,B) = 1, а PMI тогда будет 0. Если наблюдается положительная корреляция, то lift(A,B) > 1, а PMI тогда будет > 0, и, наконец, если наблюдается отрицательная корреляция, то lift(A,B) < 1, а PMI тогда будет < 0.
Таким образом, PMI — это показатель степени связи между событиями.
Даже при такой схеме подсчёта точности результаты могут спокойно превышать 90%. Правда, для этого нужно, чтобы результаты проверяли те же люди, которые составляли обучающую выборку (в методах, где таковая есть, конечно же).
Другими словами, не стоит опираться на 70% из википедии, при любом способе оценивания нужно в первую очередь опираться на здравый смысл.
Касательно использования словаря для социальных медиа, не забывайте про то, что очень многие слова в user-generated content имеют описки или даже умышленные ошибки. Например, «культурные» американцы зачастую намеренно пишут что-то вроде «fck», поэтому перед использованием словаря имеет смысл проводить spelling correction.
Другими словами, не стоит опираться на 70% из википедии, при любом способе оценивания нужно в первую очередь опираться на здравый смысл.
Касательно использования словаря для социальных медиа, не забывайте про то, что очень многие слова в user-generated content имеют описки или даже умышленные ошибки. Например, «культурные» американцы зачастую намеренно пишут что-то вроде «fck», поэтому перед использованием словаря имеет смысл проводить spelling correction.
Ниже попытался объяснить, как я это понял.
Хорошо бы для начала на уровне человека разобраться, что такое хорошо, а что такое плохо. Прежде чем машине пытаться объяснить.
Проще говоря, субъективизм оценок значительно превышает 30%, если озадачиться тем, что для одного хорошо то, что для другого отвратительно (и это наглядно показывают комментарии в Интернете). Дело осложняется ещё и тем, что это закономерный субъективизм, то есть оценки основываются на формально ценных для говорящего факторах.
Допустим, оценочный алгоритм показал, что 56% респондентов посчитали продукт скорее хорошим, чем плохим, и система нам об этом сообщила, превысив порог уверенности в 0.9. Круто. Можно ли на основании этого сделать какой-то выбор? Нельзя. Поскольку любой опыт индивидуален — и хорошо бы лично проверить, годен ли продукт лично для тебя. После чего уже отзывы о нём никакой ценности не имеют, даже будучи проанализированными машиной.
/bitching mode off
Проще говоря, субъективизм оценок значительно превышает 30%, если озадачиться тем, что для одного хорошо то, что для другого отвратительно (и это наглядно показывают комментарии в Интернете). Дело осложняется ещё и тем, что это закономерный субъективизм, то есть оценки основываются на формально ценных для говорящего факторах.
Допустим, оценочный алгоритм показал, что 56% респондентов посчитали продукт скорее хорошим, чем плохим, и система нам об этом сообщила, превысив порог уверенности в 0.9. Круто. Можно ли на основании этого сделать какой-то выбор? Нельзя. Поскольку любой опыт индивидуален — и хорошо бы лично проверить, годен ли продукт лично для тебя. После чего уже отзывы о нём никакой ценности не имеют, даже будучи проанализированными машиной.
/bitching mode off
Здрасти. файл на депозите потерли, можно его перезалить?
Sign up to leave a comment.
Система мониторинга мнений методом поточечной взаимной информации