Comments 6
По ходу чтения возник вопрос: не похожа ли формула Байеса на формулу расчёта TF/IDF? )
Потерялся после тезиса о том что вероятности релевантности и нерелевантности независимы. Если у Вас всего два этих класса, то сумма их вероятностей =1.
Здравствуйте! Это камень преткновения всех, кто решился познать секрет наивного байесовского классификатора.
Классов может быть сколько угодно – считайте, что они просто делят коллекцию документов на части. И в каждой такой части считается вероятность принадлежности, которая в сумме с вероятностью не-принадлежности действительно даёт 1.
Это мы с вами думаем, что статья либо, релевантна, либо нерелевантна. Но для НБК это всего лишь классы, которые никаким отношением друг с другом не связаны. И он не знает, сколько этих классов всего. Поэтому он и «наивный».
С другой стороны, в этом и удобство его использования: вы можете добавить статьи некоего третьего класса в выборку (например, «под сомнением»), не меняя самой логики работы НБК.
Спасибо за комментарий)
Здравствуйте. Спасибо за ответ.
Я исхожу из соображений классической теории вероятностей, хотя, возможно, здесь только терминологический казус.
Независимо от количества классов, если Вы рассматриваете пространство событий типа "статья принадлежит к такому-то классу", то эти события очевидно зависимы. Даже если они не являются взаимоисключающими, вероятность принадлежности к классу 1 с вероятностью 95% ограничивает вероятность принадлежности к другому классу уровнем в 5%. Вот Вам и зависимость.
Хотя, повторю, возможно, Вы имели в виду что-то другое.
А вообще задача, при кажущейся простоте на словах, нетривиальна уже на уровне постановки. Очень много возникает моментов для обсуждения.
Добрый день!
Вы правильно говорите. Дело только в том, что вы описываете скорее строгий вариант TO BE, а я рассказываю про эвристический AS IS.
Можно сказать, что НБК не исключает присваивание обоих классов объекту (что, понимаю, контринтуитивно). Просто возвращает только один, самый вероятный класс.
Я считаю, у вас отличная идея для новой модификации НБК – в существующей версии такой «фичи» нет.
Спасибо за комментарий и простите за задержку с ответом!
Как научить Наивного Байеса давать персональные рекомендации