Pull to refresh

Comments 6

По ходу чтения возник вопрос: не похожа ли формула Байеса на формулу расчёта TF/IDF? )

Добрый день!

Спасибо за вопрос, действительно, отчасти это так. И НБ, и TF-IDF рассчитывают частоту употребления слов для оценки их значимости. Но НБ оценивает значимость слова с точки зрения каждого класса, а TF-IDF – в целом по коллекции документов. (+ НБ не рассчитывает компонент IDF).

Потерялся после тезиса о том что вероятности релевантности и нерелевантности независимы. Если у Вас всего два этих класса, то сумма их вероятностей =1.

Здравствуйте! Это камень преткновения всех, кто решился познать секрет наивного байесовского классификатора.

Классов может быть сколько угодно – считайте, что они просто делят коллекцию документов на части. И в каждой такой части считается вероятность принадлежности, которая в сумме с вероятностью не-принадлежности действительно даёт 1.

Это мы с вами думаем, что статья либо, релевантна, либо нерелевантна. Но для НБК это всего лишь классы, которые никаким отношением друг с другом не связаны. И он не знает, сколько этих классов всего. Поэтому он и «наивный».

С другой стороны, в этом и удобство его использования: вы можете добавить статьи некоего третьего класса в выборку (например, «под сомнением»), не меняя самой логики работы НБК.

Спасибо за комментарий)

Здравствуйте. Спасибо за ответ.

Я исхожу из соображений классической теории вероятностей, хотя, возможно, здесь только терминологический казус.

Независимо от количества классов, если Вы рассматриваете пространство событий типа "статья принадлежит к такому-то классу", то эти события очевидно зависимы. Даже если они не являются взаимоисключающими, вероятность принадлежности к классу 1 с вероятностью 95% ограничивает вероятность принадлежности к другому классу уровнем в 5%. Вот Вам и зависимость.

Хотя, повторю, возможно, Вы имели в виду что-то другое.

А вообще задача, при кажущейся простоте на словах, нетривиальна уже на уровне постановки. Очень много возникает моментов для обсуждения.

Добрый день!

Вы правильно говорите. Дело только в том, что вы описываете скорее строгий вариант TO BE, а я рассказываю про эвристический AS IS.

Можно сказать, что НБК не исключает присваивание обоих классов объекту (что, понимаю, контринтуитивно). Просто возвращает только один, самый вероятный класс.

Я считаю, у вас отличная идея для новой модификации НБК – в существующей версии такой «фичи» нет.

Спасибо за комментарий и простите за задержку с ответом!

Sign up to leave a comment.

Articles