Pull to refresh

Comments 8

Простите. Пытался посмотреть рейтинг статьи на телефоне и случайно заминусовал статью.
Я за Вас поправил. :-) [/offtopic]

По теме: статья и алгоритм очень вовремя! Как раз сейчас в рамках работы стоит задача по классификации множества пар ключ->множество_значений, заодно испытаю.
Теоретически, он будет выдавать более статистически верное решение, чем SVM, но при этом требовать больше вычислений, но все зависит от реализации алгоритма, так что дерзайте, и ссылочкой на гитхаб поделитесь — мне эта тема интересна, и я сейчас ее активно развиваю
Можно чуть поподробнее почему
Теоретически, он будет выдавать более статистически верное решение, чем SVM
?
SVM — линейный алгоритм, а значит, сильно зависит от качества обучающей выборки — для получения качественных решений нужно найти таких членов классифицируемого множества, что они покрывали как можно большую площадь классифицируемого множества.

Если мы начнем с помощью с SVM пытаться классифицировать сильно пересекающиеся по значениям векторов множества (тексты, например) — то разделяющая плоскость неопределенности будет довольно медленно уменьшаться.

В муравьином случае мы работаем с многомерной структурой, и формируем наши множества на на плоскости, а в пространстве, мерность которого равна количеству элементов этого множества — а следовательно, классифицирующие множества проявляются сильней, так как каждая точка этого множества содержит значительно больше информации.
Простите, всё равно не понял.

Под линейностью алгоритма SVM вы понимаете то, что разделение множеств происходит гиперплоскостями?
Но с kernel trick алгоритм становится совсем нелинейным.
Вот, смотрите здесь.

Что такое сильно пересекающиеся по значениям векторов множества?

И совсем не понял про пространство с мерностью, равной количеству элементов множества.
Почему так?

P.S. из-за чего спрашиваю — я считал, что SVM один из самых оптимальных алгоритмов классификации, который строит сложные модели. Может я чего-то не знаю?
а почему кстати нив баес? по моему этот алгоритм почти полностью соответствует построению энтропийного дерева решений? на каждом уровне дерева ищется пара <признак-значение> которая при разбиение пространства гиперплоскостью (ортогональной одной их осей координат), минимизировало бы среднюю меру энтропию двух полученных подмножеств; итог — на выходе набор правил
так что не последует разъяснения по поводу
Аналогом AntMiner является известный алгоритм Naive Bayes

?
Sign up to leave a comment.

Articles