Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
неразумно в качестве свойста использовать +1/-1 для классификации документов. так как у вас из обычного очень разреженного вектора из например 500 значений (500 features), получится вектор из полного списка (47тыс в вашем примере* количество оцениваемых свойств) значений, большая часть которых просто неинформативна — забита -1. или я вас в этом моменте неправильно поняла?
Если же вы будете делать как у вас написано в статье +1/-1, то у вас получится вектор с кучей -1 вместо нулей. и вместо того чтобы передавать вектор из 500 значений, вы будете передавать вектор из 47тысяч. Это как бы совсем нелогично и для данного типа классификации не используется.
В данном случае просто необходимо делать нормализацию, скалирование.
Классификация документов методом опорных векторов