Во-первых, я здесь ошибся — по-русски этот процесс называется стемминг :)
Во-вторых, согласен, основная (нормальная, начальная) форма слова — это другое. Я имел в виду приведения слова к его основе.
Наилучшую точность, которую мне удалось получить с помощь RF — 0.93286, а SVM — 0.97786.
Целиком и полностью согласен, с тем, что используя нейронные сети можно получить почти 100% результат, но в данной статье у меня не стояла задача добиться высокого места в Leaderbord. Я хотел показать на примере известного датасета, что происходит внутри модели при обучении и как, используя полученные знания, можно планировать свою дальнейшую работу.
P.S. Спасибо за столь развёрнутый ответ! А пост про нейронные сети на примере данного соревнования буду с нетерпением ждать.
Выводы, которые я делаю исходя из получившегося графика обучающей кривой, относятся к конкретному рассматриваемому случаю и я считаю, что будет неверно обобщать их на применяемые модели в целом. А, если говорить про SVM в общем, то полностью согласен с тем, что увеличение обучающей выборки далеко не всегда приведёт к улучшению результатов.
В данном примере для меня было интересно увидеть, во-первых, влияет ли наличие описания товара на вероятность его покупки и, во-вторых, что, конкретно, в описании важно для покупателя. В результате очевидно, что описание влияет, но гораздо меньше, чем цена или состояние товара, как и ожидалось. Правда, оказалось неожиданно, что покупатель всё ещё реагирует на такие слова как «good» и «great».
В ритейле множество задач, которые в большинстве случаев решаются либо с использованием «экспертных» знаний, либо методом проб и ошибок. Например, где открыть новый магазин, чтобы покупателям было удобно и, соответственно, он был прибыльным. Какие товары поставить на рядом на полку, чтобы увеличить продажи. Какую назначить продажную цену для товара, чтобы получить максимальную прибыль и не потерять покупателя.
Во-вторых, согласен, основная (нормальная, начальная) форма слова — это другое. Я имел в виду приведения слова к его основе.
Целиком и полностью согласен, с тем, что используя нейронные сети можно получить почти 100% результат, но в данной статье у меня не стояла задача добиться высокого места в Leaderbord. Я хотел показать на примере известного датасета, что происходит внутри модели при обучении и как, используя полученные знания, можно планировать свою дальнейшую работу.
P.S. Спасибо за столь развёрнутый ответ! А пост про нейронные сети на примере данного соревнования буду с нетерпением ждать.
В ритейле множество задач, которые в большинстве случаев решаются либо с использованием «экспертных» знаний, либо методом проб и ошибок. Например, где открыть новый магазин, чтобы покупателям было удобно и, соответственно, он был прибыльным. Какие товары поставить на рядом на полку, чтобы увеличить продажи. Какую назначить продажную цену для товара, чтобы получить максимальную прибыль и не потерять покупателя.