Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Настройки векторизации сильно от разных датасетов зависят. У меня на похожей задаче сработала комбинация параметров, которая потом на других текстах была отвратительна.
Gridsearchcv на пару дней и всё, никакого интереса.
А вот предобработка данных — это другое дело. У меня около 200 категорий, поэтому экспертное знание превратилось в несколько десятков регулярок по внедрению токенов в текст. И на этом очень круто взлетела точность.
Из серии мак-адрес заменить на токен macaddress.
Анализ заявок на обслуживание с помощью машинного обучения