Comments 4
Идея крутая. В кода примера есть две ошибки, strtree.StringTree, и recall_score наверное должно быть.
Спасибо за статью.
Насколько это решение применимо в классификации для такого рода задач когда классов трейнсета примерно 70000, документов (текстовых наименований продукции ) в среднем по 4 на класс (т.е. документов около 300_000 в трейне) ?
Это пример из реальности где я в том числе делал стемминг https://habr.com/ru/articles/658501/
Спасибо за комментарий и за вашу статью - было очень интересно. Когда я писал свою, я рассматривал только бинарную классификацию. Однако только что я сделал обновление для strtree (v0.2.0), которое добавляет возможность мультиклассовой классификации и улучшает производительность на больших объемах данных, что позволяет применить этот метод к вашей задаче. Так что теперь можно пробовать!
strtree — классификатор строк на основе регулярных выражений