Comments 4
В целом неплохая статья, базовая работа с текстом разобрана, но:
Вроде как уже неоднократно было такое на Хабре
Даже на ноутбуках можно использовать модели по типу BERT или USE, скорее всего они обойдут классические bag-of-words-like подходы по качеству, например благодаря адекватной обработке отрицаний (частицы "не" в частности)
USE так назвали, чтобы никто не нашел. Я кстати сталкивался прямо с такой сеткой как в статье на проде, со своими задачами справлялось просто и быстро
"Просто" это действительно сильный аргумент, и у меня тоже TF-IDF работает в проде :)
Кстати USE лучше гуглить по расшифровке, тогда сразу приводит на TF Hub. Кстати если кто знает годную PyTorch реализацию - буду благодарен за ссылку.
Спасибо за статью, очень интересно читать про NLP.
Обработка естественного языка (NLP) методами машинного обучения в Python