Как стать автором
Обновить

Комментарии 2

Александр, отличная статья, спасибо! Начал после статьи знакомиться с Faiss и в чем-то это пересекалось с FastText от того же Facebook. Не понял зачем они сделали отдельную библиотеку вместо расширения функционала действующей (видимо были какие-то причины). Учитывая что он как раз про классификацию - пробовали его?

Добрый день. Спасибо за комментарий и вопрос. Данную задачу довольно тяжело решать в сетапе классификации т.к. классов у нас очень много. Если говорить о том, чтобы векторизовать адреса и наименования компаний через word representations от FastText и потом искать ближайшие по косинусному расстоянию, то мы не пробовали этот вариант, потому что не нашли подтверждений тому, что FastText хорошо работает в домене русскоязычных адресов и наименований компаний "из коробки". А раз уж всё равно нужно обучать что-то для векторизации текстов, то решили взять чуть более современный подход и обучить трансформер, а не дообучать FastText. Конечно, мы не утверждаем, что нет более простых вариантов решения этой задачи, но мы выбрали такой подход.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий