Pull to refresh

Comments 7

Да, действительно не попадалось. Собираю идеи для продолжения: Word Mover’s Distance, Doc2vec, Smooth Inverse Frequency with GloVe и, возможно, можно дополнить контекстными эмбедингами токенов из BERT.
Да, можно еще sBert (https://arxiv.org/abs/1908.10084) и BERTScore ( arxiv.org/abs/1904.09675 ) добавить. вообще, конечно, их расплодилось… слишком уж неочевидно :)
Как минимум каждая обучалась 20 эпох, и останавливалась только если результат становился хуже, а для финального графика брался только лучший результат. Да и можно увидеть по результатам, что до обучения результат лучше, чем после.
Я знаю модели, которые учатся по 900 эпох. И вопрос правильного выбора гиперпараметров ещё есть.
Еще есть предобученные модели от UKPLab — sentence-transformers с их мультиязыковыми моделями на 13 и на 100 языков. Есть USE от гугла и новейший LaBSE на 109 языков от них же. Немного написал про них тут https://habr.com/ru/post/517226/. Соль в том, что они выровненные и можно в них подавать предложения на разных языках без указания самого языка.
Sign up to leave a comment.

Articles