averkij Aug 31 2020 at 10:56

Делаем параллельный корпус из книг с помощью sentence embeddings

8 min

11K

Data Mining * Natural Language Processing * Python * Learning languagesMachine learning *

Tutorial

+13

Comments 4

zuborg Aug 31 2020 at 14:06

Для достаточно больших текстов, имхо, можно обойтись и без готовых моделей, а понаходить корреляции (слов и их переводов) из, собственно, этих текстов.
Хотя это уже на кандидатскую тянет )

averkij Aug 31 2020 at 14:43

Если сопоставлять именно по словам, то есть такая мысль — перевести текст машинно со второго языка на первый, привести слова к нормальной форме (гуляли — гулять, стулом — стул) и считать соответствия с учетом синонимов. Но считать моделями мне все же видится проще, да и поддержка множества языков из коробки это большой плюс.

MultiView Aug 31 2020 at 19:03

Спасибо, интересная статья.

Вы не пробовали использовать лингвистические языковые модели для анализа текстов?

Они давно используются для понимания смысла в системах наравне с таксономиями.

averkij Sep 1 2020 at 05:36

Под языковыми моделями вы понимаете предсказание следующего слова по предыдущим? Если да, то нет, не использовал. Если нет, то поясните, пожалуйста.