Comments 1
по теме статьи - интересная статья вышла на днях про емкость векторного пространства - сколько документов или вернее, чанков, которые имеют "адрес" в виде вектора можно разместить используя вектор определенной длины, в векторном хранилище: "On the Theoretical Limitations of Embedding-Based Retrieval" https://arxiv.org/abs/2508.21038 Для больших хранилищ документов это может быть актуально (у меня были минимум 10 млн документов, максимум ~500 млн, где уже придется принимать во внимание ограничение по длине вектора)
Sign up to leave a comment.
Что такое векторизация текста в NLP и какая она бывает: One-hot encoding, Bag of words, TF-IDF, Word2Vec, BERT и другие