попробуйте получать эмбеддинги с помощью моделей трансформеров https://www.sbert.net/docs/usage/semantic_textual_similarity.html, которые ищут семантическую близость, это занимает больше времени для анализа, но результаты получаются довольно хорошие, особенно в связке с umap, если подобрать размерность.
попробуйте получать эмбеддинги с помощью моделей трансформеров https://www.sbert.net/docs/usage/semantic_textual_similarity.html, которые ищут семантическую близость, это занимает больше времени для анализа, но результаты получаются довольно хорошие, особенно в связке с umap, если подобрать размерность.