Зависит от задачи. Если исключительно для русского и задача буквально "искать сходство", то deepvk/USER-bge-m3. Если требуется мультиязычность, BAAI/bge-m3. Если задача ближе к RAG и (или) требуется неплохая мультиязычность, то intfloat/multilingual-e5-large-instruct (её можно запромптить).
Да, но, в целом, не вижу необходимости использовать его если есть гибридный поиск, при котором можно для каждого чанка можно хранить метаданные отдельно, и Graph RAG. В своих экспериментах мы пробовали этот похожий метод еще в 2023 и значимого преимущества у него не было. Кроме того, не все документы легко помещаются в контекстное окно, почему имплементировать этот метод 1:1 под реальную задачу невозможно -- все равно придётся бить на чанки.
Зависит от задачи. Если исключительно для русского и задача буквально "искать сходство", то deepvk/USER-bge-m3. Если требуется мультиязычность, BAAI/bge-m3. Если задача ближе к RAG и (или) требуется неплохая мультиязычность, то intfloat/multilingual-e5-large-instruct (её можно запромптить).
Да, но, в целом, не вижу необходимости использовать его если есть гибридный поиск, при котором можно для каждого чанка можно хранить метаданные отдельно, и Graph RAG. В своих экспериментах мы пробовали этот похожий метод еще в 2023 и значимого преимущества у него не было. Кроме того, не все документы легко помещаются в контекстное окно, почему имплементировать этот метод 1:1 под реальную задачу невозможно -- все равно придётся бить на чанки.