Comments 4
Было бы интересно собрать какие нибудь большие тесткейсы и на них статистику посмотреть эмбеддингов!
потому что кажется что на небольших кейсах есть предвзятость и сдвиги
Вы имеете ввиду длинные тексты?
С этим проблема. Локальные модели очень ограниченные в размере текста, который они могут превратить в вектор.
text-large-03 может относительно много. Если не ошибаюсь 4096.
Bert 712 символов. intfloat/multilingual-e5-large - вообще 512.
Поэтому тут очень специфическое применение.
не я имею ввиду собрать различные задачи например для RAG, пособирать промты всякие и тест кейсы для этого и провести исследование на (хотя бы 100+ примерах) для русского, английского языка, … Для задач на понимание научных статей, блогов, новостей и тд. И посмотреть какие вообще эмбеды где лучше делают репрезентации.
Думаю что вполне может потянуть на небольшую научную статью
Возможно, но я тут больше как практик, поэтому на сегодняшний день наиболее практичным мне кажется исходить из домено-ориентированного подхода.
Т.е. делать файнтюн эмбединга под конкретную область знаний. Но это не решит вопрос (увы) задач поиска ответа на вопросы. К сожалению "традиционный" подход: нарезать на куски, сделать вектор и потом по ним искать имеет ограничения методологические. Более 80-85% точных ответов сложно получить.
«В чем сила?» — ищем ответ среди афоризмов. Сравнение 6 моделей для векторного поиска и так ли хорош OpenAi Large