Comments 2
Самое слабое звено в вашем алгоритме это:sentence-transformers/all-MiniLM-L6-v2
Весьма обстоятельно!
Мной, как не профессионалом в области, использование чанков воспринимается жутким костылём. Даже Ваши статистические выкладки не убедили: похоже, результат больше зависит от того, попала ли связанная информация в один чанк или нет.
Неужели нет распростронённых подходов в виде каких-нибудь "семантических деревьев поиска"(фразу я придумал) или что-то подобного? Понимаю, что в индустрии "все" так делают, но это очевидный недостаток алгоритма, на мой взгляд.
Sign up to leave a comment.
От задачи до решения: LLM с RAG-конфигурацией и ROC-AUC. Эксперимент на 121 прогоне за 40 часов с помощью ИИ