От задачи до решения: LLM с RAG-конфигурацией и ROC-AUC. Эксперимент на 121 прогоне за 40 часов с помощью ИИ / Comments / Habr

Весьма обстоятельно!

Мной, как не профессионалом в области, использование чанков воспринимается жутким костылём. Даже Ваши статистические выкладки не убедили: похоже, результат больше зависит от того, попала ли связанная информация в один чанк или нет.
Неужели нет распростронённых подходов в виде каких-нибудь "семантических деревьев поиска"(фразу я придумал) или что-то подобного? Понимаю, что в индустрии "все" так делают, но это очевидный недостаток алгоритма, на мой взгляд.