Комментарии 3
1) Тем не менее, итоговая точность ответов у Fine‑tuned RAG оказалась ниже, чем у Base RAG.
как думаете, в чем причина?
2) Все-таки без gemini и antropic результат неполноценный)
>как думаете, в чем причина?
Пока мы не знаем наверняка. Но есть гипотеза: Fine-tuned RAG "фокусируется" на максимально точном совпадении между вопросом и фрагментом документа. Поэтому модель находит самый релевантный фрагмент, но теряет контекст — например, не видит оговорки/противоречия в другом абзаце или не учитывает определенные исключения. В Base RAG, в свою очередь, могут попасть менее точные, но более разнообразные фрагменты текста, что иногда помогает модели провести правильный reasoning. К тому же, вполне вероятно, что точность ответов систем попросту является одинаковой в рамках статистической значимости.
>Все-таки без gemini и antropic результат неполноценный)
Уже работаем над этим) Cкоро опубликуем метрики, актуальные для всех популярных reasoning-моделей. Stay tuned!
Спасибо за публикацию! Подскажите, какие вы видите перспективы развития у технологии PSM (partial sequence-data model)?
Суров закон, но он закон: как мы собрали RuTaR — датасет для оценки reasoning-систем в сфере налогового права