Суров закон, но он закон: как мы собрали RuTaR — датасет для оценки reasoning-систем в сфере налогового права / Comments / Habr

>как думаете, в чем причина?

Пока мы не знаем наверняка. Но есть гипотеза: Fine-tuned RAG "фокусируется" на максимально точном совпадении между вопросом и фрагментом документа. Поэтому модель находит самый релевантный фрагмент, но теряет контекст — например, не видит оговорки/противоречия в другом абзаце или не учитывает определенные исключения. В Base RAG, в свою очередь, могут попасть менее точные, но более разнообразные фрагменты текста, что иногда помогает модели провести правильный reasoning. К тому же, вполне вероятно, что точность ответов систем попросту является одинаковой в рамках статистической значимости.

>Все-таки без gemini и antropic результат неполноценный)

Уже работаем над этим) Cкоро опубликуем метрики, актуальные для всех популярных reasoning-моделей. Stay tuned!

Comments 3

needsomedata Jun 28 at 11:27

1) Тем не менее, итоговая точность ответов у Fine‑tuned RAG оказалась ниже, чем у Base RAG.

как думаете, в чем причина?

2) Все-таки без gemini и antropic результат неполноценный)

Bombaley Jun 30 at 12:46

Спасибо за публикацию! Подскажите, какие вы видите перспективы развития у технологии PSM (partial sequence-data model)?