Как стать автором
Обновить

Суров закон, но он закон: как мы собрали RuTaR — датасет для оценки reasoning-систем в сфере налогового права

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров384
Всего голосов 4: ↑3 и ↓1+2
Комментарии3

Комментарии 3

1) Тем не менее, итоговая точность ответов у Fine‑tuned RAG оказалась ниже, чем у Base RAG.

как думаете, в чем причина?

2) Все-таки без gemini и antropic результат неполноценный)

>как думаете, в чем причина?

Пока мы не знаем наверняка. Но есть гипотеза: Fine-tuned RAG "фокусируется" на максимально точном совпадении между вопросом и фрагментом документа. Поэтому модель находит самый релевантный фрагмент, но теряет контекст — например, не видит оговорки/противоречия в другом абзаце или не учитывает определенные исключения. В Base RAG, в свою очередь, могут попасть менее точные, но более разнообразные фрагменты текста, что иногда помогает модели провести правильный reasoning. К тому же, вполне вероятно, что точность ответов систем попросту является одинаковой в рамках статистической значимости.

>Все-таки без gemini и antropic результат неполноценный)

Уже работаем над этим) Cкоро опубликуем метрики, актуальные для всех популярных reasoning-моделей. Stay tuned!

Спасибо за публикацию! Подскажите, какие вы видите перспективы развития у технологии PSM (partial sequence-data model)?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации