Пока мы не знаем наверняка. Но есть гипотеза: Fine-tuned RAG "фокусируется" на максимально точном совпадении между вопросом и фрагментом документа. Поэтому модель находит самый релевантный фрагмент, но теряет контекст — например, не видит оговорки/противоречия в другом абзаце или не учитывает определенные исключения. В Base RAG, в свою очередь, могут попасть менее точные, но более разнообразные фрагменты текста, что иногда помогает модели провести правильный reasoning. К тому же, вполне вероятно, что точность ответов систем попросту является одинаковой в рамках статистической значимости.
>Все-таки без gemini и antropic результат неполноценный)
Уже работаем над этим) Cкоро опубликуем метрики, актуальные для всех популярных reasoning-моделей. Stay tuned!
Причина самая банальная и обидная — в рамках Брексита Великобритания прекратила сотрудничество с Евроатомом, который финасировал проект. Ожидалось, что к моменту закрытия уже заработает новый, гораздо более мощный токамак ITER (во Франции). Но в итоге и ITER не успели достроить, и JET закрыли. Физики переживали, что получают вынужденный многолетний перерыв в экспериментах, подписывали петиции, но безуспешно.
В целом соглашусь, что это не чистое творчество. Хотя бы уже потому, что решение может быть правильным или неправильным, а в творчестве такого не бывает. Техника бесконечно важна, но всё-таки как её применить — вопрос творческий, на мой взгляд.
Тут большая часть работы выполнена уже моделью эмбеддингов, а подобор релевантных кусков происходит при проходе по дереву простым поиском самой близкой к вопросу вершине
>как думаете, в чем причина?
Пока мы не знаем наверняка. Но есть гипотеза: Fine-tuned RAG "фокусируется" на максимально точном совпадении между вопросом и фрагментом документа. Поэтому модель находит самый релевантный фрагмент, но теряет контекст — например, не видит оговорки/противоречия в другом абзаце или не учитывает определенные исключения. В Base RAG, в свою очередь, могут попасть менее точные, но более разнообразные фрагменты текста, что иногда помогает модели провести правильный reasoning. К тому же, вполне вероятно, что точность ответов систем попросту является одинаковой в рамках статистической значимости.
>Все-таки без gemini и antropic результат неполноценный)
Уже работаем над этим) Cкоро опубликуем метрики, актуальные для всех популярных reasoning-моделей. Stay tuned!
Причина самая банальная и обидная — в рамках Брексита Великобритания прекратила сотрудничество с Евроатомом, который финасировал проект. Ожидалось, что к моменту закрытия уже заработает новый, гораздо более мощный токамак ITER (во Франции). Но в итоге и ITER не успели достроить, и JET закрыли. Физики переживали, что получают вынужденный многолетний перерыв в экспериментах, подписывали петиции, но безуспешно.
В целом соглашусь, что это не чистое творчество. Хотя бы уже потому, что решение может быть правильным или неправильным, а в творчестве такого не бывает. Техника бесконечно важна, но всё-таки как её применить — вопрос творческий, на мой взгляд.
Тут большая часть работы выполнена уже моделью эмбеддингов, а подобор релевантных кусков происходит при проходе по дереву простым поиском самой близкой к вопросу вершине