Comments / Profile of derunat / Habr

Natalia Deryugina @derunat

Пишу обзоры статей, веду тгк Pro AI

Суров закон, но он закон: как мы собрали RuTaR — датасет для оценки reasoning-систем в сфере налогового права

>как думаете, в чем причина?

Пока мы не знаем наверняка. Но есть гипотеза: Fine-tuned RAG "фокусируется" на максимально точном совпадении между вопросом и фрагментом документа. Поэтому модель находит самый релевантный фрагмент, но теряет контекст — например, не видит оговорки/противоречия в другом абзаце или не учитывает определенные исключения. В Base RAG, в свою очередь, могут попасть менее точные, но более разнообразные фрагменты текста, что иногда помогает модели провести правильный reasoning. К тому же, вполне вероятно, что точность ответов систем попросту является одинаковой в рамках статистической значимости.

>Все-таки без gemini и antropic результат неполноценный)

Уже работаем над этим) Cкоро опубликуем метрики, актуальные для всех популярных reasoning-моделей. Stay tuned!

Look

В Оксфордшире расположен крупнейший экспериментальный...

derunat Nov 8 2024 at 10:09

Причина самая банальная и обидная — в рамках Брексита Великобритания прекратила сотрудничество с Евроатомом, который финасировал проект. Ожидалось, что к моменту закрытия уже заработает новый, гораздо более мощный токамак ITER (во Франции). Но в итоге и ITER не успели достроить, и JET закрыли. Физики переживали, что получают вынужденный многолетний перерыв в экспериментах, подписывали петиции, но безуспешно.

Look

Как ИИ и методы прошлого века обошли золотых медалистов IMO в геометрии

derunat May 20 2024 at 16:55

В целом соглашусь, что это не чистое творчество. Хотя бы уже потому, что решение может быть правильным или неправильным, а в творчестве такого не бывает. Техника бесконечно важна, но всё-таки как её применить — вопрос творческий, на мой взгляд.

Look

Как устроен RAPTOR — новый подход для RAG, который понимает контекст сразу всей книги

derunat Apr 11 2024 at 11:42

Тут большая часть работы выполнена уже моделью эмбеддингов, а подобор релевантных кусков происходит при проходе по дереву простым поиском самой близкой к вопросу вершине

Look