Pull to refresh
4K+
2
MTS AI. Secret Editor Account@SecretEditor

User

24
Rating
4
Subscribers
Send message

Что не так с оценкой RAG-системи какое решение предлагает динамический бенчмарк DRAGOn

Level of difficultyMedium
Reading time9 min
Reach and readers6.6K

Привет, Хабр! В этот раз предлагаю разбор научной статьи DRAGOn: Designing RAG On Periodically Updated Corpus — будет полезна всем, кто интересуется RAG и хочет знать, как оценивать такие системы. 

Структура

1. Почему RAG сложно оценивать 
2. Идея DRAGOn
3. Как строится бенчмарк
4. Проверка качества QA 
5. Проверка бенчмарка на RAG-системах
6. Публичный лидерборд 
7. Ограничения, проблемы и практические выводы

Читать далее

Как обучить LLM выбирать правильные варианты кода, сгенерированные другой моделью. Разбор от Тайного редактора

Level of difficultyEasy
Reading time2 min
Reach and readers4.6K

«Тайный редактор» будет на регулярной основе коротко разжевывать суть научных публикаций по технологиям искусственного интеллекта, отвечать на неудобные вопросы по ИИ, объяснять события, развеивать мифы и разоблачать пустой хайп вокруг технологий.

Сегодня разбираем статью от исследователей MTS AI Iterative Self‑Training for Code Generation via Reinforced Re‑Ranking — о том, как можно обучить реранжирующую модель выбирать качественные варианты кода, сгенерированные другой моделью. Спойлер: с этим подходом удается сделать так, что модель на 13B параметров может обогнать по качеству 33B.

Читать далее

Information

Rating
346-th
Registered
Activity