Обновить
4K+
2
MTS AI. Secret Editor Account@SecretEditor

Пользователь

24
Рейтинг
4
Подписчики
Отправить сообщение

Что не так с оценкой RAG-системи какое решение предлагает динамический бенчмарк DRAGOn

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели6.6K

Привет, Хабр! В этот раз предлагаю разбор научной статьи DRAGOn: Designing RAG On Periodically Updated Corpus — будет полезна всем, кто интересуется RAG и хочет знать, как оценивать такие системы. 

Структура

1. Почему RAG сложно оценивать 
2. Идея DRAGOn
3. Как строится бенчмарк
4. Проверка качества QA 
5. Проверка бенчмарка на RAG-системах
6. Публичный лидерборд 
7. Ограничения, проблемы и практические выводы

Читать далее

Как обучить LLM выбирать правильные варианты кода, сгенерированные другой моделью. Разбор от Тайного редактора

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели4.6K

«Тайный редактор» будет на регулярной основе коротко разжевывать суть научных публикаций по технологиям искусственного интеллекта, отвечать на неудобные вопросы по ИИ, объяснять события, развеивать мифы и разоблачать пустой хайп вокруг технологий.

Сегодня разбираем статью от исследователей MTS AI Iterative Self‑Training for Code Generation via Reinforced Re‑Ranking — о том, как можно обучить реранжирующую модель выбирать качественные варианты кода, сгенерированные другой моделью. Спойлер: с этим подходом удается сделать так, что модель на 13B параметров может обогнать по качеству 33B.

Читать далее

Информация

В рейтинге
344-й
Зарегистрирован
Активность