HUME — новый метод AB тестирования ИИ моделей в задачах анализа текста / Хабр

Уже 3 месяца я нахожусь в процессе разработки корпоративной RAG-системы и параллельно прохожу курсы по LLM. В такой работе я раз за разом наталкиваюсь на отсутствие возможности нормально оценить качество RAG. Собрать вопросы и ответы по собранной базе данных не сложно, особенно на тестовых прогонах.

Многие в своих работах пишут: мы достигли 85% точности! 85 % — это хорошо? Может, человек в этой задаче сделал бы 95%? Или наоборот. Без человеческого ориентира цифры висят в воздухе. Результат в конце концов оценивает человек. А он тоже умеет ошибаться.

Недавно наткнулся на исследование, которое приоткрывает завесу над этими вопросами. Группа авторов из Сбера, Стэнфорда и нескольких других институтов предложила подход HUME (Human Evaluation Framework for Text Embeddings).

Суть подхода

Авторы взяли 16 датасетов из популярного бенчмарка MTEB (задачи на классификацию, кластеризацию, поиск семантической близости, ранжирование), вручную их разметили, а затем сравнили, как с этими заданиями справляются люди и лучшие современные модели-эмбеддеры. В том числе на неродных для ИИ языках — арабском, русском, норвежском.

Что получилось

Средний результат: у человека — 77.6%, у лучшей модели (voyage-3) — 80.1%. Модель обошла человека, но отрыв минимальный.

Зато на задачах «найди самое похожее» (семантическая близость) ситуация обратная. Для арабского языка, где присутствует многозначность и культурные коннотации, человек показал 67.5%, модель — 40.9%. Разрыв огромный.

На «бедных» языках (мало данных для обучения), включая русский и норвежский, модели тоже заметно отстают от людей — особенно в анализе тональности.

В чистой классификации по жёсткому эталону (без двусмысленностей) модель выдаёт почти 100% — здесь ИИ вне конкуренции.

Отдельный эксперимент: когда авторы попробовали заменить людей-разметчиков на LLM, качество разметки упало (76.1% против 81.2% у людей). То есть даже крупные языковые модели пока не дотягивают до человека в задачах, требующих тонкого суждения.

Выводы

Для меня, как для человека, который сейчас проектирует RAG, этот результат - попытка нащупать некоторую почву в оценке работы своей системы.

P. S. ИИ отлично справляется с рутиной: задачи с чёткими правилами, где нет двусмысленности и ничего не меняется годами - можно смело отдавать моделям. Но как только появляются культурный код, тонкая семантика, контекст «между строк» — пока выигрывает человек. Особенно на русском языке, который не относится к «обильно кормленным» для LLM.

Как вы оцениваете качество RAG на русском языке? Делитесь опытом в комментариях.