Обновить
Выступление Ильи Кацева на PML
Выступление Ильи Кацева на PML

Поделюсь классным докладом от Ильи Кацева про LLM-as-a-Judge с PML. Вместо рассказов про успешный-успех, предлагается актуальный работающий подход.

  1. Простые разметки поддаются! А вот сложные — ещё не до конца. Но артефакты размышлений могут сильно помочь и ускорить проверяющего. Например, если нужно вручную искать какие-то факты, ходить по сайтам и т.д.

  2. В начале решения задачи можно подобрать первый промт с отличным качеством, а дальше становится тяжело. В этот момент начинается бесконечный разбор случаев — и почти сразу модель начинает теряться.

  3. ЛЛМ часто решает некоторые типы задач очень хорошо, а другие — плохо или рандомно (например, если не может сходить в интернет за нужной информацией). В итоге получается среднее качество. → Оставляем только то, в чём она сильна!

  4. Привыкание! Помните о нём: вначале метрики могут упасть, но если есть профит, потом всё отрастёт обратно. Сравнивайте с прошлым.

  5. Среднее время разметки задания — это не среднее арифметическое скоростей, а среднее гармоническое! (Особенно важно при малом количестве асессоров.)

  6. Ризонинг у модели хороший, но ответ может быть неверным. Использовать его как подсказку тоже сложно — нет структуры ответа, аспекты постоянно разные. → Просим отвечать структурно и на конкретные вопросы — так и галлюцинации проще проверять, и пользоваться удобнее.

    • Разметчику должно быть просто и понятно, как пользоваться подсказкой!

  7. Лучший формат подсказок (если устроены: «что проверяли?» → «вердикт») — сверху только найденные проблемы. Иначе есть соблазн раньше времени всё одобрить.

  8. Иногда лучше вообще не давать подсказку! Например, ЛЛМ не может проверить работоспособность калькулятора — и будет только смущать.

  9. Экспериментируйте с моделями! DeepSeek пишет чересчур подробно, а YandexGPT — наоборот, коротко и по делу.

  10. Качество меряем на ядре асессоров, потому что:

    1. на них проще повлиять для прироста качества;

    2. медленные участники часто отваливаются.

Итог: ЛЛМ пока не справляется со сложными инструкциями (особенно когда ответ неоднозначен), но там, где результат можно однозначно определить, — заметно ускоряет и упрощает процесс.

Потихоньку начинаю писать в @noisetosignal — идёмте вместе!

Теги:
+1
Комментарии0

Публикации

Ближайшие события