Google разработала масштабируемый процесс active learning, который позволяет в десятки тысяч раз сократить объём размеченных данных, необходимых для тонкой настройки больших языковых моделей на сложных задачах — например, при модерации рекламного контента.

Метод работает следующим образом: сначала стартовая модель (LLM-0) принимает промпт и автоматически размечает огромный массив данных, создавая базовую разметку. Затем кластеризация анализирует эту разметку и выявляет примеры, где модель ошибается или проявляет неуверенность. Эти примеры считаются наиболее спорными и ценными для обучения.

Далее происходит отбор данных: из выявленных кластеров выбираются наиболее информативные и разнообразные примеры, которые требуют улучшения.

Эти данные передаются экспертам для ручной разметки, чтобы обеспечить высокую точность и качество. После этого обновленные данные используются для дообучения модели.

Этот процесс повторяется: модель дообучается, снова происходит кластеризация и отбор спорных примеров, затем эксперты выполняют разметку, и модель снова дообучается. Таким образом, метод постоянно совершенствуется, повышая точность и качество работы модели.

Результаты:

  • Сокращение с 100 000 размеченных примеров до менее 500 при сохранении или улучшении качества.

  • Улучшение метрики Cohen’s Kappa на 55–65%.

  • В больших продакшн-моделях — до 3–4 порядков меньше данных при сопоставимом или лучшем качестве.

Что такое Cohen’s Kappa?

Это метрика, которая показывает, насколько два «судьи» (например, эксперт и модель) согласны между собой с поправкой на случайные совпадения.

  • 0.0 — нет согласия (или хуже случайного)

  • 0.41–0.60 — умеренное согласие

  • 0.61–0.80 — значительное

  • 0.81–1.00 — почти полное согласие. В задачах с дисбалансом классов Kappa даёт более честную оценку, чем обычная точность (accuracy).

Чем лучше предыдущих методов:

  • Точечная разметка: размечаются только самые информативные примеры.

  • Масштабируемость: метод применим к наборам данных с сотнями миллиардов примеров.

  • Экономия ресурсов: меньше времени и затрат на разметку.

  • Быстрая адаптация: подходит для доменов с быстро меняющимися правилами (реклама, модерация, безопасность).

При умном отборе данных LLM можно адаптировать в тысячи раз быстрее и дешевле, чем при традиционном обучении на больших размеченных наборах.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник