Как стать автором
Обновить

Комментарии 2

Все таки чистых данных для обучения недостаточно? Как вы думаете в вашем случае можно использовать генерацию чистых данных для ликвидации диспаланса при обучении?

Добрый день!

Все таки чистых данных для обучения недостаточно?

Да, для качественного результата большУю роль также играет общий объем выборки, репрезентативность и консистентность набора данных. Что касается балансировки, на практике для нее нет четких правил, по которым можно понять допустимый дисбаланс в количестве объектов классов, при котором данные станут «идеальными».

В рассмотренном нами случае выбранный способ балансировки (выборка с недостатком) не дал значительного прироста качества, т. к. исключенные тексты содержали неявный контекст не только для балансируемого класса. Сказалась специфика задачи и данных. Существуют и другие способы балансировки, целью которых является расширить «маленькие» по объему классы. С ними мы планируем в будущем поэкспериментировать.

Как вы думаете в вашем случае можно использовать генерацию чистых данных для ликвидации дисбаланса при обучении?

Можно попробовать генерировать на основании имеющихся данных синтетические тексты с помощью генеративных LLM и использовать такой подход для расширения небольших по объему классов.

Но к такому набору будет также применена проверка человеком, как и при валидации реальных отчетов. Мы не можем на 100% исключить возможные галлюцинации и шум в синтетических данных.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий