Угрозы под контролем: применение ML для автоматического анализа отчётов / Комментарии / Хабр

Добрый день!

Все таки чистых данных для обучения недостаточно?

Да, для качественного результата большУю роль также играет общий объем выборки, репрезентативность и консистентность набора данных. Что касается балансировки, на практике для нее нет четких правил, по которым можно понять допустимый дисбаланс в количестве объектов классов, при котором данные станут «идеальными».

В рассмотренном нами случае выбранный способ балансировки (выборка с недостатком) не дал значительного прироста качества, т. к. исключенные тексты содержали неявный контекст не только для балансируемого класса. Сказалась специфика задачи и данных. Существуют и другие способы балансировки, целью которых является расширить «маленькие» по объему классы. С ними мы планируем в будущем поэкспериментировать.

Как вы думаете в вашем случае можно использовать генерацию чистых данных для ликвидации дисбаланса при обучении?

Можно попробовать генерировать на основании имеющихся данных синтетические тексты с помощью генеративных LLM и использовать такой подход для расширения небольших по объему классов.

Но к такому набору будет также применена проверка человеком, как и при валидации реальных отчетов. Мы не можем на 100% исключить возможные галлюцинации и шум в синтетических данных.