Обзор методов чистки данных / Comments / Habr

aarmaageedoon Sep 16 2021 at 13:45

Это хороший вопрос. Изначально делалось предположение, что ошибка равномерно распределена по датасету. Можно сказать, что это предположение выполняется, учитывая что довольно часто перед обучением датасеты перемешиваются случайным образом. Однако, предположим, что мы в первую очередь обучаемся на ошибочных данных. Сразу встает вопрос о характере ошибки:
1. Если в ошибочных примеров нет никакой связи между входом и выходом, то можно сказать, что модели и не обучалась вовсе (если модель сложна, то она просто запомнит эти зависимости) и обучение начнется, когда она она будет обучаться на оставшихся данных, при этом будет наблюдаться всплеск функции ошибок.
2. Если же ошибочные представляют собой "перевертыши", где связь есть, только отрицательная, то подозреваю, что модель, увидев "правильные" данные будет долго переучиваться. Причем всплеск функции ошибок будет еще больше, чем в первом случае.
Резюмируя, можно сказать, что при достаточном количестве правильных данных, вы просто потеряете время, однако модель в конечном счете обучится лучше, чем если бы ошибка была бы размазана по датасету. Напоминаю, что это гипотетически.
Этот вопрос еще лучше и заслуживает отдельного исследования. Мы знаем об этом эмпирически: если вы посмотрите на таблицу, приведенную в статье, то можете видеть, что разница в точности моделей между полностью зашумленным случаем и золотым случаем, наблюдается только в третьем знаке. Поэтому можно говорить о том, что BERT довольно устойчив к шуму около 10 процентов (на задачах, аналогичных этой). Конечно, делать такое для каждой модели дороговато, но другого способа я не знаю. Если подумать, то подобная граница зависит от типа ошибки, от сложности данных, от сложности моделей и еще чего, что мне неизвестно. То, что перечислено уже ставит задачу в разряд "не легко")

Comments 4

piva Aug 7 2021 at 00:18

Если я правильно понимаю, что эти алгоритмы применимы не только к обработке языка, а к данным в целом.

Нет ли где-то примеров использования этих алгоритмов на языках программирования (чтобы глянуть и понять как можно использовать в работе) ?

aarmaageedoon Aug 7 2021 at 09:18

Да, вы правы.

Вы можете посмотреть оригинальную работу по TracIn, авторы изначально используют его для изображений. Они, также, поделились исходным кодом. https://github.com/frederick0329/TracIn

enrupt Sep 16 2021 at 13:11

Есть ли разница, идут ли 10% ошибок в начале обучения или разбросаны по датасету? Как определяется граница, при которой модель уже не может игнорировать ошибку?