Comments 6
Другое название для синтетики и/или аугментации?
Не совсем.
В агументации мы берем уже размечанные данные и чуть-чуть искажаем их, чтобы увеличить кол-во обучающих примеров.
В синтетике мы полностью генерируем данные вместе с разметкой и пытаемся их сделать максимально похожими на данные из реального мира.
В слабой разметке у нас есть сырые неразмечанные данные. Вместо того, чтобы их самим вручную размечать, мы пишем простые правила, которые не 100% точные, но которых много. Поверх этих правил накадываем модель и обучаем ее. Получается что-то похожее на стекинг моделей, но вместо моделей первого уровня используются функции-правила, которые написаны вручную.
спасибо за материал!
А можете дать ссылки на основные статьи по подходу "слабой разметки" или хотябы его описания применительно к текстам? Я в статье нашел только одну медицинскую ссылку
Часто встречается даже показатель точности в 10 единиц f1.
не очень понятно. f мера макимум может быть 1.0
из оригинила понятнее не становится:
As much as 10 f1 points is not uncommon.
Почему я изменил своё мнение о слабой разметке для ML