kucev Jan 12 2022 at 08:51

Почему я изменил своё мнение о слабой разметке для ML

9 min

5.3K

Big Data * Data Mining * Artificial IntelligenceMachine learning * Image processing *

Translation

+11

Comments 6

S_A Jan 12 2022 at 13:54

Другое название для синтетики и/или аугментации?

kucev Jan 17 2022 at 09:49

Не совсем.

В агументации мы берем уже размечанные данные и чуть-чуть искажаем их, чтобы увеличить кол-во обучающих примеров.

В синтетике мы полностью генерируем данные вместе с разметкой и пытаемся их сделать максимально похожими на данные из реального мира.

В слабой разметке у нас есть сырые неразмечанные данные. Вместо того, чтобы их самим вручную размечать, мы пишем простые правила, которые не 100% точные, но которых много. Поверх этих правил накадываем модель и обучаем ее. Получается что-то похожее на стекинг моделей, но вместо моделей первого уровня используются функции-правила, которые написаны вручную.

S_A Jan 17 2022 at 10:10

Да, смысл-то понятен. Но в целом, это близко к синтетике на мой взгляд.

Хотя и лучше нее, хотя бы тем что данные уже сами по себе ближе к решению.

iRumata Jan 13 2022 at 11:31

спасибо за материал!

А можете дать ссылки на основные статьи по подходу "слабой разметки" или хотябы его описания применительно к текстам? Я в статье нашел только одну медицинскую ссылку

kucev Jan 17 2022 at 09:53

http://ai.stanford.edu/blog/weak-supervision/

https://arxiv.org/abs/2002.01687

https://www.borealisai.com/en/blog/generating-labels-model-training-using-weak-supervision/

voloch Mar 30 2023 at 00:00

Часто встречается даже показатель точности в 10 единиц f1.

не очень понятно. f мера макимум может быть 1.0

из оригинила понятнее не становится:

As much as 10 f1 points is not uncommon.