AlexanderBolshakov1 фев 2022 в 13:47

35 реальных рисков, убивающих data- и machine learning проекты

13 мин

9.3K

Big Data * Data Engineering * Машинное обучение * Управление продуктом * Управление проектами *

Из песочницы

+21

Комментарии 5

abutorin 1 фев 2022 в 14:19

А можно в следующей статье "35 реальных успешных проектов с ML"?

А то про риски все понятно, а вот что бы всё это "хайповое" направление принесло реальную прибыль пишут мало.

v1000 1 фев 2022 в 14:58

Почему-то кажется, что большинство проблем все равно сводятся к банальному "Garbage in, garbage out".

Goupil 1 фев 2022 в 16:33

" Сделайте модель на этом датасете из полутора наблюдений с кривой разметкой,близкой к истинному рандому (ее делал нанятый по квотам сотрудник, которого нельзя уволить), чтобы она выдавала точность больше 99% на реальных данных".

mixsture 2 фев 2022 в 11:31

Ну так существенное число этих проблем ровно также работают и без ML! Зачем они в этом сравнении? чтобы число красивое получилось?

NSergeev 4 фев 2022 в 19:07

Спасибо что делитесь! Собрали и описали перечень проблем в работе с данными и подобрали понятные живые примеры - это точно будет полезно работающим с данными. От себя разве что перефокусировал бы 2 момента:

1) сделал ударение на качестве выборки данных (датасета) в части ее репрезентативности и достаточности. В статье репрезентативность сужена до частного случая "Некорректное разделение аудитории при AB-тестировании", а достаточность записана как "Недостаточное количество данных может привести к недостаточной точности моделей" - но это как по мне признаки комплексной проблемы с выборкой.

2) а также момент "недостаток знаний в предметной области" расширить до "Наличия предметных моделей" в терминах которых можно объяснить полученные закономерности (весь Data Mining (обнаружили закономерность - начинаем ее эксплуатировать) на протяжении своей истории часто обвинялся именно в отстуствии объяснений терминами и моделями предметной области).

Зарегистрируйтесь на Хабре, чтобы оставить комментарий