Комментарии 5
А можно в следующей статье "35 реальных успешных проектов с ML"?
А то про риски все понятно, а вот что бы всё это "хайповое" направление принесло реальную прибыль пишут мало.
Почему-то кажется, что большинство проблем все равно сводятся к банальному "Garbage in, garbage out".
Спасибо что делитесь! Собрали и описали перечень проблем в работе с данными и подобрали понятные живые примеры - это точно будет полезно работающим с данными. От себя разве что перефокусировал бы 2 момента:
1) сделал ударение на качестве выборки данных (датасета) в части ее репрезентативности и достаточности. В статье репрезентативность сужена до частного случая "Некорректное разделение аудитории при AB-тестировании", а достаточность записана как "Недостаточное количество данных может привести к недостаточной точности моделей" - но это как по мне признаки комплексной проблемы с выборкой.
2) а также момент "недостаток знаний в предметной области" расширить до "Наличия предметных моделей" в терминах которых можно объяснить полученные закономерности (весь Data Mining (обнаружили закономерность - начинаем ее эксплуатировать) на протяжении своей истории часто обвинялся именно в отстуствии объяснений терминами и моделями предметной области).
35 реальных рисков, убивающих data- и machine learning проекты