Как стать автором
Обновить

Комментарии 5

А можно в следующей статье "35 реальных успешных проектов с ML"?

А то про риски все понятно, а вот что бы всё это "хайповое" направление принесло реальную прибыль пишут мало.

Почему-то кажется, что большинство проблем все равно сводятся к банальному "Garbage in, garbage out".

" Сделайте модель на этом датасете из полутора наблюдений с кривой разметкой,близкой к истинному рандому (ее делал нанятый по квотам сотрудник, которого нельзя уволить), чтобы она выдавала точность больше 99% на реальных данных".

Ну так существенное число этих проблем ровно также работают и без ML! Зачем они в этом сравнении? чтобы число красивое получилось?

Спасибо что делитесь! Собрали и описали перечень проблем в работе с данными и подобрали понятные живые примеры - это точно будет полезно работающим с данными. От себя разве что перефокусировал бы 2 момента:

1) сделал ударение на качестве выборки данных (датасета) в части ее репрезентативности и достаточности. В статье репрезентативность сужена до частного случая "Некорректное разделение аудитории при AB-тестировании", а достаточность записана как "Недостаточное количество данных может привести к недостаточной точности моделей" - но это как по мне признаки комплексной проблемы с выборкой.

2) а также момент "недостаток знаний в предметной области" расширить до "Наличия предметных моделей" в терминах которых можно объяснить полученные закономерности (весь Data Mining (обнаружили закономерность - начинаем ее эксплуатировать) на протяжении своей истории часто обвинялся именно в отстуствии объяснений терминами и моделями предметной области).

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории