Что эффективнее — усложнять модель или увеличивать количество данных?

Статья "Необоснованная эффективность данных", написанная сотрудниками Google в 2009 году, говорит нам: "Простые модели с множеством данных превосходят сложные модели с меньшим количеством данных". Этот принцип заложен в основу подхода, ориентированного на данные (Data-driven) - приоритет отдаётся информации, содержащейся в данных, в то время как модель выступает в роли инструмента. Важную ценность несут именно сами данные, которые позволяют извлекать информацию для принятия точных и эффективных решений. Если данных недостаточно, в них отсутствуют чёткие закономерности или они недостаточно разнообразны, то потенциал машинного обучения ограничивается. Но как определить, что объём данных достаточен? Где лежат границы между большим и маленьким объёмом данных? Этот вопрос мы сейчас попробуем поисследовать.


















