olga_ryabukhina Nov 25 2023 at 11:00

Что эффективнее — усложнять модель или увеличивать количество данных?

Easy

8 min

11K

Machine learning*Data Mining*

From sandbox

+20

Comments 10

sneg2015 Nov 25 2023 at 22:08

Недавно прошел курс на cousera от Андрю НГ, и он там как раз говорит что лучше работать с данными. Сперва попробовать на небольшом количестве данных выбрать модель, а потом стараться улучшать качество и количество данных.

AnonimYYYs Nov 26 2023 at 00:50

Вообще то описаный вами подход звучит как работа и с данными, и с моделью

Не будет откровением, что подбирать модель при малых данных проще чем при больших данных - банально быстрее делать "первичное обучение". И как раз в этом и заключается работа с моделью. Самое главное тут это чтобы малые данные не были слишком "однобокими" по сравнению с большими аналогичными.

А потом уже на выбранной модели - полноценная работа с большими данными и прочим. Тут уже нужно много обучений на больших данных, но на первом этапе мы этого избежали.

Так что, нужно не что то одно из этой пары "оптимизация модели"/"оптимизация данных", а именно что идеальный баланс всего этого

folal Nov 26 2023 at 08:35

accuracy - это число, оно не может быть итоговой оценкой модели. В конце статьи вы сравниваете оптимизированную модель с результатом 0.9931499974656233 и дефолтную с результатом 0.99272 и делаете из этого выводы. Да разве можно? Разница в оценке четыре десятитысячных, а любая модель на разных выборках дает разные результаты. А что если на разных выборках ваша дефолтная модель даст по сравнению с оптимизированной меньшую медиану всего массива оценок и их больший разброс? Тогда какие выводы можно будет сделать?

olga_ryabukhina Nov 27 2023 at 09:19

Верно, поэтому на график положены не только средние значения метрики, но и их разброс - min-max, std. Да, любая модель на разных выборках дает разные результаты, но на рисунке четко видно, что с увеличением количества данных результат приходит к более стабильной оценке

folal Nov 27 2023 at 10:44

Так какая же модель лучше?

vkarakcheev Nov 27 2023 at 06:35

Спасибо за статью. Идея хорошая, но для яркой демонстрации эффекта выбор пары датасет–модель, на мой взгляд, не очень удачный: при 75-кратной разнице в объеме данных разница в accuracy меньше одного процентного пункта. Я бы рекомендовал взять модель попроще или датасет посложнее. Либо добавить тесты с ещё меньшим объемом данных: 300, 100, 30, 10 сэмплов, например.

ArchMikhail Nov 27 2023 at 06:35

Странное исследование, странные выводы.

Бустинговые модели на деревьях на мой взгляд не то, что следует использовать для поставленной задачи. И полученный результат тому подтверждение. Здесь исследование показывает способны ли бустинговые модели на деревьях показать тот же результат с уменьшенными в 4 раза данными. И очевидный ответ да, поскольку хорошо известна способность таких моделей подгоняться под исходные данные.

Сколько же достаточно строк, 20000, 10000 или еще сколько? Ответа статья не даёт.

economist75 Nov 27 2023 at 09:28

И не даст. Нет таких измерителей и устоявшихся размеров выборок среди DS (кроме пошлой фразы что базы данных Титаника с тысячей строк мало и нужно утопить гораздо больше людей, а перед этим переписать всех полностью). DS-ники часто не знают истинных размеров генеральной совокупности, а значит выбор размера выборки не даст судить о вероятностях точности исследования.

К тому же интегральная оценка качества очищенных данных, если бы таковая была, однозначно бы ухудшалась при росте размера выборки, за счет дрейфа данных, ошибок, накопления изменений во времени, неустранимых замаскированных выбросов, аномалий, дезы и... банального пропуска аналитиком долгих и трудоемких процедур по очистке данных (в большинстве проектов она заканчивается субъективно, когда "...уже достала до чертиков", а не по каким-либо метрикам).

ArchMikhail Nov 27 2023 at 10:32

Я все цело согласен. Мне не понятен глубокий посыл автора статьи, в котором она готовит нас к открытию истины "вселенского масштаба". И вот ты уже готовый погрузиться в масштабное исследование начинаешь читать... И тут возникает ряд вопросов 1) Что это такое, что я только что прочитал? 2) Как автор на примере исследования одного единственного датасета собирается дать ответ на поставленный вопрос? 3) Почему именно этот датасет, что в нем такого особенного? Это датасет на все случаи жизни?!?! Автор даже особо не исследует его в статье. 4) Почему именно LGBM и только LGBM? Складывается стойкое впечатление, что автор не искушен в вопросе понимания и примения моделей применительно к задаче.

Slmncn Nov 28 2023 at 09:07

Кажется, что судить на основании одного датасета и модели некорректно. Разные модели на разных данных могут давать различные результаты и поведение.