Pull to refresh

Comments 10

Недавно прошел курс на cousera от Андрю НГ, и он там как раз говорит что лучше работать с данными. Сперва попробовать на небольшом количестве данных выбрать модель, а потом стараться улучшать качество и количество данных.

Вообще то описаный вами подход звучит как работа и с данными, и с моделью

Не будет откровением, что подбирать модель при малых данных проще чем при больших данных - банально быстрее делать "первичное обучение". И как раз в этом и заключается работа с моделью. Самое главное тут это чтобы малые данные не были слишком "однобокими" по сравнению с большими аналогичными.

А потом уже на выбранной модели - полноценная работа с большими данными и прочим. Тут уже нужно много обучений на больших данных, но на первом этапе мы этого избежали.

Так что, нужно не что то одно из этой пары "оптимизация модели"/"оптимизация данных", а именно что идеальный баланс всего этого

accuracy - это число, оно не может быть итоговой оценкой модели. В конце статьи вы сравниваете оптимизированную модель с результатом 0.9931499974656233 и дефолтную с результатом 0.99272 и делаете из этого выводы. Да разве можно? Разница в оценке четыре десятитысячных, а любая модель на разных выборках дает разные результаты. А что если на разных выборках ваша дефолтная модель даст по сравнению с оптимизированной меньшую медиану всего массива оценок и их больший разброс? Тогда какие выводы можно будет сделать?

Верно, поэтому на график положены не только средние значения метрики, но и их разброс - min-max, std. Да, любая модель на разных выборках дает разные результаты, но на рисунке четко видно, что с увеличением количества данных результат приходит к более стабильной оценке

Спасибо за статью. Идея хорошая, но для яркой демонстрации эффекта выбор пары датасет–модель, на мой взгляд, не очень удачный: при 75-кратной разнице в объеме данных разница в accuracy меньше одного процентного пункта. Я бы рекомендовал взять модель попроще или датасет посложнее. Либо добавить тесты с ещё меньшим объемом данных: 300, 100, 30, 10 сэмплов, например.

Странное исследование, странные выводы.

Бустинговые модели на деревьях на мой взгляд не то, что следует использовать для поставленной задачи. И полученный результат тому подтверждение. Здесь исследование показывает способны ли бустинговые модели на деревьях показать тот же результат с уменьшенными в 4 раза данными. И очевидный ответ да, поскольку хорошо известна способность таких моделей подгоняться под исходные данные.

Сколько же достаточно строк, 20000, 10000 или еще сколько? Ответа статья не даёт.

И не даст. Нет таких измерителей и устоявшихся размеров выборок среди DS (кроме пошлой фразы что базы данных Титаника с тысячей строк мало и нужно утопить гораздо больше людей, а перед этим переписать всех полностью). DS-ники часто не знают истинных размеров генеральной совокупности, а значит выбор размера выборки не даст судить о вероятностях точности исследования.

К тому же интегральная оценка качества очищенных данных, если бы таковая была, однозначно бы ухудшалась при росте размера выборки, за счет дрейфа данных, ошибок, накопления изменений во времени, неустранимых замаскированных выбросов, аномалий, дезы и... банального пропуска аналитиком долгих и трудоемких процедур по очистке данных (в большинстве проектов она заканчивается субъективно, когда "...уже достала до чертиков", а не по каким-либо метрикам).

Я все цело согласен. Мне не понятен глубокий посыл автора статьи, в котором она готовит нас к открытию истины "вселенского масштаба". И вот ты уже готовый погрузиться в масштабное исследование начинаешь читать... И тут возникает ряд вопросов 1) Что это такое, что я только что прочитал? 2) Как автор на примере исследования одного единственного датасета собирается дать ответ на поставленный вопрос? 3) Почему именно этот датасет, что в нем такого особенного? Это датасет на все случаи жизни?!?! Автор даже особо не исследует его в статье. 4) Почему именно LGBM и только LGBM? Складывается стойкое впечатление, что автор не искушен в вопросе понимания и примения моделей применительно к задаче.

Кажется, что судить на основании одного датасета и модели некорректно. Разные модели на разных данных могут давать различные результаты и поведение.

Sign up to leave a comment.

Articles