Обновить
18
0
Антон Квасница @Newchronik

Разработчик, DataScientist

Отправить сообщение

Умная нормализация данных: категориальные и порядковые данные, “парные” признаки

Время на прочтение4 мин
Количество просмотров13K

Эта статья внеплановая. В прошлый раз я рассматривал нюансы и проблемы различных методов нормализации данных. И только после публикации понял, что не упомянул некоторые важные детали. Кому-то они покажутся очевидными, но, по-моему, лучше сказать об этом явно.

Читать дальше →

Умная нормализация данных

Время на прочтение8 мин
Количество просмотров131K

Эта статья появилась по нескольким причинам.


Во-первых, в подавляющем большинстве книг, интернет-ресурсов и уроков по Data Science нюансы, изъяны разных типов нормализации данных и их причины либо не рассматриваются вообще, либо упоминаются лишь мельком и без раскрытия сути.


Во-вторых, имеет место «слепое» использование, например, стандартизации для наборов с большим количеством признаков — “чтобы для всех одинаково”. Особенно у новичков (сам был таким же). На первый взгляд ничего страшного. Но при детальном рассмотрении может выясниться, что какие-то признаки были неосознанно поставлены в привилегированное положение и стали влиять на результат значительно сильнее, чем должны.


И, в-третьих, мне всегда хотелось получить универсальный метод учитывающий проблемные места.


Читать дальше →

Информация

В рейтинге
Не участвует
Откуда
Мариуполь, Донецкая обл., Украина
Дата рождения
Зарегистрирован
Активность