All streams
Search
Write a publication
Pull to refresh
18
0
Антон Квасница @Newchronik

Разработчик, DataScientist

Send message
Например, у Вас данные по группе взрослых здоровых спортсменов — рост (в метрах) и вес (в килограммах). Рост может изменяться где-то от 1,5 м до 2,5 м (интервал = 2,5 — 1,5 = 1). А вес — от 40 кг до 150 кг (интервал = 150 — 40 = 110).
В таком виде (без нормализации) разница в росте у любых двух человек не более 1, а в весе — до 110. И получается, что вес становится более важным признаком, изменения в котором влияют больше при измерении, например, схожести двух спортсменов.
Должно быть так, чтобы максимальные изменения любого признака в «основной массе объектов» были одинаковы. Тогда потенциально все признаки будут равноценны.
Некорректная нормализация может сгладить такие явные различия, но не устранить их полностью. А должна.
Точно степень влияния признака должно определить только обучение модели. Если, конечно, Вы не знаете что-то существенное о данных, что позволит Вам вручную сделать какой-то признак более важным.
По поводу «размерностей-колец» можно разное придумать. Мне больше всего нравится вариант здравого смысла — если эта величина «закольцована», значит нужно преобразовать её в кольцо на плоскости. Для этого нужно из одномерной сделать её двумерной, используя периодичность синуса и косинуса:
Ai — i-е значение признака A
Amax — максимально возможное значение признака A
Новую пару получаем, например, так:
AXi = cos(2*Pi*Ai / Amax)
AYi = sin(2*Pi*Ai / Amax)

Кстати, в этом случае новые признаки AX и AY будут как раз «парные» в моем понимании. И нормализировать их нужно соответственно.
Если этот вопрос нуждается в подробном рассмотрении, напишите. Можно будет расписать более подробно, с иллюстрациями и примерами.
gleb_l Вы не так поняли, что именно я назвал «парными» признаками.
1. Да, таких признаков может быть и три, и больше. Хотя представить себе даже такие «парные» четвёрки мне довольно сложно.
2. «Парные» признаки всегда измеряются в одинаковых величинах. Если величины различны, но из одной области (метры и футы), то они всё равно приводятся к чему-то одному.
Фактически, «парные» признаки — это разные измерения объекта в одной области. Например, положение объекта в пространстве (три признака — X, Y, Z) или точки на плоскости (два признака — X и Y).
3. Это ни в коем случае не статистически-связанные размерности. Это независимые по своей сути величины. Даже, если в конкретной выборке они оказались коррелированными между собой.
4. Для обработки статистически связанных признаков есть много методов. Но эта статья не про такие данные))

Information

Rating
Does not participate
Location
Мариуполь, Донецкая обл., Украина
Date of birth
Registered
Activity