Например, у Вас данные по группе взрослых здоровых спортсменов — рост (в метрах) и вес (в килограммах). Рост может изменяться где-то от 1,5 м до 2,5 м (интервал = 2,5 — 1,5 = 1). А вес — от 40 кг до 150 кг (интервал = 150 — 40 = 110).
В таком виде (без нормализации) разница в росте у любых двух человек не более 1, а в весе — до 110. И получается, что вес становится более важным признаком, изменения в котором влияют больше при измерении, например, схожести двух спортсменов.
Должно быть так, чтобы максимальные изменения любого признака в «основной массе объектов» были одинаковы. Тогда потенциально все признаки будут равноценны.
Некорректная нормализация может сгладить такие явные различия, но не устранить их полностью. А должна.
Точно степень влияния признака должно определить только обучение модели. Если, конечно, Вы не знаете что-то существенное о данных, что позволит Вам вручную сделать какой-то признак более важным.
По поводу «размерностей-колец» можно разное придумать. Мне больше всего нравится вариант здравого смысла — если эта величина «закольцована», значит нужно преобразовать её в кольцо на плоскости. Для этого нужно из одномерной сделать её двумерной, используя периодичность синуса и косинуса:
Ai — i-е значение признака A
Amax — максимально возможное значение признака A
Новую пару получаем, например, так:
AXi = cos(2*Pi*Ai / Amax)
AYi = sin(2*Pi*Ai / Amax)
Кстати, в этом случае новые признаки AX и AY будут как раз «парные» в моем понимании. И нормализировать их нужно соответственно.
Если этот вопрос нуждается в подробном рассмотрении, напишите. Можно будет расписать более подробно, с иллюстрациями и примерами.
gleb_l Вы не так поняли, что именно я назвал «парными» признаками.
1. Да, таких признаков может быть и три, и больше. Хотя представить себе даже такие «парные» четвёрки мне довольно сложно.
2. «Парные» признаки всегда измеряются в одинаковых величинах. Если величины различны, но из одной области (метры и футы), то они всё равно приводятся к чему-то одному.
Фактически, «парные» признаки — это разные измерения объекта в одной области. Например, положение объекта в пространстве (три признака — X, Y, Z) или точки на плоскости (два признака — X и Y).
3. Это ни в коем случае не статистически-связанные размерности. Это независимые по своей сути величины. Даже, если в конкретной выборке они оказались коррелированными между собой.
4. Для обработки статистически связанных признаков есть много методов. Но эта статья не про такие данные))
В таком виде (без нормализации) разница в росте у любых двух человек не более 1, а в весе — до 110. И получается, что вес становится более важным признаком, изменения в котором влияют больше при измерении, например, схожести двух спортсменов.
Должно быть так, чтобы максимальные изменения любого признака в «основной массе объектов» были одинаковы. Тогда потенциально все признаки будут равноценны.
Некорректная нормализация может сгладить такие явные различия, но не устранить их полностью. А должна.
Точно степень влияния признака должно определить только обучение модели. Если, конечно, Вы не знаете что-то существенное о данных, что позволит Вам вручную сделать какой-то признак более важным.
Ai — i-е значение признака A
Amax — максимально возможное значение признака A
Новую пару получаем, например, так:
AXi = cos(2*Pi*Ai / Amax)
AYi = sin(2*Pi*Ai / Amax)
Кстати, в этом случае новые признаки AX и AY будут как раз «парные» в моем понимании. И нормализировать их нужно соответственно.
Если этот вопрос нуждается в подробном рассмотрении, напишите. Можно будет расписать более подробно, с иллюстрациями и примерами.
1. Да, таких признаков может быть и три, и больше. Хотя представить себе даже такие «парные» четвёрки мне довольно сложно.
2. «Парные» признаки всегда измеряются в одинаковых величинах. Если величины различны, но из одной области (метры и футы), то они всё равно приводятся к чему-то одному.
Фактически, «парные» признаки — это разные измерения объекта в одной области. Например, положение объекта в пространстве (три признака — X, Y, Z) или точки на плоскости (два признака — X и Y).
3. Это ни в коем случае не статистически-связанные размерности. Это независимые по своей сути величины. Даже, если в конкретной выборке они оказались коррелированными между собой.
4. Для обработки статистически связанных признаков есть много методов. Но эта статья не про такие данные))