Pull to refresh

Comments 13

Почему кусочно-постоянная, а не, например, кусочно-линейная? Или "криволинейная" типа кривых безье?

Да, кусочно-линейная тоже рассматривается часто. Но если взять для примера данные, представленные на рисунке, то видно, что параметр наклона внутри каждого диапазона несущественен за счет разброса точек по игреку.

Не понял постановку задачи...

Описан алгоритм построения кусочно-постоянной зависимости переменной y от взвешенной суммы x = w_1x_1 + ... + w_px_p

Может быть, в формуле должно быть y = w1 x1 + w2 x2 ... ? И непонятно, что такое p.

Требуется найти такие весовые коэффициенты w_k,k=1..p, при которых указанный минимум, найденный при заданных w_k, будет наименьшим.

Здесь тоже не понял. У вас в формулу для J коэффициенты wk никак не входят.

p - это число признаков (независимых переменных), через x обозначена взвешенная сумма координат x_k. На рисунке по горизонтальной оси отложена взвешенная сумма, по вертикальной - зависимая переменная. Ищем зависимость вида y = f(x), для этого промежуток изменения величины x разбивается на интервалы. Далее можно анализировать распределение точек внутри каждого интервала в отдельности - например, как точки каждого интервала зависят от дополнительных факторов z1, z2, ... В формулу для J коэффициенты w_k входят за счет того, что I_k - это диапазон - возможность объединения значений x в диапазоны зависит от их порядка, а порядок следования взвешенных сумм координат каждой точки зависит от коэффициентов w_k.

Ищем зависимость вида y = f(x), для этого промежуток изменения величины x разбивается на интервалы

А, то есть мы сначала для каждой точки вычисляем x, а потом уже на основании этого x делим на интервалы... А вы не рассматривали использование деревьев решений? То есть, деревьями разбить входные точки на группы.

Как я понимаю, деревья могут применяться для многомерных данных. Здесь мы исходим из интегрального показателя, который вычисляется как взвешенная сумма. Признаков больше 30, и выборка не слишком большая, чтобы пытаться объяснять зависимость слишком громоздкой моделью. Тут идея анализа в том, чтобы сгруппировать данные по какому-то критерию. В дереве этих критериев будет множество, и, хотя оно может подстроиться под нашу выборку, содержательную информацию, которую дают обычные статистики типа среднего, дисперсии, взятые отдельно по каждой группе, будет получить затруднительно.

Все-таки хорошо бы уточнить формулу для J. Как уже указал коллега, весовые коэффициенты w_kв нее не входят. Вы пишете, что x = w_1x_1 + ... + w_px_p , но xтам тоже нет. И непонятно, что от xзависит.

Юлий, какое практическое применение данной регрессии?

Такое же, как и у любой другой обобщенной линейной модели. Здесь каждый диапазон изменения интегрального признака (взвешенной суммы) - это своего рода кластер. А точки, относящиеся к каждому кластеру, можно изучать по отдельности.

Странно задача сформулированна.

Во-первых, можно же всегда разбить интервалы индексов I_kтак, чтобы там было только одно значение x. Так будет не хуже, а может быть даже оптимальнее. Так что никакого ДП не надо - просто по каждой координате x решаем одномерную задачу с кучей y, чтобы найти c_kчто делается простой формулой среднего арифметического. Надо или давать ограничение на количество "интервалов" в формулировке задачи, или как-то включать это количество в целевую функцию.

Во-вторых, откуда там взялись w_kи как оно связано с x - вообще непонятно.

Всё-таки во входных данных задано число m - заданное количество диапазонов. Здесь через x обозначается взвешенная сумма p штук координат x_1,x_2,\ldots,x_p с коэффициентами w_j. Вас могло ввести в заблуждение повторное использование индекса k как для диапазонов, так и для координат. То есть задача корректно сформулирована. Мне сейчас интересно, можно ли как-то захешировать точки или еще как-нибудь их упорядочить, чтобы ещё ускорить алгоритм, или же задачу 3 невозможно решить (для одной выбранной координаты) быстрее, чем за O(n^2) на каждой итерации?

Вы не редактировали статью? Тогда я криво прочитал, каюсь. Советую, все-таки, переформулировать. Даны какие-то zi. Потом надо подобрать коэффициенты wi, По вот этим формулам получить x, потом найдти кусочно-константную регрессию из m кусков. А то вы задачу с середины начинаете формулировать. И еще у вас 2 разных набора x.

Sign up to leave a comment.

Articles