Comments 13
Почему кусочно-постоянная, а не, например, кусочно-линейная? Или "криволинейная" типа кривых безье?
Не понял постановку задачи...
Описан алгоритм построения кусочно-постоянной зависимости переменной
от взвешенной суммы
Может быть, в формуле должно быть y = w1 x1 + w2 x2 ... ? И непонятно, что такое p.
Требуется найти такие весовые коэффициенты
, при которых указанный минимум, найденный при заданных
, будет наименьшим.
Здесь тоже не понял. У вас в формулу для J коэффициенты wk никак не входят.
p - это число признаков (независимых переменных), через x обозначена взвешенная сумма координат x_k. На рисунке по горизонтальной оси отложена взвешенная сумма, по вертикальной - зависимая переменная. Ищем зависимость вида y = f(x), для этого промежуток изменения величины x разбивается на интервалы. Далее можно анализировать распределение точек внутри каждого интервала в отдельности - например, как точки каждого интервала зависят от дополнительных факторов z1, z2, ... В формулу для J коэффициенты w_k входят за счет того, что I_k - это диапазон - возможность объединения значений x в диапазоны зависит от их порядка, а порядок следования взвешенных сумм координат каждой точки зависит от коэффициентов w_k.
Ищем зависимость вида y = f(x), для этого промежуток изменения величины x разбивается на интервалы
А, то есть мы сначала для каждой точки вычисляем x, а потом уже на основании этого x делим на интервалы... А вы не рассматривали использование деревьев решений? То есть, деревьями разбить входные точки на группы.
Как я понимаю, деревья могут применяться для многомерных данных. Здесь мы исходим из интегрального показателя, который вычисляется как взвешенная сумма. Признаков больше 30, и выборка не слишком большая, чтобы пытаться объяснять зависимость слишком громоздкой моделью. Тут идея анализа в том, чтобы сгруппировать данные по какому-то критерию. В дереве этих критериев будет множество, и, хотя оно может подстроиться под нашу выборку, содержательную информацию, которую дают обычные статистики типа среднего, дисперсии, взятые отдельно по каждой группе, будет получить затруднительно.
Все-таки хорошо бы уточнить формулу для J. Как уже указал коллега, весовые коэффициенты в нее не входят. Вы пишете, что
, но
там тоже нет. И непонятно, что от
зависит.
Юлий, какое практическое применение данной регрессии?
Странно задача сформулированна.
Во-первых, можно же всегда разбить интервалы индексов так, чтобы там было только одно значение x. Так будет не хуже, а может быть даже оптимальнее. Так что никакого ДП не надо - просто по каждой координате x решаем одномерную задачу с кучей y, чтобы найти
что делается простой формулой среднего арифметического. Надо или давать ограничение на количество "интервалов" в формулировке задачи, или как-то включать это количество в целевую функцию.
Во-вторых, откуда там взялись и как оно связано с x - вообще непонятно.
Всё-таки во входных данных задано число - заданное количество диапазонов. Здесь через
обозначается взвешенная сумма
штук координат
с коэффициентами
. Вас могло ввести в заблуждение повторное использование индекса
как для диапазонов, так и для координат. То есть задача корректно сформулирована. Мне сейчас интересно, можно ли как-то захешировать точки или еще как-нибудь их упорядочить, чтобы ещё ускорить алгоритм, или же задачу 3 невозможно решить (для одной выбранной координаты) быстрее, чем за
на каждой итерации?
Вы не редактировали статью? Тогда я криво прочитал, каюсь. Советую, все-таки, переформулировать. Даны какие-то zi. Потом надо подобрать коэффициенты wi, По вот этим формулам получить x, потом найдти кусочно-константную регрессию из m кусков. А то вы задачу с середины начинаете формулировать. И еще у вас 2 разных набора x.
Множественная кусочно-постоянная регрессия