Вручную подготовку данных делать нужно и полезно. Начинаешь видеть, что внутри. И особенно это важно в том, как убирать «выбросы», например. Выброс выбросу рознь: если он не является артефактом неточного изменения, то он является характеристикой объекта выборки и, значит, может быть нужен в дальнейшем моделировании.
Приведу пример с линейной регрессией, когда выбрасывание данных, похожих на выбросы, будет вредно. При оценке коэффициентов нам интересны стандартная ошибка коэффициентов и дисперсия остатков. Можно строить интервал прогноза. И в случае, если мы выкинем выбросы (например, удалим 0,01 и 0,99 квантили) интервал прогноза и доверительный интервал модели будут уже, чем с выбросами. Потом этом может плохо сказаться на качество работы модели на новых данных. Вы будете думать, что в 90%-интервал попадает 90% данных, а туда будет попадать меньше.
Это же физическая модель популярного бенчмарка для задачи обучения с подкреплением. CartPole. Там суть в том (если вы вдруг не интересовались), что, грубо говоря, по фотографии этой тележки (снимок с экрана / пиксели) НС дает команду влево/вправо/на месте. То есть все происходит внутри нейросетевой функции.
Он, конечно, никакой не Настродамус. Это очень натянутая интерпретация. Человек описывал в сатирической форме известные ему изъяны кап.общества. А сейчас наша страна просто движется в общем тренде, когда правят капиталисты. Прошу не считать полит.срачем. За напоминание о произведении спасибо!
Вашу статью я читал. Направление, в целом, совпадает, цели, видимо, разные. Под свои задачи я пока удовлетворен текущим решением. То, что вы описали, больше походит на долговременную систему трекинга тем и их хранения для последующего анализа. Ну, если это нужно бизнесу, я тоже что-то подобное сделаю, с BigData и прочими трендовыми обвесами. Пока такое не нужно. За ссылку на исследование — спасибо, почитаю работу.
Суть было сложновато вычленить в таком большом тексте. Я недавно посмотрел интервью Бугаенко на progblog и там он очень выразительно доносит свои идеи.
Те же индусы едут в США, пытаясь зарабатывать среднюю ЗП по рынку, причем они идут на всякие хитрости, чтобы скрыть свой низкий уровень образования/обучения. Иногда едут в США как body shopper ы, зарабатывая 1/2 средней ЗП, потом меняя работу на нормальную. Они везде, в общем. Лезут во все щели, ибо для них такая сытая жизнь великое благо, а благодаря уже осевшим индусам в корпорациях их и берут чаще, более лояльны к визовому спонсорству. Кто ее видел Кремниевую долину тот, в частности, не ощутил лёгкую панику от вездесущих индусских программистов.)
Ну, это бленд наших кодов. Я его посмотрел, lm построил. Дальше что делать, вопрос. Я хотел поизучать характеристики временных рядов. На первый взгляд они похожи на валютные пары. Длиннохвостные, нестационарные, есть автокорреляция. Но также при этом они между собой по первым разницам коррелируют.
Воспроизвел ваш код. Очень интересно. Получается, судя по невязкам, что все таки не 100% фит, это наверное связано с точностью при операциях на матрице (обращение)?
Отлично. Вот, я тоже хотел свести к линейному решению, но не мог понять как дизайн сделать. Почитаю, позапускаю. Спасибо! И, да, похоже, для динамики нужны что-то типа панельные методы, я их не пробовал, но будет смысл покурить.
Приведу пример с линейной регрессией, когда выбрасывание данных, похожих на выбросы, будет вредно. При оценке коэффициентов нам интересны стандартная ошибка коэффициентов и дисперсия остатков. Можно строить интервал прогноза. И в случае, если мы выкинем выбросы (например, удалим 0,01 и 0,99 квантили) интервал прогноза и доверительный интервал модели будут уже, чем с выбросами. Потом этом может плохо сказаться на качество работы модели на новых данных. Вы будете думать, что в 90%-интервал попадает 90% данных, а туда будет попадать меньше.
Язык R для клинических исследований и анализа работы новых фичей в коде, не такая уж и мелочь…
Хаха
Те же индусы едут в США, пытаясь зарабатывать среднюю ЗП по рынку, причем они идут на всякие хитрости, чтобы скрыть свой низкий уровень образования/обучения. Иногда едут в США как body shopper ы, зарабатывая 1/2 средней ЗП, потом меняя работу на нормальную. Они везде, в общем. Лезут во все щели, ибо для них такая сытая жизнь великое благо, а благодаря уже осевшим индусам в корпорациях их и берут чаще, более лояльны к визовому спонсорству. Кто ее видел Кремниевую долину тот, в частности, не ощутил лёгкую панику от вездесущих индусских программистов.)
Я делаю гипер-прокрастинацию в отпуске. Смотрю на море и часами читаю. Много дней. Потом очень хочется работать. Отпуск нужен. Клин клином.
Ну, можно вытащить все возможные пары на один момент времени. Их около 90. Значит, будет 14 валют.