Pull to refresh
3
0.1

IT, statistics & guitars

Send message
Спасибо за побликацию!
Вы поработали честно и добросовестно.
Предлагаю Вам посмотреть на этот класс задач немного иначе:
-есть последовательность совокупных событий в прошлом.
-эти события содержат определенные знания о событии, которая наступит в будущем.
-нужно разработать алгоритм, который позволит извлечь знания из прошлых событий
для предсказания некого целевого показателя на шаг или более вперед.
Попробуйте выйти из колеи ARIMA.
ARIMA — это хорошо, но ARIMA — это не все.
Еще раз позанудствую)

Тест Харки — Бера. Значение данной статистики свидетельствует о том, нулевая гипотеза о нормальности распределения отвергается с малой вероятностью (probably > 0.05)
В данном тесте нулевая гипотеза утверждает что данные распределены нормально, и вероятность этого равна в вашем случае 0.06. И поэтому правильнее сказать, что нулевая гипотеза не отвергается а принимается с малой вероятностью. Вероятность есть, но маленькая. На 5% уровне rejection level мы еще можем поверить в это, но если ужесточить критерий до уровня 10%, то придется отбросить гипотезу.

Полученный отрицательный R2=-0.03. Чтобы не перепечатывать, просто скопирую: «R2 compares the fit of the chosen model with that of a horizontal straight line (the null hypothesis). If the chosen model fits worse than a horizontal line, then R2 is negative. Note that R2 is not always the square of anything, so it can have a negative value without violating any rules of math. R2 is negative only when the chosen model does not follow the trend of the data, so fits worse than a horizontal line.» Итого, модель работает хуже чем просто горизонтальная линия y=0

Среднеквадратичное отклонение (RMSE) и Средняя абсолютная ошибка (MAE) не несут никакой информации если только не использовать их для сравнения. Например, сравнить ошибку прогнозов между разными моделями, чтобы определить какая лучше. Или сравнить прогноз ex post и ex ante. А просто сообщить RMSE, это как сказать «Тихий океан глубокий» вместо «Тихий океан глубже чем Индийский».

Для теста Дикки-Фуллера лучше задать явно количество лагов, а не оставлять по дефолту 12*(nobs/100)^{1/4}. У вас явно видно годовую зависимость данных, поэтому (и вообще в экономике это традиционно) задать лаги до 12 месяцев.

Для определения порядка AR и МA можно дополнительно к кореллограммам прогнать отдельно регрессии AR(p) и MA(q) c достаточно большими параметрами p и q, и посмотреть какие из этих лагов будут значительны и должны быть включенными в модель.

Ну и насчет сезонности уже сказали. Кстати, Игорь, а можно попросить поделиться файлом с оригинальными данными? Я бы хотел поиграться с другой моделью на основе фильтра Калмана.
UFO landed and left these words here
выгрузить данные в БД, построить индекс и запрос выполнится за минуту
Советую присмотреться к более производительному mini-pc на Celeron J3160, например вот обзор самой интересной железки на этом процессоре, но портов там на 2 меньше, чем у сабжа, и для подключения накопителя только SATA. Зато 4 ядра и поддержка AES-NI, и TDP 6W против 17W у Celeron 1037U

Information

Rating
3,335-th
Registered
Activity

Specialization

Specialist
Machine learning
Neural networks
Natural language processing
Computer Science