All streams
Search
Write a publication
Pull to refresh
2
@vladimircaperead⁠-⁠only

User

Send message

профессиональные разработчики систем так не покупают. На али в большинстве хлам, или не прошедший контроль качества, или какой-то заводик, или перекупы . Чтобы купить качественную электронику в Китае, это надо иметь прямые контакты с заводом, это минимум и то не факт ,сколько раз слышал историю, мол русские покупали какую-то деталь например за 0.5 доллара за штуку и думали мол они хорошо сторговались, а другим не из РФ, те же китайцы за 0.1 доллара продавали. Также нужен контроль на месте.

Продолжайте писать. Кроме указанных в заключении фильтров что вы еще хотите осветить, вы можете осветить реальные практические ситуации. К примеру если размер объектов очень мал и по цвету однороден, например большинство фильтров только ухудшат результат. И так постепенно из одной -двух статей может получится цикл, начиная от фильтров, заканчивая трэкерами.

К примеру если вы используете лаги, то в тестовом наборе вначале будут данные из обучающей выборки, если нет пробелов.

Всё не помню,но вот про что я говорю

https://towardsdatascience.com/proper-validation-of-a-time-series-model-5c1b54f43e60

https://tscv.readthedocs.io/en/latest/tutorial/leave_p_out.html

http://rasbt.github.io/mlxtend/user_guide/evaluate/GroupTimeSeriesSplit/

https://docs.h2o.ai/driverless-ai/latest-stable/docs/userguide/time-series.html

Хоть старая но новость, относящаяся к почкованию Яндекса, Яндекс почкуется, но почему-то самые нужные направления уходят на запад. Тема беспилотников уплыла в Израиль, наверное в РФ уже вопросы беспилотников решены.

тут вопрос не в "выгодности", а в том что ,если модель видела только абсолютные изменения цены,например от 5 до 7, то после тренировки если она получит значения что не видела например 8, она начнёт безбожно ошибаться. Также лучше нормализацию делать для всех нейронных сетей, чтобы модель легче сходилась

  1. Не тратье время на временные ряды время, это ушедшая архитектура сетей. Поиграйтесь еще со statefull , т.к поведение сети разное.

  2. Насчёт универсальной модели, ну могу сказать что авторегрессионные модели типа AR и производные типа SARIMAX,Facebook Prophet это прошлый век, и они проигрывают даже xgboost. Поэтому деревья решения более универсальны, плюс еще хорошо ложатся на всякие системы интерпретации типа shap.

  3. Насчет М4. Если я правильно помню, там были данные с сезонностями и прочие искусственности, в реальности такое редко встретишь,и они сделали 4года назад(для направления машинного обучения это уже считается давно, быстро меняются алгоритмы) и сделали это как универсальный аппроксиматор, т.е попытались подогнать под все решения, что в жизни плохо работает, вот вы проверяли, смогло ли это решения, побить самое "тупое" dummy решение, мол будущее целевое значение равно текущему.

  4. Насчет data leak вы так и не поняли. По простому ,например если у вас интервал 1 минута, надо как минимум ставить gap 60минут, (все индивидуально), ибо значения тренировки могут быть инертны и залезть в будущее. Поищите обязательно это уже давно стандарт.

  5. Насчёт стационарности вы глубоко ошибаетесь. К примеру я занимался прогнозированием в трейдинге, где ряды ну никак не стационарны, и люди всё равно стараются сделать хоть как-то стационарными, ибо ваша модель будет не работоспособная, даже иногда может и не сойтись. Для простоты понимания ,вот вам пример. за 2022 год(вы на нем тренировали), у вас акция колебалась в ценовом диапазоне, от 10 до 13 рублей, т.е +/-30%, наступил 2023 и акция или с 10 упала до 2 , или с 13 до 30, т.е может и -80% или +130%, Если вы тренировали на сырых данных т.е целевое было от 10 до 13, то отдельные модели не зная чисел меньше 10 и больше 13, просто начнут выдавать бред. Если же вы даже слогарифмируете,то не поможет, даже если вы перейдете к процентному изменения цены, то модель все равно не видела большие изменения, поэтому как минимум используют log(diff) логарифм изменения.

  6. очень часто мне приходилось от заказчиков переделывать решения т.к они не работали ,по предсказаниями временных рядов, там тоже академики любят авторегрессии, строят красивые объяснения, а по факту не работает.

Этой статье как раз и место в песочнице. Уже давно никто в современных решениях не применяет рекуррентные сети для временных рядов. Временные ряды проходят лишь в качестве общего понимания что такие есть. Существует много решений что их обходят по качеству . Хотя-бы посмотрели бы wavenet или потоки для начала. Не учите людей не нужному. Также метод скользящего окна ваш не верен. Надо хотя-бы делать gap между тренировочными и текстовыми, т.к вы data leaks допустили, особенно в финансовой сфере . Также согласно вашей статьи видно вы не понимаете зачем делается логарифмирование и как его правильно делать. Вам не стабилизацию дисперсии надо делать , а проверять ряд на стационарность и одного логгарифмирования бывает недостаточно, поэтому после каждого преобразования ещё раз проверяют на стационарность, а не дисперсию. Прямо читаю вашу статью и вижу всю академичность нашу российскую которая плоха. Вы берете метрики mape но это метрика не показатель , есть случаи что она не отражает качество модели. Считаю что это не тянет на магисторскую работу.

2

Information

Rating
Does not participate
Registered
Activity