Как стать автором
Обновить

Как справиться с нехваткой открытых данных для обучения и тестирования ML-моделей

Время на прочтение7 мин
Количество просмотров4.3K
Всего голосов 31: ↑30 и ↓1+39
Комментарии5

Комментарии 5

О, почти коллега. Я из финтеха. Занимался чем-то схожим без какого либо успеха на фин рынках с предсказанием определения тренда ценовых рядов.

Скажи, какой рандомизатор взял за основу? Стандартный из windows? Были в целом какие-то интересы попробовать брать seed из железки, например, текущая частота загрузки проца, скорость вращения и другое?

Да, с финансовыми рядами все всегда сложно. Если там не совсем random walk, можно что-то вроде sdgl попробовать, который будет искать и общую связь между рядами, и short-term компоненту.

Для случайных величин брался обычный виндовый рандом. И, хотя брать сид из реальных данных возможно, для задачи генерации параметров кажется более полезным работать уже с распределениями. Байесовская сеть, которая в нужный момент меняет структуру, кажется тут хорошей заменой сэмплингу на сфере.

Простите-с, я наверное что-то не понял, прочитал эту статью еще в начале июля, увидел этот коммент и хотел хихинув про себя сказать что проект написан на питоне, а значит использует его генератор ибо любой современный язык от PHP до джавы имеет свои генераторы, потом про это благополучно забыл, захожу чтобы оставить этот коммент и вижу ваш ответ что да, это и правда виндовый генератор, но зачем если он есть в питоне и главное как он запускается, типа генерим что надо на нем, а потом запускаем скрипт на питоне или что?

Это очень здорово! А есть в формате статьи? Интересны детали, как кластеризовали, как на сферу укладывали, как обратно разворачивали. И как графы в этом поучаствовали.

Вообще я для подобного использовал всегда VAE. Но тут похоже вы придумали что-то лучше

Недавно результаты представили на конференции SYRCoSE Software Engineering Colloquium. В ближайшее время статья с подробным описанием всей работы будет опубликована в журнале Труды ИСП РАН.

VAE для задачи вполне могут подойти, но это зависит от конкретного приложения. Если, например, хочется генерировать данные для обучения foundation модели, то они вряд ли помогут. При этом, при достаточном количестве исходных данных увеличить датасет таким образом кажется возможным подходом.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий