Крутая работа! Давно искал что-то подобное чтобы поковыряться в данных Кеплера и транзитах. То что прикрутили XGBoost для заполнения пропусков — вообще топ идея. Обычно все просто медианой заполняют и не парятся, а тут прям научный подход. А исходники на гитхаб планируете выкладывать? Очень хочеться пощупать локально.
Крутая работа! Давно искал что-то подобное чтобы поковыряться в данных Кеплера и транзитах. То что прикрутили XGBoost для заполнения пропусков — вообще топ идея. Обычно все просто медианой заполняют и не парятся, а тут прям научный подход. А исходники на гитхаб планируете выкладывать? Очень хочеться пощупать локально.
Самый недооценённый кусок статьи — это нормализация данных из разных каталогов.
Кто работал с NASA + EU каталогами, знает, какой там ад с:
единицами измерения
названиями колонок
дубликатами
Вы по сути сделали data engineering, который сам по себе уже ценен.