Lomakn29 мар в 20:56

Как мы сломали индекс обитаемости экзопланет: Парадокс ESI, Physics-Informed ML и 9600 фейковых «Земель»

Средний

5 мин

13K

Машинное обучение * АстрономияНаучно-популярноеБазы данных * Накопители

Аналитика

+15

Комментарии 24

iliasam 29 мар в 22:43

"планета с максимальным геометрическим сходством может оказаться физически несовместимой с жизнью из-за аномального внутреннего состава"
Не думаю, что гравитация, даже раза в 3 большая, чем на Земле, помешает жизни зародиться.

"по факту является куском раскаленного чугуна"
Так ведь оригинальный индекс ESI учитывает температуру планеты?

Lomakn вчера в 06:15

Спасибо за комментарий! Разберем оба пункта с точки зрения планетологии:

Про гравитацию и жизнь: Вы абсолютно правы, чисто биологически 2g или 3g не являются препятствием для зарождения жизни. Проблема здесь в геофизике. Планета с земным радиусом и плотностью >8 г/см³ — это голое металлическое ядро, лишенное силикатной мантии. Без мантии нет тектоники плит, а без неё не работает углерод-силикатный цикл — главный природный термостат, который стабилизирует климат на миллиарды лет. Без него шансы на устойчивую биосферу стремятся к нулю.
Про температуру в ESI: ESI учитывает равновесную температуру Teq, то есть температуру шара без учета атмосферы. Но железное ядро массой 1.7 M+ обладает гравитацией, которая легко удержит колоссальную вторичную атмосферу. Парниковый эффект превратит поверхность в ад (как на Венере, у которой Teq ниже земной, но на поверхности плавится свинец). ESI слеп к этому, поэтому мы и ввели физический фильтр PRI.

ildarz 29 мар в 23:00

Он вычисляется по формуле:
.....
Индекс опирается только на геометрию и температуру

Простите, ЧТО?! Буквально любой быстрый поиск говорит, что по умолчанию индекс опирается на 4 параметра - радиус, температуру, плотность и скорость убегания. Плюс в принципе можно добавлять другие известные параметры, но эти - база.

Само собой, если некоторые из этих параметров неизвестны, можно посчитать индекс без их учета. Но ежу понятно, что достоверность сразу будет меньше.

Чтобы узнать массу, мы натравили на нее наш ансамбль на базе XGBoostRegressor, обученный на массиве данных подтвержденных систем

"Узнать"... /facepalm.

Lomakn вчера в 04:53

Вы абсолютно правы про оригинальную статью 2011 года: полный ESI включает 4 параметра. Но есть нюанс, из-за которого и родился наш проект. У 80% открытых транзитных планет (включая KOI-4878 b) масса неизвестна. Поэтому в популярных базах данных ESI для них считается по усеченному варианту (только радиус и Teq), что и порождает армию фейковых «Земель».

misha_erementchouk 29 мар в 23:55

Непонятная нумерология. Открыл одну статью по ссылке из Википедии, там для какой-то экзопланеты температуру с четырьмя значащими цифрами указывают (больше, чем для Земли). Закрыл.

Lomakn вчера в 06:17

Справедливое замечание, глаз физика за такое действительно цепляется! 😅 Эти четыре знака после запятой (например, 246.1234 K) — это не заявка на сверхточную телеметрию. Это просто вычислительный артефакт после прогона сырых параметров звезд (радиус, светимость) из NASA Exoplanet Archive через закон Стефана-Больцмана. Мы специально не округляем промежуточные значения под капотом программы, чтобы не накапливать ошибку float для последующих вычислений (например, для параметра Джинса или атмосферных индексов). А в интерфейсе они иногда вылезают в таком «нумерологическом» виде. Обязательно добавим жесткое округление для UI в следующем патче, чтобы не смущать читателей. Спасибо!

gravitytimewheel вчера в 04:23

Спасибо за интересную работу! Критика ESI абсолютно справедлива.

Позвольте задать два уточняющих вопроса, которые касаются статистической основы предсказания масс.

Первый. Выборка планет с точно измеренными массой и радиусом неизбежно смещена в сторону ярких звёзд, которые в среднем богаче металлами. The Gaia–Kepler–TESS-host Stellar Properties Catalog: Uniform Physical Parameters for 10022 Host Stars and 10189 Planets - IOPscience

Могла ли модель «выучить» эту связь и затем экстраполировать её на планеты вокруг более бедных звёзд, такие как KOI-4878 b?

Второй. Действительно надёжных измерений масс (с погрешностью <15–30%) насчитывается порядка 200–300. На таком объёме данных любая ML-модель рискует оверфититься. Использовалась ли именно эта «чистая» выборка?

Вопросы не отменяют того что ESI действительно нуждается в дополнении. Но надо уточнить детали.

Еще вопрос, это исследование открытое, вы публикуете исходный ноутбук с расчетом, ссылки на датасеты, это было бы полезно и ваша работа приобрела бы более строгий научный вид. Хабр кстати вполне мог бы сделать конкуренцию arxiv.org для любительской науки, что давно напрашивается.

Lomakn вчера в 06:19

Огромное спасибо за такой глубокий и профессиональный разбор. Вы бьете в самую суть проблем машинного обучения в астрофизике!

Про смещение выборки (Metallicity bias): Вы абсолютно правы. Выборка планет с точными RV-массами сильно смещена к ярким и богатым металлами звездам. При экстраполяции на бедные металлами системы (как некоторые KOI) модель сталкивается с out-of-distribution. Именно поэтому мы не выдаем точечную оценку как истину в последней инстанции, а всегда рассчитываем 95% доверительные интервалы, чтобы показать растущую эпистемическую неопределенность.
Про оверфиттинг на 300 планетах: Это был наш главный страх. Чтобы не переобучиться на этой крошечной «чистой» выборке, мы применили L2-регуляризацию и стратифицированную кросс-валидацию. Но самое главное — мы вшили жесткие физические ограничители (те самые Physics-Informed рамки, в частности np.clip по эмпирическим законам Чэня-Киппинга). Модель под капотом просто не может выдать массу, которая критически нарушает базовое уравнение состояния вещества.
Про открытый код: Полностью разделяем вашу позицию! Проект сейчас готовится к официальной защите на научной конференции, поэтому репозиторий пока приватен. Сразу после защиты мы планируем выложить на GitHub Jupyter-ноутбуки, архитектуру ансамбля и ссылки на срезы датасетов для 100% воспроизводимости. Хабр — идеальная площадка для препринтов!

Quiensabe вчера в 14:03

Здесь, по-моему, смешаны три разные вещи: статистическая интерполяция по смещенной выборке, ручные физические ограничения и довольно смелая интерпретация результата как свойства конкретной планеты. L2, CV и 95% интервалы не решают проблему dataset shift — потому что они работают внутри доступного распределения данных и не устраняют сам selection bias обучающей выборки. Если модель обучена в основном на объектах у ярких, удобных для RV-измерений, часто metal-rich звёзд, то при переносе на другой класс систем она может остаться формально “устойчивой” по метрикам, но давать систематически смещённые предсказания.

А np.clip по эмпирическим законам — это не “модель сама поняла физику”, а способ не выпустить ответ за пределы заранее разрешённого коридора. Проблема в том, что в таком pipeline итоговое предсказание уже частично определяется не данными, а вручную зашитым inductive bias: модель не столько выявляет новую зависимость, сколько проецируется в заранее допустимое семейство решений. Поэтому такой pipeline можно обсуждать как инструмент приоритизации целей для follow-up, но делать из него выводы уровня “железное ядро” и “сюда точно не стоит тратить JWST-time” — это, мягко говоря, сильнее, чем позволяет такая валидация.

Lomakn вчера в 14:26

Здравствуйте! Огромное спасибо за крутой и аргументированный фидбек, Вы прямо по полочкам всё разложили. Это то, что нам нужно!

Если честно, со смещением выборки (dataset shift) мы и правда уперлись в потолок. Обучались на том, что есть в открытых базах (в основном удобные яркие звезды с RV), и понятно, что при переносе на тусклые карлики вылезает out-of-distribution. И да, никакая кросс-валидация и L2 от этого не лечат, тут Вы на 100% правы — эту систематическую ошибку на текущих данных математически не обойти.

По поводу np.clip — абсолютно в точку. Это наш осознанный хардкод (тот самый inductive bias). Если чистый XGBoost отпустить в свободное плавание на экстраполяции, он иногда начинает рисовать лютую дичь. Поэтому мы искусственно зажали предсказания в рамки Чэня-Киппинга. Модель сама физику не «вывела», она просто бьется о потолок, который мы ей задали, чтобы итоговые цифры не ломали базовое уравнение состояния вещества.

Насчет громких выводов («сюда не стоит тратить время Уэбба» и т.д.) — согласен, мы тут немного перегнули с кликбейтом ради статьи) По факту, Вы дали идеальное определение нашему проекту — это именно инструмент эвристической приоритизации (triage tool) для будущих наблюдений, а не хрустальный шар. Если JWST реально посмотрит на забракованную нами LHS 1140 b и найдет там твердую поверхность вместо флюида — это будет круто, и мы первые пойдем переписывать веса.

В общем, критика супер. Мы обязательно добавим отдельный блок про эти ограничения и смещение выборки в следующую часть статьи, чтобы быть честными с аудиторией. Код и ноутбуки планируем выложить на гитхаб сразу после официальной защиты проекта — будем рады, если заглянете посмотреть архитектуру уже предметно!

Quiensabe вчера в 15:00

Спасибо за честный ответ. Думаю следующий важный шаг — не просто выложить код, а показать валидность режима применения на уровне экспериментов. В частности, было бы очень полезно увидеть:

не только обычную CV, но и валидацию в условиях distribution shift — например, разбиение по типам звёзд, metallicity, brightness или хотя бы leave-group-out;
ablation study: как ведёт себя модель без clip, с clip, и насколько итог вообще определяется ML-частью, а насколько — жёстко зашитым prior;
проверку калибровки uncertainty, потому что в OOD-сценариях 95% интервалы легко становятся декоративными;
явную формулировку domain of applicability, чтобы было понятно, где это ещё эвристика, а где уже натяжка.

Тогда это будет выглядеть не как “ML нашёл железную планету”, а как аккуратный probabilistic ranking pipeline с честно обозначенными границами применимости. И вот в таком виде это уже действительно интересно.

будем рады, если заглянете посмотреть архитектуру

Зовите, загляну непременно)

mst_72 вчера в 04:39

Это колоссальное железное пушечное ядро с поверхностной гравитацией 15.56 м/с², на котором вас просто расплющит.

полтора g? Расплющит??? Ну-ну.

Lomakn вчера в 06:10

Справедливо поймали на слове! 🤝 Признаю, фраза про «расплющит» — это сознательная гипербола для литературного драматизма.

Если считать точно, то 15.56 м/с² — это около 1.59g. Человек массой 75 кг весил бы там около 120 кг. Жить тяжело, колени скажут «до свидания», но космонавты при взлете терпят и больше.

Наша главная мысль была не в биологической переносимости гравитации, а в геофизике. Планета с радиусом Земли, но такой гигантской плотностью (>8 г/см³) означает, что перед нами практически голое металлическое ядро. Там нет привычной нам силикатной мантии. А значит: нет тектоники плит -> нет углерод-силикатного цикла -> нет долгосрочного климатического термостата. Без этих геологических процессов биосфера земного типа просто не сможет существовать.

Так что гравитация нас не убьет, а вот отсутствие геологической активности — вполне. Спасибо за комментарий, баланс точности и публицистики — дело тонкое!

avshkol вчера в 05:20

Если у вас более 90% планет с радиусом и температурой, близкой к земной, оказываются "из чугуна" (в Солнечной системе мы столько чугуна не наблюдаем...) , возможно, что-то не так с моделью?

Lomakn вчера в 06:12

Отличный вопрос, который бьет в самую суть проблем машинного обучения в астрофизике! Вы затронули главную боль — selection bias (смещение выборки).

Сначала немного уточню цифры: наша модель забраковала не 90% всех планет, а 71% из узкого шорт-листа (90 из 127 кандидатов), у которых изначально был высокий геометрический ESI.

Но ваш скепсис абсолютно оправдан. Почему модель предсказывает так много «чугуна»? Обучающая выборка (планеты, чья масса точно измерена методом лучевых скоростей) сильно смещена. Этот метод лучше всего работает на ярких звездах, которые в среднем богаче металлами. Модель (XGBoost) действительно могла «выучить» эту зависимость и теперь радостно экстраполирует её на транзитные планеты у более бедных звезд, завышая им массу.

Мы пытались бороться с этим оверфиттингом:

Добавили металличность звезды [Fe/H] в качестве фичи.
Ввели 95% доверительные интервалы (чтобы подсветить неуверенность модели на краях распределения).
Поставили жесткие физические ограничители (np.clip).

Но вы правы: это ML-гипотеза, и она ограничена качеством исходных данных. Тем интереснее будет проверить её, когда наземные телескопы наконец-то измерят точные массы этих «фейковых Земель» и покажут, где именно ошибалась статистика! Спасибо за глубокий и критический комментарий.

Medeyko вчера в 09:06

Коллега, простите, но скажите, пожалуйста, Вы применяете при ответах на Хабре в каком-то виде LLM (например, для улучшения стиля текста)? Если нет, то очень интересно, это на Вас общение с LLM так подействовало, или Вы писали так ещё до эпохи LLM? Это не наезд, но чисто ощущение от формулировок похожее, как от формулировок DeepSeek'а, например...

Vytian вчера в 09:36

Это межзвездные тролли с чугуниевых планет тень на плетень наводят. Чтоб мы в космос не совались, всё равно там, мол, ничего интересного.

Вот только на обучение на 300х спалились.

Quarc вчера в 10:07

Да, нет, вроде больше похоже на Gemini. DeepSeek чуть проще, на мой взгляд.

Lomakn вчера в 10:50

Сейчас все статьи похоже на нейронку

gravitytimewheel вчера в 10:09

Кстати интересная тема. С одной стороны пользоваться помощником для стиля кажется не зазорным, с другой стороны если формировать ответы предвзято с целью запутать кажется заступ. Что с этим делать не понятно, издержки на спор в таком случае минимальны и ответы всегда похожи на что то содержательное. Может каждый коммент прогонять через ИИ уже на платформе и ставить ему метки, релевантность, машинность, корректность, было бы весело.

trybros вчера в 06:55

У Discovery есть фильм, о том как могла существовать жизнь на планетах, отличных от условий на Земле.

Lomakn вчера в 07:16

Спасибо за наводку! Документалки от Discovery на эту тему действительно шикарные (особенно круто там визуализируют жизнь на суперземлях или вокруг тусклых красных карликов).

Тут важно сделать небольшое уточнение: наша программа ни в коем случае не отрицает возможность «экзотической» биохимии (жизнь на базе кремния, океаны из аммиака или метана, как на Титане). Жизнь может быть невероятно адаптивной! Но сам индекс ESI (Earth Similarity Index) создавался астробиологами именно для поиска двойников Земли (углеродная жизнь, жидкая вода, каменистая кора). И наша статья показывает, что ESI проваливает свою же собственную задачу, записывая экстремально плотные железные ядра во «вторые Земли». А поиск альтернативной жизни — это уже совершенно другая, но безумно интересная история!

WondeRu вчера в 07:11

Не нашел кода и данных - невозможно проверить. Также нет валидации со стороны других ученых, а без этого - классно, что вы разбираетесь в ML

Lomakn вчера в 09:36

Благодарю за критику! Мы учли замечания по прошлой статье и полностью пересобрали движок. Теперь классификация "Мир-Океан" или "Обитаемая Земля" присваивается не просто "по настроению" ИИ, а на основе фазово-плотностного анализа в PhysicsEngine.

Например, для "Миров-Океанов" мы теперь видим реалистичный диапазон плотностей 4.17–4.76 г/см³. Все расчеты и обновленный алгоритм восстановления данных (85% физики / 15% ML) открыты для проверки в нашем итоговом CSV.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий