В прошлой нашей статье мы рассказывали, как написали программу ExoLogica AI для анализа экзопланет, и неосторожно бросили фразу: «Машинное обучение без законов физики — это просто генератор случайных чисел».

В комментариях Senior Data Scientist'ы совершенно справедливо разнесли нас за терминологию. Нам объяснили, что ML не генерирует энтропию, а строит вероятностные распределения. И что проблема нашей базовой модели заключалась не в «случайности», а в отсутствии правильного физического индуктивного смещения (inductive bias). Алгоритм просто оверфитился на классе каменистых планет, потому что ничего не знал об уравнении состояния вещества.

Мы признали критику, ушли в гараж переписывать архитектуру и внедрили полноценный Physics-Informed ML. Но когда мы запустили нашу новую гибридную модель (v2.0), мы обнаружили нечто гораздо более пугающее, чем переобученный XGBoost.

Мы обнаружили, что главный астрономический Индекс Подобия Земле (ESI) систематически лжет.

Рассказываем, как мы открыли «Парадокс ESI», ввели собственный индекс физической реализуемости (PRI) и вслепую бросили вызов недавнему списку главных целей телескопа Джеймса Уэбба, сократив каталог из 9600 планет до 37 реальных миров.

📥 Скачать итоговый датасет: ExoLogica_Export_Habr-4.csv (33 кандидата)

Идол, которому мы молились: Индекс ESI

Если вы читаете научно-популярные новости, вы наверняка видели заголовки: «Найдена вторая Земля! Индекс подобия ESI составляет 0.95!»

Индекс подобия Земле (Earth Similarity Index) — это золотой стандарт астробиологии, придуманный в 2011 году. Он вычисляется по формуле:

ESI = \left( 1 - \left| \frac{R_p - R_\oplus}{R_p + R_\oplus} \right| \right)^{0.57} \cdot \left( 1 - \left| \frac{T_{eq} - 255}{T_{eq} + 255} \right| \right)^{1.07}

где Rp — радиус планеты, а Teq — её равновесная температура.

Видите фундаментальную дыру в этой формуле? Индекс опирается только на геометрию и температуру. Ему абсолютно плевать, из чего сделана планета — из камня, воды, газа или чистого чугуна.

Давайте посмотрим на идеального кандидата из базы: KOI-4878 b.

  • Радиус: 1.04 радиуса Земли.

  • Температура: 246 K (-27 °C).

  • Ее ESI = 0.972.

Это почти стопроцентный геометрический близнец нашей планеты. Собираем чемоданы? Не торопитесь.

Вскрытие: ML + Законы физики

У KOI-4878 b (как и у 80% планет, открытых транзитным методом) астрономы смогли измерить только радиус, но не массу. Чтобы узнать массу, мы натравили на нее наш ансамбль на базе XGBoostRegressor, обученный на массиве данных подтвержденных систем (мы также добавили расчет 95% доверительных интервалов, чтобы честно работать с epistemic uncertainty, как нам советовали в комментариях).

XGBoost предсказал массу: 1.71 M

А дальше в дело вступает базовая школьная физика за 8 класс:

\rho = \frac{M}{V}

Плотность этого «идеального близнеца Земли» составила 8.40 г/см³! Для справки: плотность чистого железа — 7.87 г/см³. KOI-4878 b — это не цветущий рай. Это колоссальное железное пушечное ядро с поверхностной гравитацией 15.56 м/с², на котором вас просто расплющит.

Мы назвали это Парадоксом ESI: планета с максимальным геометрическим сходством может оказаться физически несовместимой с жизнью из-за аномального внутреннего состава. И таких «земель» в каталоге оказались десятки.

Паспорт объекта KOI-4878 b, сгенерированный нашей программой ExoLogica AI. Математика безжалостно рушит надежды на обитаемость.
Паспорт объекта KOI-4878 b, сгенерированный нашей программой ExoLogica AI. Математика безжалостно рушит надежды на обитаемость.

Наш ответ: Индекс Физической Реализуемости (PRI)

Чтобы нейросети не галлюцинировали железными болванками, а ESI больше не вводил исследователей в заблуждение, мы разработали и вшили в пайплайн новый метрический фильтр — PRI (Physical Realizability Index).

Как это работает? Сначала мы вычисляем эталонную плотность каменистой планеты с поправкой на гравитационное сжатие ядра (на базе эмпирических моделей Seager et al.):

\rho_{rocky} = 5.51 \cdot R_p^{0.3}

Затем мы смотрим, насколько реальная (или предсказанная ML) плотность ρ отклоняется от этого каменистого эталона:

PRI = 1 - \frac{|\rho - \rho_{rocky}|}{5.0}

Жесткое правило нашей архитектуры (тот самый inductive bias): Если PRI падает ниже 0.50, планета автоматически дисквалифицируется, каким бы красивым ни был ее ESI.

У KOI-4878 b эталонная плотность должна была составить 5.58 г/см³, но предсказанная улетела к 8.40. В результате PRI рухнул до 0.435. Программа автоматически пометила её красным тегом [Anomaly] и вышвырнула из списка обитаемых.

Великая чистка: 9600 планет против PRI

Мы прогнали полный сырой каталог известных экзопланет (агрегация NASA Exoplanet Archive + ESA + ExoKyoto) через наш двойной фильтр ESI ≥ 0.75 И PRI ≥ 0.50

Результаты заставляют переосмыслить текущие каталоги обитаемости:

  1. Традиционный астрономический фильтр только по ESI выдавал 127 потенциально обитаемых миров.

  2. После применения нашего PRI их осталось всего 37.

71% топовых планет оказались физическими аномалиями. Зато программа абсолютно независимо, «вслепую» вывела в топ и подтвердила главных любимцев из списка NASA:

Топ-5 главных парадоксов и совпадений (Выдача ExoLogica AI)

Планета

ESI

PRI

Плотность

Вердикт ИИ

KOI-4878 b

0.972

0.435

8.40 г/см³

❌ Железное ядро (Аномалия)

TOI-700 d

0.959

0.504

8.11 г/см³

❌ Пограничный (Железная ловушка)

Kepler-442 b

0.888

0.517

8.43 г/см³

❌ Пограничный (Железная ловушка)

Proxima b

0.923

0.981

5.72 г/см³

✅ Идеальный камень

TRAPPIST-1 e

0.919

0.905

4.90 г/см³

✅ Землеподобная

Выдача главной таблицы ExoLogica AI v2.0. Красным подсвечены ложные кандидаты (высокий ESI, но провальный PRI из-за аномальной плотности >8 г/см³). Зеленым — 37 физически реализуемых целей.
Выдача главной таблицы ExoLogica AI v2.0. Красным подсвечены ложные кандидаты (высокий ESI, но провальный PRI из-за аномальной плотности >8 г/см³). Зеленым — 37 физически реализуемых целей.

Развенчание мифов: Прощай, TOI-700 d

Посмотрите на красные строчки в таблице выше. В медиа системы TOI-700 d и Kepler-442 b обожают, их постоянно рисуют с голубыми океанами.

Но наша модель Neuro-Physical Synthesis, восстановив массу, безжалостно их бракует. Мы выдвигаем проверяемую гипотезу: если будущие измерения лучевых скоростей подтвердят наши предсказания массы, эти планеты окажутся сверхплотными мирами с доминирующим железным ядром, а не каменистыми планетами земного типа. Это требует срочного наблюдательного подтверждения, прежде чем записывать их во «вторые Земли».

Вывод

Машинное обучение без физического индуктивного смещения — это опасная экстраполяция. Но и классические геометрические индексы (ESI) — это иллюзия безопасности.

Каждый час наблюдений на космическом телескопе Джеймса Уэбба стоит около $60 000. Наведение JWST на планету с ESI 0.97, которая по факту является куском раскаленного чугуна — это преступная трата ресурсов. И пока астрономы ждут новых наблюдательных данных, грамотный пайплайн из ML и базовой физики уже сейчас способен подсказать, куда смотреть точно не стоит.

Источники и полезные материалы:

  1. Каталог NASA Exoplanet Archive — основной источник сырых данных.

  2. Статья: A Two-Tiered Approach to Assessing the Habitability of Exoplanets (2011) — оригинальная публикация про формулу ESI.

  3. The Priority Exoplanet List — список 45 главных целей для JWST.

  4. Наш датасет: ExoLogica_Export_Habr-4.csv — полная база из 33 наиболее достоверных кандидатов, прошедших через фильтр PRI (85/15).

P.S. Если вы работаете с астрономическими данными и хотите прогнать свой список кандидатов через наши фильтры ExoLogica AI v2.0 — пишите в личку, мы открыты для коллабораций!

P.P.S. Отдельная благодарность комментаторам нашей прошлой статьи за жесткую, но абсолютно справедливую критику архитектуры — именно ваши замечания про inductive bias заставили нас копнуть глубже и привели к открытию Парадокса ESI. Ждем новую порцию конструктивной критики!