Pull to refresh
15
@Lomaknread⁠-⁠only

Программист

30
Subscribers
Send message

Там сложно зарегистрироватся, найти астрофизиков которые разрешат публиковать. На GitHub начали выкладывать теории над которыми работали более 10 лет.

Вы абсолютно правы! Приливный захват и вспышки красных карликов — это серьёзные угрозы, которые могут убить жизнь даже на планете с идеальной плотностью.

Но наш Закон Экзолоджики — это базовый фильтр. Представьте: если планета — «Мир-Океан» (нет суши) или «Железный шар» (нет магнитосферы), то она мертва в любом случае, независимо от того, ловит её звезда или нет. Мы отсекаем эти заведомо безжизненные миры в первую очередь.

А уже для тех, кто прошел этот фильтр (как TOI-700 d), ваши факторы становятся решающими. Наш индекс PRI частично учитывает риск потери атмосферы, но вы верно заметили: идеальный кандидат должен пройти все проверки сразу. Спасибо за важное дополнение! 🚀

7 зеленых точек — это планеты котрые нашла наша программ ExoLogica AI и классифицировала как «Обитаемая Земля» на основе комплексного анализа их физических параметров.

Список этих планет с их плотностями (все они попадают в наше «окно жизни» 4.8–7.8 г/см³):

  1. TOI-700 d — 6.36 г/см³

  2. TRAPPIST-1 e — 4.90 г/см³

  3. Kepler-442 b — 6.97 г/см³

  4. GJ 1061 d — 5.50 г/см³

  5. Luyten's Star b — 5.89 г/см³

  6. Kepler-1229 Ab — 5.82 г/см³

  7. K2-72 e — 6.73 г/см³

Наш ИИ-алгоритм анализирует не только плотность, но и массу, радиус, температуру, орбитальные параметры и другие данные. Затем он рассчитывает индекс PRI (Planetary Retainability Index), который показывает вероятность того, что планета может удерживать атмосферу и поддерживать геологическую активность. Планеты с высоким PRI (>0.8) и плотностью в нужном диапазоне получают статус «Обитаемая Земля».

Все эти данные взяты из открытого архива NASA Exoplanet Archive и обработаны нашим конвейером ExoLogica AI. Полный датасет со всеми расчетами доступен по ссылке в статье для проверки!

Вроде легко, но на это нужно потратить несколько дней, а может и месяцев.

Чтобы там опубликовать arixiv нужно пройти круги ада. Чисто по человечески. Скоро опубликуем новую статью с авторской теоремой на основании данных

Спасибо за хороший и правильный вопрос! Да учитывает!

Вы абсолютно правы — массы нетранзитных планет часто имеют огромную погрешность, и мы специально заложили работу с ней в архитектуру.

В интерфейсе программы выведена отдельная колонка «Надёжность ИИ». Алгоритм не просто выдает слепое предсказание, он оценивает «рыхлость» входных данных, считает доверительные интервалы и выводит понятный статус:

  • «✅ ВЫСОКАЯ надёжность»

  • «⚠️ СРЕДНЯЯ надёжность»

  • «⚠️ НИЗКАЯ надёжность (экстраполяция)»

Программа сама честно работает как светофор и подсвечивает: где расчетам можно смело верить, а где входные параметры слишком неточные и к результату нужно отнестись со здоровым скептицизмом.

На скрине такая проверка в последнем столбике

Здравствуйте! Огромное спасибо за крутой и аргументированный фидбек, Вы прямо по полочкам всё разложили. Это то, что нам нужно!

Если честно, со смещением выборки (dataset shift) мы и правда уперлись в потолок. Обучались на том, что есть в открытых базах (в основном удобные яркие звезды с RV), и понятно, что при переносе на тусклые карлики вылезает out-of-distribution. И да, никакая кросс-валидация и L2 от этого не лечат, тут Вы на 100% правы — эту систематическую ошибку на текущих данных математически не обойти.

По поводу np.clip — абсолютно в точку. Это наш осознанный хардкод (тот самый inductive bias). Если чистый XGBoost отпустить в свободное плавание на экстраполяции, он иногда начинает рисовать лютую дичь. Поэтому мы искусственно зажали предсказания в рамки Чэня-Киппинга. Модель сама физику не «вывела», она просто бьется о потолок, который мы ей задали, чтобы итоговые цифры не ломали базовое уравнение состояния вещества.

Насчет громких выводов («сюда не стоит тратить время Уэбба» и т.д.) — согласен, мы тут немного перегнули с кликбейтом ради статьи) По факту, Вы дали идеальное определение нашему проекту — это именно инструмент эвристической приоритизации (triage tool) для будущих наблюдений, а не хрустальный шар. Если JWST реально посмотрит на забракованную нами LHS 1140 b и найдет там твердую поверхность вместо флюида — это будет круто, и мы первые пойдем переписывать веса.

В общем, критика супер. Мы обязательно добавим отдельный блок про эти ограничения и смещение выборки в следующую часть статьи, чтобы быть честными с аудиторией. Код и ноутбуки планируем выложить на гитхаб сразу после официальной защиты проекта — будем рады, если заглянете посмотреть архитектуру уже предметно!

Благодарю за критику! Мы учли замечания по прошлой статье и полностью пересобрали движок. Теперь классификация "Мир-Океан" или "Обитаемая Земля" присваивается не просто "по настроению" ИИ, а на основе фазово-плотностного анализа в PhysicsEngine.

Например, для "Миров-Океанов" мы теперь видим реалистичный диапазон плотностей 4.17–4.76 г/см³. Все расчеты и обновленный алгоритм восстановления данных (85% физики / 15% ML) открыты для проверки в нашем итоговом CSV.

Спасибо за наводку! Документалки от Discovery на эту тему действительно шикарные (особенно круто там визуализируют жизнь на суперземлях или вокруг тусклых красных карликов).

Тут важно сделать небольшое уточнение: наша программа ни в коем случае не отрицает возможность «экзотической» биохимии (жизнь на базе кремния, океаны из аммиака или метана, как на Титане). Жизнь может быть невероятно адаптивной! Но сам индекс ESI (Earth Similarity Index) создавался астробиологами именно для поиска двойников Земли (углеродная жизнь, жидкая вода, каменистая кора). И наша статья показывает, что ESI проваливает свою же собственную задачу, записывая экстремально плотные железные ядра во «вторые Земли». А поиск альтернативной жизни — это уже совершенно другая, но безумно интересная история!

Огромное спасибо за такой глубокий и профессиональный разбор. Вы бьете в самую суть проблем машинного обучения в астрофизике!

  1. Про смещение выборки (Metallicity bias): Вы абсолютно правы. Выборка планет с точными RV-массами сильно смещена к ярким и богатым металлами звездам. При экстраполяции на бедные металлами системы (как некоторые KOI) модель сталкивается с out-of-distribution. Именно поэтому мы не выдаем точечную оценку как истину в последней инстанции, а всегда рассчитываем 95% доверительные интервалы, чтобы показать растущую эпистемическую неопределенность.

  2. Про оверфиттинг на 300 планетах: Это был наш главный страх. Чтобы не переобучиться на этой крошечной «чистой» выборке, мы применили L2-регуляризацию и стратифицированную кросс-валидацию. Но самое главное — мы вшили жесткие физические ограничители (те самые Physics-Informed рамки, в частности np.clip по эмпирическим законам Чэня-Киппинга). Модель под капотом просто не может выдать массу, которая критически нарушает базовое уравнение состояния вещества.

  3. Про открытый код: Полностью разделяем вашу позицию! Проект сейчас готовится к официальной защите на научной конференции, поэтому репозиторий пока приватен. Сразу после защиты мы планируем выложить на GitHub Jupyter-ноутбуки, архитектуру ансамбля и ссылки на срезы датасетов для 100% воспроизводимости. Хабр — идеальная площадка для препринтов!

Справедливое замечание, глаз физика за такое действительно цепляется! 😅 Эти четыре знака после запятой (например, 246.1234 K) — это не заявка на сверхточную телеметрию. Это просто вычислительный артефакт после прогона сырых параметров звезд (радиус, светимость) из NASA Exoplanet Archive через закон Стефана-Больцмана. Мы специально не округляем промежуточные значения под капотом программы, чтобы не накапливать ошибку float для последующих вычислений (например, для параметра Джинса или атмосферных индексов). А в интерфейсе они иногда вылезают в таком «нумерологическом» виде. Обязательно добавим жесткое округление для UI в следующем патче, чтобы не смущать читателей. Спасибо!

Спасибо за комментарий! Разберем оба пункта с точки зрения планетологии:

  1. Про гравитацию и жизнь: Вы абсолютно правы, чисто биологически 2g или 3g не являются препятствием для зарождения жизни. Проблема здесь в геофизике. Планета с земным радиусом и плотностью >8 г/см³ — это голое металлическое ядро, лишенное силикатной мантии. Без мантии нет тектоники плит, а без неё не работает углерод-силикатный цикл — главный природный термостат, который стабилизирует климат на миллиарды лет. Без него шансы на устойчивую биосферу стремятся к нулю.

  2. Про температуру в ESI: ESI учитывает равновесную температуру Teq, то есть температуру шара без учета атмосферы. Но железное ядро массой 1.7 M+ обладает гравитацией, которая легко удержит колоссальную вторичную атмосферу. Парниковый эффект превратит поверхность в ад (как на Венере, у которой Teq ниже земной, но на поверхности плавится свинец). ESI слеп к этому, поэтому мы и ввели физический фильтр PRI.

Отличный вопрос, который бьет в самую суть проблем машинного обучения в астрофизике! Вы затронули главную боль — selection bias (смещение выборки).

Сначала немного уточню цифры: наша модель забраковала не 90% всех планет, а 71% из узкого шорт-листа (90 из 127 кандидатов), у которых изначально был высокий геометрический ESI.

Но ваш скепсис абсолютно оправдан. Почему модель предсказывает так много «чугуна»? Обучающая выборка (планеты, чья масса точно измерена методом лучевых скоростей) сильно смещена. Этот метод лучше всего работает на ярких звездах, которые в среднем богаче металлами. Модель (XGBoost) действительно могла «выучить» эту зависимость и теперь радостно экстраполирует её на транзитные планеты у более бедных звезд, завышая им массу.

Мы пытались бороться с этим оверфиттингом:

  1. Добавили металличность звезды [Fe/H] в качестве фичи.

  2. Ввели 95% доверительные интервалы (чтобы подсветить неуверенность модели на краях распределения).

  3. Поставили жесткие физические ограничители (np.clip).

Но вы правы: это ML-гипотеза, и она ограничена качеством исходных данных. Тем интереснее будет проверить её, когда наземные телескопы наконец-то измерят точные массы этих «фейковых Земель» и покажут, где именно ошибалась статистика! Спасибо за глубокий и критический комментарий.

Справедливо поймали на слове! 🤝 Признаю, фраза про «расплющит» — это сознательная гипербола для литературного драматизма.

Если считать точно, то 15.56 м/с² — это около 1.59g. Человек массой 75 кг весил бы там около 120 кг. Жить тяжело, колени скажут «до свидания», но космонавты при взлете терпят и больше.

Наша главная мысль была не в биологической переносимости гравитации, а в геофизике. Планета с радиусом Земли, но такой гигантской плотностью (>8 г/см³) означает, что перед нами практически голое металлическое ядро. Там нет привычной нам силикатной мантии. А значит: нет тектоники плит -> нет углерод-силикатного цикла -> нет долгосрочного климатического термостата. Без этих геологических процессов биосфера земного типа просто не сможет существовать.

Так что гравитация нас не убьет, а вот отсутствие геологической активности — вполне. Спасибо за комментарий, баланс точности и публицистики — дело тонкое!

Вы абсолютно правы про оригинальную статью 2011 года: полный ESI включает 4 параметра. Но есть нюанс, из-за которого и родился наш проект. У 80% открытых транзитных планет (включая KOI-4878 b) масса неизвестна. Поэтому в популярных базах данных ESI для них считается по усеченному варианту (только радиус и Teq), что и порождает армию фейковых «Земель».

Здравствуйте. В течение пару дней сделаем сборку под Windows и выкинем ссылку в этой статье

1
23 ...

Information

Rating
Does not participate
Location
Кобрин, Брестская обл., Беларусь
Registered
Activity

Specialization

Десктоп разработчик, Фронтенд разработчик
Ведущий
HTML
JavaScript
Twitter Bootstrap
Веб-разработка