Комментарии 12
Спасибо за интересную статью. Но прочитал на одном дыхании. Для школьных проектов, это фантастика 👍
Очень интересная работа и статья. Непонятно только какое отношение "ИИ" из заголовка имеет отношение к тому что в ней описано. Претензия в принципе не к авторам. Скорее ворчание по поводу ситуации когда для того чтобы привлечь внимание к интересной работе, нужно обязательно за уши притянуть ИИ.
Очень сильная работа для школьного уровня — особенно понравилась идея Neuro-Physical Synthesis. Это как раз то, чего часто не хватает в applied ML: учет физических ограничений, а не только статистики.
Но есть важный момент:
ваша «теорема плотностного барьера» по сути является эвристикой, приближающей наблюдаемый Fulton Gap. В научном контексте это стоит аккуратно формулировать как модельное ограничение, а не теорему, иначе могут быть вопросы у рецензентов.
Тем не менее, как инженерное решение — очень круто. Вы фактически реализовали physics-informed ML.
Самый недооценённый кусок статьи — это нормализация данных из разных каталогов.
Кто работал с NASA + EU каталогами, знает, какой там ад с:
единицами измерения
названиями колонок
дубликатами
Вы по сути сделали data engineering, который сам по себе уже ценен.
Если убрать “школьный” контекст и оформить это как:
введение
обзор литературы
методология
эксперименты
выводы
— это спокойно можно подавать как кандидатскую работу в области applied ML / астрофизики (с доработкой формализма, конечно).
Ищем экспертов для тестирования!
а где можно посмотреть программу ? Я не эксперт, но сейчас хочу сделать что то типо планетария и мне очень интересно было бы попробовать использовать данные, которые у вас описаны.
Если исходники не выкладываете, то сделайте wasm модуль, который можно было бы использовать если есть такая возможность
Это тот случай, когда школьный проект ближе к науке, чем половина “AI-стартапов”.
Статья Lomakn строит свою центральную идею вокруг фразы: «Машинное Обучение (ML) без физики — это просто генератор случайных чисел». Это повторяется как мантру: чистый KNN, Random Forest или даже XGBoost без «физического фильтра» якобы выдаёт «стену клонов», «галлюцинации» и «железные болванки» вместо реальных экзопланет. Авторы противопоставляют этому свой гибридный Neuro-Physical Synthesis и торжественно заявляют, что только добавление законов Кеплера и Стефана-Больцмана превращает «генератор случайных чисел» в настоящую науку.
Это сравнение фундаментально некорректно и демонстрирует либо непонимание, либо сознательное упрощение сути ML.
1. Задача генератора случайных чисел — выдавать СЛУЧАЙНЫЕ числа
Настоящий (или псевдо-) генератор случайных чисел (RNG / PRNG) по определению не должен нести никакой информации, кроме равномерного (или заданного) распределения. Его цель — максимальная энтропия, отсутствие корреляций, непредсказуемость. Именно поэтому криптографические RNG проходят тесты Diehard, NIST и т.д.: они обязаны быть «бесполезными» в смысле предсказуемости.
Нейросеть (и любой ML-алгоритм) делает ровно противоположное:
Она обучается на данных и строит вероятностную модель P(y|x) — условное распределение целевой переменной при данных признаках.
Выход — не случайное число, а вероятностный ответ: «с вероятностью 0.87 масса планеты лежит в интервале [1.2–2.1] M⊕ при радиусе 1.7 R⊕».
Даже если потом мы семплируем из этого распределения (добавляем случайность), сама модель — это сжатая, структурированная информация о данных, а не энтропия.
Называть модель, которая минимизирует loss-функцию (MSE, cross-entropy и т.д.), «генератором случайных чисел» — это примерно то же самое, что назвать метеорологическую модель «генератором случайной погоды». Да, в прогнозе есть неопределённость, но она квантифицирована и обоснована данными, а не взята с потолка.
2. То, что авторы называют «случайностью», на самом деле — отсутствие индуктивного смещения (inductive bias)
Когда KNN или XGBoost без физики «населил галактику железными болванками» с плотностью 8.49–8.82 г/см³ — это не «случайность». Это оверфиттинг + отсутствие подходящего bias. Модель честно выучила, что в обучающей выборке большинство маленьких планет имеют примерно такую плотность (потому что там доминируют rocky worlds). Она просто экстраполирует статистику.
Проблема не в том, что модель «случайная», а в том, что у неё нет правильного prior’а. Авторы сами это косвенно признают, когда говорят, что XGBoost «нащупал» Зазор Фултона. То есть даже «чистый» ML способен уловить нелинейность — просто ему для этого нужно больше данных или лучшая архитектура. Физический слой в их случае — это просто очень сильный hand-crafted prior, а не волшебное превращение «RNG» в науку.
3. Вероятностный ответ — это фича, а не баг
Современные ML-модели (особенно Bayesian NN, Gaussian Processes, современные XGBoost с uncertainty estimation) специально проектируются для того, чтобы выдавать не точку, а распределение. Это позволяет:
Оценивать epistemic uncertainty (что модель не знает).
Отбрасывать нереалистичные предсказания через posterior predictive check.
Интегрировать с физическими моделями (именно то, что авторы и сделали, только назвали это «спасением от RNG»).
Если бы нейросеть выдавала детерминистичные числа без всякой вероятности — вот тогда её действительно можно было бы обвинить в «чёрном ящике». А так авторы статьи просто путают стохастичность семплирования с отсутствием смысла.
Итог критики
Фраза «ML без физики = генератор случайных чисел» — это красивый, но технически неверный слоган. Он звучит научно и позволяет школьникам эффектно «разнести» чистый ML на конференции, но:
путает случайность (entropy) с вероятностным моделированием (learned distribution);
игнорирует, что любой полезный ML — это всегда trade-off bias-variance, а не «RNG vs не-RNG»;
создаёт ложное противопоставление «физика хорошая, статистика плохая», хотя на самом деле это симбиоз (см. Physics-Informed Neural Networks, которые существуют уже много лет и делают ровно то же самое, только без пафоса «мы школьники победили NASA»).
Авторы сделали хорошую работу по интеграции физики в пайплайн — молодцы. Но называть базовый ML «генератором случайных чисел» — это не научная критика, а риторический приём. Настоящая наука начинается не с того, чтобы обругать статистику, а с понимания, чем вероятностное моделирование отличается от случайного шума.
Спасибо за такой подробный отчет.
Спасибо Вам https://habr.com/ru/articles/1016666/ !

Космос из школьного кабинета: Как мы научили ИИ законам Кеплера после «разноса» от ученых