Анализ Gaia DR3 — комбинированная версия
Введение
Gaia — это космическая обсерватория Европейского космического агентства (ESA), запущенная в декабре 2013 года. Основная цель миссии — максимально точно измерить положения, расстояния и движения звёзд в нашей Галактике. Фактически Gaia создаёт трёхмерную карту Млечного Пути.
К январю 2025 года научная программа миссии была завершена. За это время Gaia выполнила несколько релизов данных, крупнейшим из которых на данный момент является Gaia Data Release 3 (DR3). Этот релиз содержит информацию примерно о 1,8 миллиарда астрономических объектов, а общий объём «сырых» данных превышает 2 петабайта.
Работа с такими объёмами информации — типичная задача анализа больших данных. В этом проекте показано, как можно:
массово выгружать данные Gaia с учётом ограничений API,
обрабатывать десятки миллионов записей,
строить ключевые астрономические распределения,
анализировать точность измерений и наблюдательные эффекты.
Проект выполнен в рамках курсовой работы по дисциплине «Наука о данных и аналитика больших объёмов информации».
Цель и задачи проекта
Цель
Провести комплексный анализ звёздного населения Млечного Пути на основе данных Gaia DR3, применяя методы анализа больших данных и научного программирования.
Основные задачи
Построить распределение звёзд по расстояниям, вычисленным из параллаксов.
Проанализировать количество наблюдений:
число периодов видимости (visibility_periods_used);
количество транзитов (astrometric_matched_transits).
Исследовать распределения звёзд по видимой звёздной величине в диапазонах:
G (широкий оптический),
BP (синий),
RP (красный).
Построить карту распределения звёзд на небесной сфере:
в экваториальной системе координат,
в галактической системе координат.
Проанализировать собственные движения звёзд.
Построить диаграмму Герцшпрунга–Рассела.
Провести статистический анализ погрешностей астрометрических измерений.
Какие данные использовались
Источник данных
Использовалась основная таблица gaia_source из релиза Gaia DR3.
Основные параметры (поля)
parallax— параллакс (mas),visibility_periods_used— число периодов видимости,astrometric_matched_transits— число транзитов,phot_g_mean_mag— звёздная величина в G,phot_bp_mean_mag— звёздная величина в BP,phot_rp_mean_mag— звёздная величина в RP,ra,dec— координаты (ICRS),pmra,pmdec— собственные движения,bp_rp— цветовой индекс,azero_gspphot— межзвёздное поглощение (оценка).
Масштаб данных
Полный каталог Gaia DR3: ~1,8 млрд объектов, ~2 ПБ данных.
Подвыборка для проекта: 82,6 млн объектов, общий объём выборки
35,6 ГБ данных(после фильтрации объём данных уменьшен).
Сокращение объёма достигалось за счёт фильтрации:
удаление объектов с пропущенными значениями,
ограничение относительной ошибки параллакса,
фильтры качества фотометрии и астрометрии.
Как выгружались данные: распределённая архитектура
Проблема
API Gaia накладывает ограничения:
максимум 3 млн строк за один асинхронный запрос,
2 ГБ данных на запрос,
ограничение по времени выполнения.
Выгрузить десятки миллионов объектов «одним запросом» невозможно.
Решение
Реализована распределённая загрузка по Map/Reduce:
Каталог разбивается по
random_indexна 100 фрагментов.Каждый из 4 ноутбуков получает свой набор диапазонов.
Уменьшается нагрузка на API и достигается параллельная выгрузка.
Ключевая идея: в Gaia DR3 поле random_index — равномерно распределённый целочисленный ключ, что позволяет разбить каталог на равные части и равномерно распределить работу между узлами.
Формулы разбиения
Для каждого узла вычислялись границы диапазонов:
Где:
totalRecords= 1 811 709 771,totalNodes= 4,numParts= 25 (в сумме 4·25 = 100 фрагментов).
Производительность (пример)
Параметр | Значение |
|---|---|
Общее время | ~16 часов |
Время на узел | ~4 часа |
Объём данных | ~8.9 ГБ на узел |
Всего записей | ~82.6 млн |
Ускорение
Практически линейное масштабирование.
Выгрузка:

Распределение звёзд по расстояниям
Как считалось расстояние
Расстояние вычислялось из параллакса:
Использовались только объекты с положительным параллаксом и относительной ошибкой .
Что получилось
Число звёзд резко падает с ростом расстояния.
После примерно 2 кпк каталог становится неполным. Важно: это не реальное уменьшение плотности, а наблюдательный эффект — далёкие звёзды слишком слабы и не попадают в выборку.
Гистограммы распределения:
Линейная шкала:

Логарифмическая шкала:

Количество наблюдений
Распределение по числу периодов видимости и транзитов.
Основные параметры
visibility_periods_used— число периодов видимости,astrometric_matched_transits— число транзитов.
Результаты
Большинство звёзд имеют 20–30 периодов видимости.
Количество транзитов для значительной доли объектов достигает сотен наблюдений, что повышает надёжность астрометрических решений для основной массы объектов.

Фотометрия: распределение по звёздной величине
Диапазоны
G — основной (пик чувствительности около 564 нм),
BP — синий (≈445 нм),
RP — красный (≈658 нм).
Основные выводы
Максимум распределения: G ≈ 14–16.
Предельные величины (приблизительно):
G ≈ 19,
BP ≈ 21.5,
RP ≈ 18.
Различия объясняются чувствительностью детекторов и особенностями обработки фотометрии.
Графики:




Карта неба в галактических координатах
При переходе к галактической системе координат чётко видна:
полоса Млечного Пути,
высокая плотность в направлении галактического центра,
разреженность у галактических полюсов.
Это подтверждает корректность данных и однородность покрытия неба.

Собственные движения
Анализ
Построена диаграмма pmra vs pmdec.
Что видно
Большинство звёзд сосредоточены около (0, 0).
Основная масса имеет
mas/год.
Есть редкие объекты с большими собственными движениями — обычно близкие звёзды.

Диаграмма Герцшпрунга–Рассела
Формула абсолютной величины:
Оси диаграммы
X: цвет BP–RP,
Y: абсолютная величина
.
Что выделяется
Главная последовательность,
Красные гиганты,
Белые карлики.
Диаграмма получилась «чистой» благодаря строгим фильтрам качества.

Анализ погрешностей измерений
Что анализировалось
ошибки параллакса,
ошибки координат (RA, Dec),
ошибки собственных движений (pmra, pmdec).
Наблюдаемые эффекты
Медианные ошибки уменьшаются с ростом расстояния — неожиданный на первый взгляд результат.
Почему так происходит
Это эффект селекции:
применялся строгий фильтр качества (например,
или
),
на больших расстояниях остаются только объекты с очень точными измерениями, поэтому медиана ошибок среди оставшихся объектов оказывается меньше.
Важно учитывать этот эффект при интерпретации статистики: видимо�� улучшение погрешностей при отдалении — это не признак роста качества измерений во всём каталоге, а результат отбора.
Графики ошибок и их агрегированные представления:


















Итоговые выводы
Обработано 82,6 млн объектов Gaia DR3.
Реализована эффективная распределённая загрузка данных (Map/Reduce на основе
random_index).Построены ключевые распределения: расстояния, фотометрия, собственные движения, HR‑диаграмма.
Подтверждены наблюдательные и селекционные эффекты (включая эффект уменьшения медианных ошибок на больших расстояниях из-за отбора).
Проект демонстрирует, что даже на обычных ноутбуках можно работать с десятками миллионов астрономических объектов — при правильной архитектуре и подходе.