
Артериальная гипертензия поражает все большее число детей: в России с 2020 года количество таких пациентов выросло на 17%. Врачи подбирают терапию эмпирически, ориентируясь на общие рекомендации, — результат виден только через 2–3 месяца. Студентка магистратуры «Прикладной анализ данных в медицинской сфере» Центра «Пуск» МФТИ Анастасия Адамсон создала ML‑модель, которая учитывает 154 клинико‑инструментальных признака и с точностью до 98% предсказывает эффективную терапию. Модель уже увидела то, что врачи чувствуют, но не могут доказать: например, связь между лишним весом и эффективностью Лизиноприла. О том, как устроено исследование, какие результаты получены и почему это не замена врачу, а сильный инструмент поддержки — в этом интервью.
Анастасия, расскажите, в чем суть проблемы, которую вы решаете?
С 2020 года число заболевших артериальной гипертензией детей выросло в России на 17% (к 2025 году). Одна из проблем сегодня — то, что подбор антигипертензивной терапии происходит эмпирически, на основании мнения врача. Сейчас доктора назначают лекарства от давления детям почти наугад — из пяти разрешенных препаратов можно выбрать любой. При этом результат виден только через 2–3 месяца. Если препарат не подошел, схему меняют и снова ждут. Все это время давление у ребенка остается высоким, и риск осложнений растет.
Свою ML‑модель я разработала, чтобы предсказывать эффективный препарат сразу, без долгих экспериментов. Чтобы решить эту проблему, недостаточно посмотреть на один показатель давления. Нужно учесть много разных факторов — и тут пригодится мультимодальный подход.
Что это за подход и какие именно данные вы собирали?
Обычно в исследованиях используется ограниченный набор данных, например в модель берут только результаты инструментальных исследований (ЭКГ, Эхо‑КГ, СМАД), или, наоборот, — ищут связи в лабораторных анализах, не учитывая все возможные факторы.
В своей работе я использовала врачебный, а не технический подход: для постановки диагноза и лечения нужно оценить пациента индивидуально и комплексно. С каждой выписки после госпитализации изначально были взяты 90 признаков по каждому пациенту — те, что будут доступны каждому врачу для постановки диагноза (анамнез, перенесенные и сопутствующие заболевания, жалобы, антропометрия, лабораторные анализы, включая гормональные исследования, инструментальные — ЭКГ, Эхо‑КГ, СМАД, УЗИ брахиоцефальных артерий, почек, щитовидной железы и так далее). После очистки и категоризации данных в модель подавалось уже 154 признака по каждому пациенту.
Как подготовили эти данные для модели? Что дала категоризация признаков?
В педиатрии сырые числа значат очень мало. Например, у взрослых людей все просто: давление считается высоким, если оно выше 140/90 мм рт. ст., то есть то, что выше — плохо для всех, а то, что ниже — хорошо. У детей же в зависимости от возраста, роста и пола есть 238 (!) вариантов нормы по систолическому, и еще столько же по диастолическому давлению. Значение давления 120/80 мм рт. ст. для одного ребенка нормально, а для другого — гипертензия.
Я интегрировала все эти нормы (включая нормы давления, лабораторных и инструментальных анализов) в модель с учетом антропометрических и возрастных данных детей. Это сделало модель клинически интерпретируемой. Теперь одно и то же число для разных детей имеет разную клиническую интерпретацию.
Какие модели вы тестировали?
Были выбраны три модели: Random Forest (RF), XGBoost (XGB) и LightGBM (LGBM). Они представляют разные подходы к ансамблям данных и часто дают наилучшее сочетание точности и других метрик в медицинских задачах с высоким числом признаков.
Какие результаты получили?
Random Forest (Accuracy: 0.7683, Precision: 0.7692, F1‑Score: 0.8633, Recall: 0.9836) — единственная модель, которая превзошла baseline (Accuracy: 0.7426, Precision: 0.7426, F1‑Score:0.8520, Recall: 1.0000) почти по всем основным метрикам. Да, цифры не сильно выше, но в медицине даже небольшое повышение метрик точности — хотя бы на 2–3% — позволяет чаще предотвращать неэффективную схему лечения, что конвертируется в улучшение здоровья десятков детей.

Как работает ваша рекомендательная система?
Разработанная рекомендательная система функционирует по принципу имитационного моделирования потенциальных терапевтических сценариев:
Входные данные. Для конкретного пациента система получает его базовый клинический профиль, содержащий только данные, доступные врачу до назначения новой терапии.
Имитация терапии. Для каждого из возможных препаратов система гипотетически имитирует его назначение. Это достигается путем создания множества модифицированных профилей пациента.
Оценка эффективности. Каждый из этих гипотетических сценариев подается на вход обученной модели, которая предсказывает вероятность успешности терапии для данного пациента при условии назначения именно этого препарата.
Формирование рекомендации. Система анализирует все предсказанные вероятности успеха для каждого препарата и выбирает тот препарат, который, согласно модели, демонстрирует наивысшую предсказанную вероятность достижения успешной терапии.
Для оценки корректности и клинической применимости рекомендаций системы в сравнении с врачебной тактикой работу модели проверял независимый эксперт — врач — детский кардиолог, кандидат медицинских наук, доцент ФГБОУ ВО «УГМУ» МЗ РФ. Он составил запрос на независимую экспертизу семи клинических кейсов (пример кейса представлен ниже) и пришел к выводам, что разработанный алгоритм — перспективный инструмент поддержки принятия врачебных решений, обладающим высокой точностью в сегментации пациентов. Эксперт также высоко оценил практическую значимость работы, и при условии доработки алгоритмов она способна существенно повысить качество педиатрической кардиологической помощи.

Какие у модели ограничения? Что она пока не умеет?
Во‑первых, неучтенные фармакотерапевтические режимы. Текущая модель оценки эффективности оперирует исключительно монотерапией. Это не отражает полной клинической картины, где часто применяются комбинированные схемы лечения.
Во‑вторых, сложность прогнозирования назначения. Модели предсказания факта назначения препаратов (где модель пыталась правильно предсказать, какой препарат какому пациенту был назначен) показали недостаточную точность для большинства позиций, кроме Лизиноприла и Глицина. Интеграция этих моделей необходима для фильтрации рекомендаций (например, для отсеивания клинически нереалистичных, но теоретически эффективных вариантов).
В‑третьих, масштаб и репрезентативность. Небольшой размер исходной выборки (272 пациента) и низкая представленность большинства препаратов (за исключением ИАПФ) ограничивают обобщающую способность модели и точность прогноза для редких схем.
В‑четвертых, оценка эффективности. Использование единичных измерений АД через 3–6 месяцев в качестве целевой переменной может быть недостаточно информативным. Для более надежной оценки контроля АГ в будущем необходимо внедрение суточного мониторирования АД (СМАД) в качестве ключевого показателя эффективности терапии.
Также модель не учитывает, была ли доза терапевтической для данного пациента, или же только стартовой и на первом этапе может не дать нужного эффекта и будет требовать дальнейшего титрования.
Расскажите о дальнейших планах проекта.
Решение выявленных ограничений требует расширения когорты и пролонгированного сбора данных. Мы планируем к концу 2026 года расширить объем выборки до 500+ пациентов при амбулаторном контроле. Включение данных о второй госпитализации с обязательным проведением СМАД позволит не только увеличить статистическую мощность модели, но и создать более надежный и информативный набор данных для оценки долгосрочного ответа на терапию. Наша главная цель — превратить исследование в реальный клинический инструмент, который поможет врачам быстрее и точнее подбирать лечение для детей с гипертензией.
