Предсказание VO2max с помощью машинного обучения / Habr

Спросите любого медика, и он скажет вам, что диагностика — самый важный этап лечения. И тут не поспоришь, ведь когда мы знаем, что лечить, то после можем решить как это сделать. Но лучше диагностики заболевания может быть только его предотвращение. Для этого необходим мониторинг состояния организма, состоящий из оценки множества параметров. Отслеживание некоторых из них, например VO₂max, происходит в лабораторных условиях и требует определенного оборудования, стоимость которого порой довольно высока. И вот ученые из Кембриджского университета (Великобритания) разработали новый метод мониторинга VO₂max (максимальное потребление кислорода) с помощью носимой электроники, точность которых в разы выше, чем у самых последних моделей умных часов и фитнес трекеров. Что лежит в основе нового метода мониторинга VO₂max, как он был реализован и какие данные показал? Ответы на эти вопросы мы найдем в докладе ученых.

Основа исследования

Говоря о предотвращении заболеваний, стоит учесть, что существует ряд предикторов (параметров), которые с той или иной степенью точности позволяют предсказать развитие той или иной болезни. К примеру, кардиореспираторная пригодность (CRF от cardiorespiratory fitness) является одним из самых точных предикторов риска развития сердечно-сосудистых заболеваний (CVD от cardiovascular disease). CRF также является потенциально более сильным предиктором исходов сердечно-сосудистых заболеваний по сравнению с другими факторами риска, такими как гипертония, диабет 2 типа, высокий уровень холестерина и курение.

Несмотря на свою прогностическую ценность, рутинная оценка CRF остается редкой в клинических условиях, потому что максимальное потребление кислорода (VO₂max; критерий измерения CRF) сложно измерить напрямую. Компьютеризированная система анализа газов необходима для мониторинга вентиляции и фракций выдыхаемого газа во время изнуряющих упражнений на беговой дорожке или велоэргометре. Если вы любитель сериала «Доктор Хаус», то могли наблюдать, как пациента ставят на велодорожку и заставляют ходить (бегать) с маской на лице. Это и есть метод оценки VO₂max. Также может потребоваться и другое оборудование для измерения сопутствующих параметров, таких как частота сердечных сокращений (ЧСС или HR от heart rate). Не говоря уже о том, что для проведения такого мониторинга нужен обученный персонал, а некоторые пациенты ввиду определенных факторов не смогут им воспользоваться.

Альтернативой классическому мониторингу VO₂max является модель прогнозирования VO₂max без физической нагрузки. Такие модели обычно основаны на регрессии и включают такие переменные, как пол, возраст, индекс массы тела (BMI от body mass index), частоту сердечных сокращений в покое (RHR от resting heart rate) и физическую активность, о которой сообщают сами пациенты. Ранее уже было показано, что можно провести оценку VO₂max, опираясь только на данные RHR, но точность этой оценки в разы уступает классическому методу (с нагрузками).

Носимые устройства, такие как фитнес трекеры и умные часы, могут отслеживать не только RHR и физическую активность, но и другие биосигналы в условиях повседневного использования, что потенциально позволяет более точно оценивать VO₂max без необходимости в изнурительных тестах.

Хотя некоторые носимые устройства кажутся многообещающими, они, как правило, полагаются на подробные измерения интенсивности физической активности, мониторинг скорости на основе GPS и требуют от пользователей достижения почти максимальных значений ЧСС, что ограничивает их использование людьми с хорошей физической подготовкой. Попытки использовать данные с носимых устройств для оценки VO₂max уже были, но вразумительного результата не дали.

В рассматриваемом нами сегодня труде ученые использовали данные из крупнейшего исследования в своем роде, из которого были взяты исключительно данные повседневного использования (без дополнительных физических нагрузок). Для анализа данных была применена модель глубокой нейронной сети, которая использует нелинейные слои с прямой связью для изучения персонализированных данных.

Результаты исследования

Роль базы данных исполнило так называемое исследование Фенленд (район в графстве Кембриджшир), в котором были собраны оценки состояния 12435 здоровых взрослых. Из этого пула было отобрано 11059 участников, чьи параметры полностью подходили для дальнейшего анализа (Fenland I, названный также «текущим»).

Изображение №1

Подгруппа из 2675 участников была снова оценена после медианы (межквантильный диапазон) в 7 лет (Fenland II или «будущий»). Описательные характеристики двух анализируемых образцов представлены на изображении №1. В этой таблице представлены средние значения и стандартные отклонения для каждой характеристики. Схематическая визуализация исследования и трех экспериментальных задач представлены на изображении №2.

Изображение №2

Первым делом ученые разработали и подтвердили несколько моделей оценки VO₂max в качестве регрессионной задачи с использованием характеристик, обычно измеряемых носимыми устройствами (антропометрия, частота сердечных сокращений в покое, физическая активность (ФА или PA от physical activity); таблица №1).

Таблица №1

На этом этапе главной целью было изучение того, как обычные подходы к оценке VO₂max, не связанные с упражнениями, могут быть улучшены с помощью функций из повседневных PA данных. Данные участников были разделены на две группы: обучающие и тестовые. Обучающая выборка (n = 8384, участники только с исходными данными) использовалась для разработки модели. Тестовая выборка (n = 2675, участники с исходными и последующими данными) использовался для внешней проверки каждой модели.

Первым делом тестировались модели, использующие только антропометрию или только RHR. Достоверность таких моделей оказалась очень низкой (R² от 0.35-0.37), хоть и увеличивалась, если эти два параметра объединялись воедино (R² от 0.61). Самая высокая точность (R² = 0.67) была достигнута при использовании модели глубокой нейронной сети, сочетающей носимые датчики, RHR и антропометрические данные (изображение №3).

Изображение №3

Чтобы установить ограничения моделей, был проведен ряд апостериорных анализов, направленных на исследование показателей подгрупп с точки зрения пола, возраста, веса, BMI и роста. Было установлено, что комплексная модель устойчива к большинству подгрупп, показывая минимальные различия в большинстве случаев, за исключением веса и возраста. В частности, не было обнаружено различий между участниками мужского и женского пола, несмотря на то, что результаты были ниже для каждой группы по сравнению со смешанным набором (R² = 0.59). Кроме того, модели лучше работали с участниками младшего возраста (R² = 0.68) и с большим весом (R² = 0.69). Не наблюдалось влияния на разницу в росте или BMI. Наконец, графики Бланда-Альтмана (проверка степени согласия или несогласия между двумя методами) показали, что модель “Dense” (плотная) имеет лучшую верхнюю разницу по сравнению с линейной моделью, где нижняя и средняя разница были одинаковыми.

Стоит отметить, что глубокие нейронные сети могут изучать данные признаков, которые подходят для задач кластеризации, таких как категоризация населения по неявному состоянию здоровья, но которые трудно выявить с помощью методов линейного уменьшения размерности.

Изображение №4

Ученые использовали стохастическое вложение соседей с t-распределением (tSNE — метод нелинейного уменьшения размерности), чтобы визуализировать данные изученных признаков из модели и их связь с VO₂max участника (изображение выше).

Было показано, что кластеризация и окраска по VO₂max обратно пропорциональны и более очевидны в изученном скрытом пространстве по сравнению с исходным пространством признаков. Кроме того, это скрытое пространство можно использовать для подтипирования пациентов путем встраивания соседей. Начиная с исходного пациента (запроса), было получено пять ближайших соседей в скрытом и исходном пространстве. В исследовании с тремя случайно выбранными участниками было обнаружено, что общее евклидово расстояние запроса до всех соседей выше в исходном, чем в скрытом пространстве, что указывает на лучшую семантическую кластеризацию.

Таблица №2

Вторая группа задач в данном исследовании оценивала модель на подмножестве участников из Fenland II (спустя 7 лет после Fenland I). Для этих экспериментов были проведены три оценки. Следуя описанному ранее процессу, ученые переобучили модель для прогнозирования будущего VO₂max, используя в качестве входных данных только текущую информацию (таблица №2). Эта модель дала немного более низкую точность, чем Fenland I, достигнув R² = 0.49 и корреляции 0.72. Более низкая точность была ожидаемой, поскольку модель не имеет информации о поведении людей 7 лет спустя. Дополнительно модель была обучена прямо предсказывать разницу (или дельту) текущего и будущего VO₂max, которая достигла корреляции 0.23.

Изображение №5

Учитывая умеренную предсказуемость дельты VO₂max, ученые сформулировали эту проблему как задачу классификации (5a). Изучив распределение разности (дельты) текущего и будущего VO₂max на тренировочном наборе, ученые разделили его на две половины (50% квантилей) одинаково сбалансированных данных и установили их в качестве результатов прогнозирования. Цель этой задачи состоит в том, чтобы оценить направление индивидуального изменения физической подготовленности. Результаты этих экспериментов (5b) показывают, что модели могут различать существенное изменение физической подготовленности с AUC (area under curve или площадь под кривой) 0.72 (N = 1068) и резкое изменение физической подготовленности с AUC 0.74 (N = 535).

Изображение №6

В завершение аналитической части исследования ученые решили оценить, могут ли обученные модели улавливать изменения, используя новые данные от Fenland II, учитывая, что получить новые данные о носимых устройствах относительно легко, поскольку эти устройства становятся все более распространенными. Идея этого конкретного анализа заключается в оценке обобщаемости моделей с течением времени.

Сначала были сопоставлены популяции, которые предоставили данные для обеих когорт (N = 2042), и применена обученная модель из первой задачи, чтобы сделать выводы о VO₂max. Затем было проведено сравнение прогнозов с соответствующими реальными данными (текущий и будущий VO₂max). Истинное и прогнозируемое распределения показаны на 6c и 6d. С помощью этой процедуры было обнаружено, что модель достигает r = 0.84 для будущего прогноза VO₂max и r = 0.82 для текущего прогноза VO₂max.

Ученые поясняют, если есть доступ к данным носимых устройств и другой информации из будущего, то можно повторно использовать уже обученную модель из Fenland I, чтобы точно определить физическую подготовленность с минимальной потерей точности с течением времени, даже если это новые данные из совершенно отдельной (будущей) недели.

Наконец, была рассчитана дельта прогнозов и проведено ее сравнение с фактической дельтой физической формы за годы наблюдений. Эта задача показала, что модели, как правило, фокусируются в основном на положительных изменениях и недооценивают ухудшение физической формы участников с течением времени (6a и 6b). Тем не менее общая корреляция между дельтой прогнозов и реальными данными была значимой (r = 0.57).

Для более детального ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых и дополнительные материалы к нему.

Эпилог

В рассмотренном нами сегодня труде ученые продемонстрировали новые модели глубокого обучения с использованием данных носимых устройств и других биомаркеров для прогнозирования золотого стандарта физической формы (VO₂max) и добились высоких результатов по сравнению с другими традиционными подходами.

Как правило, для измерения VO₂max используется специальное оборудование и обученный персонал. А вот продемонстрированный учеными метод использует машинное обучение для прогнозирования VO₂max во время повседневной деятельности без необходимости в контекстуальной информации.

В ходе исследования были использованы данные с носимых устройств из исследования Фенланда (длительного исследования общественного здравоохранения на востоке Англии). Участники исследования пользовались носимыми устройствами в течение 6 дней, занимаясь своими повседневными делами. Эти устройства считывали по 60 значений в секунду, в результате чего был получен колоссальный пул данных. Как заявляют ученые, для его обработки был создан специальный конвейер алгоритмов и модели которые могли бы сжимать этот огромный объем данных и использовать их для точного прогнозирования.

Исходные данные 11059 участников сравнивались с данными последующего наблюдения, полученными семь лет спустя (2675 участников). Также была и третья группа из 181 участника, которая проходила лабораторное тестирование VO₂max для проверки точности алгоритма. Модель машинного обучения хорошо согласовывалась с измеренными значениями VO₂max как на исходном уровне (согласие 82%), так и при последующем тестировании (согласие 72%). Это говорит о высокой точности прогнозирования исследуемой модели.

Исследователи говорят, что их результаты демонстрируют, как носимые устройства могут точно измерять физическую форму пользователя, но необходимо повысить прозрачность алгоритмов этих устройств, чтобы можно было доверять их измерениям. К сожалению, на данный момент многие фитнес трекеры или умные часы не спешат делиться тем, как именно и какие именно биологические данные они собирают. Эти устройства якобы измеряют VO₂max, но проанализировать точность таких измерений невозможно.

Однако самих данных, собранных фитнес трекерами и умными часами, может быть вполне достаточно, чтобы точно оценить и спрогнозировать VO₂max человека без необходимости в сложном оборудовании. Ученые считают, что их разработка может стать очень важным фундаментальным аспектом формирования нового подхода к оценке и мониторингу состояния здоровья населения. Данная методика оценки данных может быть применена не только к VO₂max, но и другим важным показателям. Таким образом можно будет не только понять, каково состояние здоровья той или иной группы людей, но и вовремя принять меры для его улучшения.

Немного рекламы

Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

Dell R730xd в 2 раза дешевле в дата-центре Maincubes Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?