Pull to refresh

Машинное обучение в решении задач медицинской метагеномики

Reading time5 min
Views426

Машинное обучение проникает во все большее число научных и прикладных областей — от финансов до биомедицины. Даже такая сложная и специфичная сфера, как медицинская метагеномика, сегодня все активнее использует ML для диагностики заболеваний, поиска биомаркеров и анализа микробиоты. О том, какие задачи решает ML в метагеномике и с какими трудностями сталкиваются исследователи, рассказывает к. м. н. Анастасия Холодная — выпускница магистратуры «Прикладной анализ данных в медицинской сфере» и эксперт Центра «Пуск».

Медицинская метагеномика изучает генетический материал микроорганизмов, содержащихся в биобразцах, взятых у человека, для установления микробного состава различных областей организма (микробиома) посредством секвенирования. Она дает ответы не только о видовой принадлежности микроорганизмов, но и об их функциональной активности (какие гены экспрессируются). Важное преимущество метагеномного подхода — возможность изучать представителей микробиоты, которые не могут быть выращены в лабораторных условиях. Кроме того, метагеномика помогает выявлять новые виды болезнетворных микроорганизмов. 

Для решения классических задач (видовая классификация, сборка метагенома и т. п.) в метагеномике традиционно использовались биоинформатические методы. Развитие же машинного обучения (ML) открыло потенциал к более практикоориентированному применению метагеномных данных. 

Задачи ML в медицинской метагеномике

Наиболее распространенные сегодня задачи ML в исследованиях микробиома включают диагностику заболеваний, а также прогнозирование их течения и ответа на лечение на основе видового или функционального состава микробиоты. Также МО используется для обнаружения диагностических или прогностических биомаркеров, то есть наиболее информативных генов, таксонов или их метаболических функций, которые могут предсказывать восприимчивость к заболеванию, особенности течения и потенциальную эффективность терапии. 

Проблемы метагеномных данных  

Несмотря на то что прогнозное моделирование с использованием МО зарекомендовало себя как эффективный инструмент в изучении микробиома, существуют некоторые ограничения, связанные с особенностями интерпретируемых данных.

  • Отсутствует единый стандарт предобработки «сырых» результатов секвенирования. В зависимости от метода биоинформатического преобразования данные могут быть приведены в табличный вид с количественными значениями генов, операционных таксономических единиц (Operational Taxonomic Units, OTU), вариантов последовательностей ампликонов (Amplicon Sequence Variants, ASV), метагеномных видов (Metagenomic Species Pan-genomes, MSP) или функциональных модулей.

  • Различное количество считываний на образец. В зависимости от используемых методов секвенирования общее количество считываний на образец (глубина покрытия) может варьироваться на порядки в пределах одного цикла. Сравнение образцов с разной глубиной покрытия требует определенных корректировок, которые зависят от метода секвенирования и цели анализа.

  • Разреженность, то есть данные содержат большое число нулевых значений. Это связано с тем, что многие виды микроорганизмов могут быть представлены только у немногочисленных или даже одного субъекта исследования. Также те или иные виды могут присутствовать, но в малом количестве, не достигающем глубины покрытия для данного образца. В результате статистическое распределение количественных признаков зачастую не соответствует гауссовскому, что затрудняет использование ряда подходов к моделированию.

  • Относительные значения. При высокопроизводительном секвенировании общее количество чтений представляет собой случайную выборку молекул ДНК или РНК фиксированного размера в образце. Это количество не зависит от абсолютного числа молекул в пробе и, следовательно, является относительным к общей сумме. В этой связи изменения численности одной последовательности приводят к компенсаторным изменениям численности остальных. Математическая основа для работы с таким типом данных — композиционный анализ, однако его применение к данным микробиома и последствиям для моделей ML по-прежнему остается областью активных исследований. 

  • Многомерность. Данные о микробиоме всегда содержат большее число признаков, чем наблюдений. Это может приводить к переобучению моделей и худшей обобщаемости, особенно при небольших размерах выборок.

Особенности предобработки метагеномных данных

Повлиять на производительность моделей и внести систематические ошибки в анализ могут различия в предварительной обработке данных. Типичные задачи последней включают нормализацию, очистку и коррекцию батч-эффекта. 

  • Нормализация необходима для уменьшения влияния технических погрешностей, таких как глубина секвенирования. Cтратегия нормализации должна учитывать композиционную природу данных с использованием соответствующих преобразований. 

  • Выявленные выбросы в данных требуют тщательного изучения с биологических позиций перед принятием окончательного решения об их устранении. Внутренние связи микробного сообщества весьма разнообразны и включают отношения мутуализма, паразитизма, комменсализма и конкуренции. При этом не все методы отбора признаков могут быть масштабированы до тысяч микробных генов или таксонов, присутствующих у разных людей. 

  • Фильтрация видов с низкой относительной представленностью, как правило, повышает производительность моделей машинного обучения и обеспечивает более интерпретируемые результаты, однако до сих пор не существует универсального стандарта относительно значения порогового фильтра. Точно так же не все алгоритмы ML могут применяться для небольших размеров выборки, что ограничивает возможность обобщения моделей. 

Проблема батч-эффекта. Для снижения числа ложных корреляционных связей и выявления истинных биологических взаимодействий требуется коррекция батч-эффекта, либо включение данных о батче в качестве ковариата. На сегодняшний день для этой цели существует лишь ограниченное количество методов, и в целом отсутствуют устоявшиеся рекомендации по стандартизированным подходам. Это особенно важно для больших исследований, в которых образцы анализируются в разные моменты времени или секвенируются в отдельных сериях, а также в случае подготовки метаанализов, включающих несколько независимых исследований.

Особенности построения моделей 

Применение ML в решении задач метагеномики требует работы с интерпретируемыми алгоритмами, такими как деревья решений, логистическая регрессия, метод опорных векторов и пр. Однако в машинном обучении, как правило, интерпретируемость конфликтует с производительностью: более сложные модели (ансамбли деревьев, глубокое обучение) демонстрируют лучшую предсказательную силу, но их результаты также сложнее интерпретировать. Одно из решений — это комбинированное использование отбора признаков, включения метаданных, а также данных функциональных анализов. 

Методы объяснимого искусственного интеллекта такие как анализ важности признаков, графики частичной зависимости и SHAP-значения (аддитивное объяснение Шепли, SHapley Additive exPlanation) также находят широкое применение в метагеномике.

Несмотря на сохраняющиеся ограничения, идет постоянное усовершенствование подходов к прогнозному моделированию в сфере изучения микробиома. Применение методов ML в результате не только расширяет фундаментальные представления о функционировании микробных сообществ, но и уже сейчас прокладывает путь к глобальным изменениям в диагностических подходах.

В следующей публикации я проиллюстрирую вышеописанные особенности применения ML в решении задач метагеномики в проводимых нами исследованиях. 


Автор: Холодная Анастасия Николаевна (tg @ancold_inf) — к. м. н., ассистент кафедры инфекционных болезней и эпидемиологии ПСПбГМУ им. акад. И. П. Павлова, магистр программы «Прикладной анализ данных в медицинской сфере», эксперт онлайн-магистратур Центра «Пуск» МФТИ.

Tags:
Hubs:
+3
Comments0

Articles

Information

Website
mipt.online
Registered
Employees
31–50 employees
Location
Россия