Суперкомпьютеры, секвенирование генома и перспективы победы над коронавирусом

Джастин Эр, менеджер по глобальным коммуникациям

Одна капля жидкости, которую выдыхает человек, может содержать миллиарды частиц коронавируса. В каждой из них с определенными вариациями будет около 30 000 нуклеотидов ДНК. Таков показатель плотности в вирусном геноме, отвечающем за каждую особенность и специфическую черту вируса — от его вирулентности до механизмов передачи. Исследователи из Китая и других стран мира уже определили ряд геномных последовательностей нового коронавируса SARS-CoV-2, предоставив ученым и медикам базовые знания для начала борьбы с инфекцией.



Минутка заботы от НЛО


В мире официально объявлена пандемия COVID-19 — потенциально тяжёлой острой респираторной инфекции, вызываемой коронавирусом SARS-CoV-2 (2019-nCoV). На Хабре много информации по этой теме — всегда помните о том, что она может быть как достоверной/полезной, так и наоборот.

Мы призываем вас критично относиться к любой публикуемой информации


Официальные источники

Если вы проживаете не в России, обратитесь к аналогичным сайтам вашей страны.

Мойте руки, берегите близких, по возможности оставайтесь дома и работайте удалённо.

Читать публикации про: коронавирус | удалённую работу

Но составление карт геномов коронавирусов — это лишь начало работы. Экспоненциально более сложным и не менее важным для понимания характера пандемии является определение последовательности геномов инфицированных людей. Здесь возникает множество вопросов: почему один вирус более заразен, чем другие? Какие механизмы приводят к развитию пневмонии у одних больных и лишь легкому кашлю у других? Как отдельные пациенты будут реагировать на различные виды лечения или введение вакцины?

Ответы нужно искать в области взаимодействия генома человека и штаммов вирусов. Понимание этого процесса на уровне ДНК открывает путь к диагностике заболеваний, созданию противовирусных вакцин и иммунотерапии.



Исследователи из компании BGI Genomics, которые разработали первые диагностические тест-наборы для выявления заболевания COVID-19, участвуют в кропотливой и масштабной работе по расшифровке генома нового коронавируса. Чтобы разработать эффективную вакцину, ученым нужны массивные наборы данных для выявления генетических различий и создания потенциальной защиты. При такой масштабной работе генерируются терабайты и петабайты данных, с обработкой и анализом которых могут справиться лишь системы высокопроизводительных вычислений (HPC).

Скорость секвенирования генома растет вместе с ростом вычислительной мощности. Процесс, который изначально занимал более десяти лет и стоил миллиарды, теперь можно выполнить всего за несколько часов на кластерах суперкомпьютеров, работающих на оптимизированной аппаратной архитектуре. Исследователи подчеркивают, что путь к созданию вакцины, вероятно, будет долгим, однако такой беспрецедентный набор инструментов поможет сократить сроки.


«Чтобы проанализировать и выявить осложнения, возникающие из-за вирусной инфекции, BGI Genomics секвенировала сотни клинических образцов, — отмечает Сянцянь Цзинь, ИТ-директор BGI Genomics. — Доступ к новейшим технологиям высокопроизводительных вычислений и геномной аналитики является важным фактором повышения эффективности анализа».


Исследователь BGI Genomics работает с секвенатором T7

Желая поддержать BGI и расширить возможности исследователей, ведущих борьбу с COVID-19, Intel и Lenovo объединили усилия. Они подарили ученым суперкомпьютерный кластер, а также предложили свою экспертизу в области программного и аппаратного обеспечения для максимально эффективного использования.
«Мы стараемся делать все возможное, чтобы поддержать ученых и медиков, которые находятся на передовой борьбы с новым коронавирусом», — объясняет ведущий специалист Lenovo по исследованиям и разработкам в области геномики Милиди Джиральдо.


Технология, которую Intel и Lenovo предоставили BGI, включает кластер HPC для обработки высокопроизводительных операций чтения из секвенсора BGI DNBSEQ-T7.

Доктор Джиральдо несколько лет работал над исследованиями в сфере биоинформатики в Национальном институте здоровья (NIH), внося свой вклад в разработку вакцин для борьбы с инфекционными заболеваниями. Теперь он помогает наладить взаимодействие между учеными и инженерами, разрабатывающими аппаратное и программное обеспечение для отрасли естественных наук.
«Мы дарим оборудование и предлагаем свои экспертные знания, но настоящий прорыв обеспечат те результаты, которых добьются исследователи BGI и другие представители биомедицинского сообщества».

Кластер HPC позволит изучить вирулентность, схемы передачи патогена и взаимодействия между хозяином и вирусом. В результате этой работы BGI надеется оптимизировать свои диагностические наборы COVID-19, получить множество знаний о коронавирусе, ускорить разработку эффективной вакцины или других защитных мер — например, иммунотерапии.

Расшифровка генома


Геном каждого человека на Земле можно представить как книгу с тысячей страниц. Но ее необычный текст будет содержать всего четыре буквы: AGCT. Они обозначают комбинацию нуклеотидов в ДНК и содержат инструкции для каждой черты, каждой особенности, которая делает вас тем, кто вы есть: определяет цвет волос, рост и даже подверженность такому заболеванию, как COVID-19. Большинство этих инструкций написаны для всех людей одинаково, однако самые важные вариации скрыты всего на нескольких страницах.



Чтобы понять, как проявляется у конкретного человека восприимчивость к инфекции, исследователи должны определить точные «страницы» (то есть гены) с соответствующими инструкциями. Это можно сделать только путем сравнения «страниц» у максимально возможного количества пациентов — с выявлением общих характеристик и последующим использованием данных, связывающих эти вариации с реагированием на инфекцию.

При секвенировании генома нужно учитывать, что 1 мл биологического образца обычно содержит миллионы различных вирионов, а каждый из них, в свою очередь, имеет геном примерно с 30 000 нуклеотидов ДНК.

Эта чрезвычайно сложная задача расшифровки и интерпретации генома и лежит в основе борьбы ученых с новым коронавирусом. Понимание взаимодействия между соответствующими человеческими генами и SARS-CoV-2 может выявить способы сдержать или полностью остановить инфицирование. Ученые также будут искать общие «страницы» в книге самого коронавируса — выявлять области генома, в которых патоген не может перенести мутации. Это своего рода ахиллесова пята, которая может открыть путь к созданию вакцины или поиску лечения.

Разработка вакцины


В фильмах об эпидемиях, как правило, есть момент, когда ученые охотятся за единственным невосприимчивым к болезни человеком. В этом есть определенный смысл: природный иммунитет может дать ключевое представление о путях разработки эффективной вакцины.

«Правда, в этих фильмах отсутствует реалистичный масштаб времени, — отмечает доктор Джиральдо. — Они не показывают продолжительную работу по расшифровке генома, порой охватывающую месяцы или даже годы, которые уходят на сравнение больших наборов данных в одном конкретном геноме и между разными пациентами. Кроме того, в сценарии игнорируется время, затрачиваемое на клинические испытания. Они нужны для того, чтобы проверить многочисленные варианты вакцины, пока не будет найден один — с наиболее высокой эффективностью и наименьшим побочным действием».



Коронавирус венчает кольцо похожих на корону шипов, которые и определили его название.

Рассмотрим две реакции пациента на вирус: у одного развивается опасная для жизни пневмония, а у другого — лишь легкий кашель. Что объясняет подобные различия? Сниженный иммунитет? Генетическая предрасположенность? Последствия другой болезни, перенесенной в прошлом? Возраст? Пол? Питание? Доминирование определенного штамма вируса? Ответить на эти вопросы, сравнивая двух пациентов, — уже непросто. А применительно к тысячам человек сложность задачи многократно возрастает.

Однако только огромный массив данных поможет начать процесс изучения бесчисленных вариаций генов и факторов влияния окружающей среды. Чем больше у ученых клинических и геномных данных, тем лучше и точнее они смогут определить общие черты у разных пациентов.
Геномика в масштабе всего народонаселения — это миллиарды единиц информации. Для изучения нового коронавируса ученые надеются сравнить ДНК десятков тысяч диагностированных пациентов. Это сложная задача, требующая серьезной вычислительной мощности и большой емкости, доступных только в среде HPC.

Оптимизация HPC


Помните «книгу» генома? Ту, на первое прочтение которой требовалось целое десятилетие? Теперь исследователи анализируют геном примерно за 150 часов. Это, конечно, фантастический скачок, но все же такой скорости недостаточно для борьбы с пандемией COVID-19. Даже выделение и секвенирование битов, которые кодируют структуру белка и механизм размножения вируса (а это несколько «страниц», называемых экзомами), обычно занимает не менее 4 часов.

Теперь исследователи BGI могут получить доступ к кластерам HPC, оптимизированным для сбора и анализа целых сотен геномов и тысяч экзом.
«Благодаря этой донации мы надеемся расширить те ресурсы, которые исследователи BGI уже имеют в своем распоряжении, чтобы биомедики быстрее решили поставленную задачу, — подчеркнул д-р Хиральдо. — Трудно придумать лучший пример использования технологий для решения важнейших задач человечества: ученые, врачи и инженеры объединили свои усилия, чтобы сделать все возможное для борьбы с пандемией коронавируса».

На базе мощного решения Intel компания Lenovo разработала оптимизированную аппаратную и системную архитектуру, которая поможет радикально сократить время расшифровки генома. Решение Lenovo для геномных исследований на уровне всего населения Земли — инструмент для оптимизации и масштабируемости геномов (Genomics Optimization and Scalability Tool, GOAST) — использует программное обеспечение с открытым исходным кодом Genome Analysis Toolkit и оптимизированные аппаратные платформы. Выбор подходящих программных и аппаратных компонентов для ускорения геномных исследований потребовало тестирования сотен конфигураций HPC.
«Этот процесс полностью ориентирован на реальные потребности ученых, — подчеркивает д-р Джиральдо. — Исследователи должны сфокусироваться непосредственно на науке, а не заниматься оборудованием. Поэтому мы перебрали все доступные нам аппаратные компоненты, «строительные блоки», составляющие оптимальную конфигурацию для ускорения выполнения задачи. В наших тестах использовались те же программы, что и в исследовательских лабораториях, поэтому решение было сразу готовым к применению».

В результате весь человеческий геном секвенируется за пять с половиной часов, а экзом — всего за четыре минуты. Ускорение достигает 40-кратных значений. При поддержке специализированного суперкомпьютерного кластера исследователи BGI вскоре приступят к активной работе, используя GOAST для изучения нового коронавируса и создания вакцины.

В краткосрочной перспективе прогнозирование вирулентности на основе доминирующих штаммов может помочь больницам эффективнее распределять пациентов — они будут знать, кто подвергается большему риску и какие методы лечения будут наиболее действенными. В долгосрочной перспективе, помимо создания вакцины, знание геномной истории и места происхождения вируса поможет предотвратить будущие вспышки. В общем, это невероятно емкая и сложная головоломка, которую нужно решить.

Современное оборудование и технологии ускорят распознавание людей, инфицированных COVID-19, а изучение характеристик генома вируса будет способствовать точной диагностике, успешному лечению и профилактике эпидемий.
Lenovo
Умные технологии для всех

Комментарии 3

    +2

    Когда я вижу стойку серверов, у которых у всех одновременно горят лампочки активности (дисковой? Сетевой?) я понимаю, что стойка зависла. Бедная, бедная стойка серверов.

      0
      Возможно, у кластеров Леново есть «демо режим».
      Или, более вероятно, они успели мигнуть по разу за время выдержки.
      0
      Друзья, ну это же просто фотография на длинной выдержке, с экспозицией в несколько минут. Конечно же, они не все одновременно горят на самом деле.

      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

      Самое читаемое