AlphaFold: Использование ИИ для научных открытий / Хабр

И снова здравствуйте! Делимся публикацией, перевод которой подготовлен специально для студентов курса «Нейронные сети на Python».

Сегодня мы расскажем о первом важном событии в истории развития DeepMind, чтобы показать, как исследования с помощью искусственного интеллекта могут стимулировать появление научных открытий. Благодаря междисциплинарному характеру нашей работы, DeepMind объединил экспертов из области структурной биологии, физики и машинного обучения, чтобы использовать передовые методы прогнозирования трехмерной структуры белка на основе исключительно его генетической последовательности.

Система AlphaFold, над которой мы работали последние два года, зиждется на многолетнем опыте исследований с использованием обширных данных генома для предсказания структуры белка. Трехмерные модели белков, которые генерирует AlphaFold, гораздо точнее, чем те, что были получены раньше. Это ознаменовало значительный прогресс в одной из основных задач биологии.

В чем заключается проблема фолдинга белка?

Белки – это большие и сложные молекулы, необходимые для поддержания жизни. Почти все функции нашего тела, будь то сокращение мышц, световое восприятие или превращение пищи в энергию, можно проследить по одному или нескольким белкам и тому, как они движутся и изменяются. Рецепты этих белков, называемых генами, закодированы в нашей ДНК.

Свойства белка зависят от его уникальной трехмерной структуры. Например, белки антител, из которых состоит наша иммунная система, имеют «Y-образную» форму и похожи на специальные крючки. Цепляясь за вирусы и бактерии, белки антител способны обнаруживать и помечать болезнетворные микроорганизмы для последующего уничтожения. Аналогично, коллагеновые белки имеют форму шнуров, которые передают напряжение между хрящами, связками, костями и кожей. Другие типы белков включают в себя Cas9, которые, руководствуясь последовательностями CRISPR, действуют как ножницы, которые разрезают ДНК и вставляют туда новые участки. Антифризные белки, чья трехмерная структура позволяет им связываться с кристаллами льда и предотвращать замерзание организмов; и рибосомы, которые действуют как запрограммированный конвейер, который участвует в построении белков.

Определение трехмерной структуры белка исключительно из его генетической последовательности – это сложная задача, над которой ученые бьются в течение десятилетий. Проблема заключается в том, что ДНК содержит только информацию о последовательности строительных блоков белка, называемых аминокислотными остатками, которые образуют длинные цепи. Предсказание того, как эти цепи будут складываться в сложную 3D-структуру белка, известно как “проблема фолдинга белка”.

Чем больше белок, тем сложнее его моделировать, поскольку между аминокислотами образуется больше связей, которые необходимо учитывать. Как следует из парадокса Левинталя, чтобы перечислить все возможные конфигурации обыкновенного белка, прежде чем будет достигнута его правильная трехмерная структура, потребуется времени больше, чем существует Вселенная.

Почему важен фолдинг белка?

Умение предсказывать форму белка крайне полезно, потому что оно имеет фундаментальное значение для понимания роли белка в организме, а также диагностики и лечения заболеваний, таких как болезнь Альцгеймера, Паркинсона, Хантингтона и муковисцидоз, которые, как полагают медики, вызваны неправильно свернутыми белками.

Мы особенно рады тому, что умение предсказывать форму белка может улучшить понимание того, как работает наш организм, это позволит эффективно разрабатывать новые лекарства. По мере того как мы получаем больше информации о формах белков и о том, как они работают с помощью моделирования, открываются новые возможности в создании лекарств, а также снижаются затраты на эксперименты. В конечном итоге эти открытия смогут улучшить качество жизни миллионов пациентов во всем мире.

Понимание процесса фолдинга белка также может помочь в разработке вида белка, который принесет существенный вклад в окружающую действительность. Например, достижения, полученные с помощью разработки белка в области биоразлагаемых ферментов, могут помочь справляться с загрязнителями, такими как пластик и масло, помогая расщеплять отходы не портя при этом окружающую среду. На самом деле, исследователи уже начали проектировать бактерии выделяющие белки, которые сделают отходы биоразлагаемыми и облегчат их обработку.

Для стимулирования исследований и оценки прогресса в области новейших методов повышения точности прогнозирования в 1994 году был учрежден масштабный двухгодичный конкурс под названием «Эксперимент сообщества по критической оценке методов предсказания структуры белка» (CASP), который стал золотым стандартом оценочных методов.

Как ИИ изменит ситуацию?

За последние пять десятилетий ученые смогли распознать формы белков в лабораторных условиях с помощью экспериментальных методов, таких как криоэлектронная микроскопия, ядерный магнитный резонанс или рентгеноструктурный анализ, но каждый метод был выведен путем множества проб и ошибок, которые заняли годы и стоили десятки тысяч долларов. Вот почему сейчас биологи обращаются к методам ИИ в качестве альтернативы долгому и трудоемкому процессу исследования сложных белков.

К счастью, область геномики имеет достаточно данных благодаря быстрому снижению стоимости генетического секвенирования. В результате в последние несколько лет все большую популярность приобретают подходы к проблеме прогнозирования, использующие глубокое обучение и основанные на данных генома. Работа DeepMind над этой проблемой привела к появлению AlphaFold, которую мы представили CASP в этом году. Мы гордимся тем, что являемся частью того прогресса, который эксперты CASP назвали “беспрецедентным прогрессом в способности вычислительных методов предсказывать структуру белка”. В итоге мы заняли первое место в рейтинге команд (мы — A7D).

Наша команда сосредоточилась именно на задаче моделирования целевых форм с нуля, без использования ранее решенных белков в качестве шаблонов. Мы достигли высокой степени точности при прогнозировании физических свойств структуры белка, а затем использовали два различных метода для предсказания полных белковых структур.

Использование нейронных сетей для прогнозирования физических свойств

Оба этих метода использовали глубокие нейронные сети, которые обучены предсказывать свойства белка по его генетической последовательности. Свойства, которые предсказывают сети: (а) расстояния между парами аминокислот и (б) углы между химическими связями, которые соединяют эти аминокислоты. Первая разработка стала настоящим прогрессом в использовании популярных методов, определяющих находятся ли пары аминокислот рядом друг с другом.

Мы обучили нейронную сеть предсказывать отдельное распределение расстояний между каждой парой остатков белка. Эти вероятности затем были объединены в оценку, которая показывает, насколько корректна разработанная структура белка. Мы также обучили еще одну нейронную сеть, которая использует все расстояния в совокупности, чтобы оценить, насколько близка предлагаемая структура к правильному ответу.

Новые методы предсказания структур белка

Используя эти оценочные функции, мы смогли найти структуры, соответствующие нашим прогнозам. Наш первый метод основан на методах, широко используемых в структурной биологии, он неоднократно заменял части структуры белка новыми фрагментами. Мы обучили генеративно-состязательную нейронную сеть предлагать новые фрагменты, которые используются для постоянного улучшения оценки предлагаемой структуры белка.

Второй метод оптимизировал оценки с помощью градиентного спуска, ( математического метода, обычно используемого в машинном обучении для небольших инкрементных улучшений) что привело к высокой точности структур. Этот метод применялся к целым белковым цепям, а не к кусочкам, которые должны быть уложены отдельно перед сборкой, что уменьшает сложность процесса предсказания.

Что дальше?

Успех нашей пробы пера на свертывании белка показывает, что системы машинного обучения могут интегрировать различные источники информации, чтобы помочь ученым быстро разработать творческие решения сложных проблем. Мы уже видели, как ИИ помогает людям освоить сложные игры через такие системы, как AlphaGo и AlphaZero, мы также надеемся, что однажды прорыв ИИ поможет решить человечеству фундаментальные научные проблемы.

Занимательно видеть первый прогресс в фолдинге белка, демонстрирующий полезность ИИ в совершении научных открытий. Даже несмотря на то, что нам предстоит еще многое сделать, мы точно понимаем, что сможем поспособствовать поиску лечения различных заболеваний, помощи окружающей среде и многому другому, потому что на самом деле потенциал огромен. С преданной своему делу командой, сосредоточенной на изучении того, как машинное обучение может продвигать мир науки, мы исследуем различные способы и методы, с помощью которых наша технология сможет повлиять на окружающий мир.

AlphaFold: Использование ИИ для научных открытий