Нейросеть научили моментально предсказывать третичную структуру белка
Решение проблемы прогноза структуры белка откроет новую эпоху управляемой биологии.
Американский исследователь создал нейронную сеть ProteinNet, которая способна предсказывать структуру белка за миллисекунды. Ученый опубликовал статью о разработке на страницах Cell Systems и выложил код на сайт GitHub.
Одна из величайших задач биологии — предсказание трехмерных структур белков по их аминокислотным последовательностям. Существующие методы исследования первичной структуры белка — цепи из аминокислот — работают относительно легко, дешево и быстро. Существующие техники изучения третичной структуры белка — пространственной укладки изгибов, листов и спиралей аминокислотной цепи — проблематичны. Методы разрешения топологии белка включают электронную микроскопию, рентгеноструктурный анализ и ядерную магнитно-резонансную спектроскопию. Чтобы применять их, необходим кристаллизованный белок, замороженный белок, химически обработанный белок или радиоактивно меченный белок. К тому же сложность процесса подготовки образца усугубляется высокой стоимостью методов.
Решение может быть найдено в применении искусственного интеллекта (ИИ). В конце прошлого года Google DeepMind представила алгоритм AlphaFold, который обошел предшественников по эффективности. На основе последовательности аминокислот нейросеть предсказывает расстояния между всеми парами аминокислотных остатков и углы между связями, соединяющими аминокислоты. К тому же алгоритм самостоятельно оценивает точность своих расчетов.
В апреле этого года биолог из Гарвардской медицинской школы в Бостоне Мохаммед Аль Курайши представил алгоритм, который использует совершенно другой подход. По словам исследователя, ProteinNet предсказывает структуры почти в миллион раз быстрее, чем DeepMind, хотя, вероятно, не так точно. Алгоритм работает на основе рекуррентной нейронной сети и предсказывает структуру одного сегмента белка на основе структур сегментов до и после него. Новизна модели заключается в том, что она способна создавать непрерывные предсказания, стык в стык. Это достигается тем, что модель связывает локальную и глобальную структуру белка через геометрические единицы.
Обучение сети ProteinNet занимает месяцы. После она способна преобразовать последовательность в структуру за миллисекунды. Высокая скорость достигается тем, что алгоритм использует математическую функцию для расчета в один шаг. AlphaFold применяет функцию в два шага и потому может прогнозировать топологию часы и даже дни.