Решение проблемы прогноза структуры белка откроет новую эпоху управляемой биологии.
Американский исследователь создал нейронную сеть ProteinNet, которая способна предсказывать структуру белка за миллисекунды. Ученый опубликовал статью о разработке на страницах Cell Systems и выложил код на сайт GitHub.
Одна из величайших задач биологии — предсказание трехмерных структур белков по их аминокислотным последовательностям. Существующие методы исследования первичной структуры белка — цепи из аминокислот — работают относительно легко, дешево и быстро. Существующие техники изучения третичной структуры белка — пространственной укладки изгибов, листов и спиралей аминокислотной цепи — проблематичны. Методы разрешения топологии белка включают электронную микроскопию, рентгеноструктурный анализ и ядерную магнитно-резонансную спектроскопию. Чтобы применять их, необходим кристаллизованный белок, замороженный белок, химически обработанный белок или радиоактивно меченный белок. К тому же сложность процесса подготовки образца усугубляется высокой стоимостью методов.
Решение может быть найдено в применении искусственного интеллекта (ИИ). В конце прошлого года Google DeepMind представила алгоритм AlphaFold, который обошел предшественников по эффективности. На основе последовательности аминокислот нейросеть предсказывает расстояния между всеми парами аминокислотных остатков и углы между связями, соединяющими аминокислоты. К тому же алгоритм самостоятельно оценивает точность своих расчетов.
В апреле этого года биолог из Гарвардской медицинской школы в Бостоне Мохаммед Аль Курайши представил алгоритм, который использует совершенно другой подход. По словам исследователя, ProteinNet предсказывает структуры почти в миллион раз быстрее, чем DeepMind, хотя, вероятно, не так точно. Алгоритм работает на основе рекуррентной нейронной сети и предсказывает структуру одного сегмента белка на основе структур сегментов до и после него. Новизна модели заключается в том, что она способна создавать непрерывные предсказания, стык в стык. Это достигается тем, что модель связывает локальную и глобальную структуру белка через геометрические единицы.
Обучение сети ProteinNet занимает месяцы. После она способна преобразовать последовательность в структуру за миллисекунды. Высокая скорость достигается тем, что алгоритм использует математическую функцию для расчета в один шаг. AlphaFold применяет функцию в два шага и потому может прогнозировать топологию часы и даже дни.