Как стать автором
Обновить

Я попросил ИИ спроектировать белок, и вот, что у него получилось

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров6.3K
Автор оригинала: Ewen Callaway

Новая серия моделей искусственного интеллекта позволяет пользователям создавать [биологические структуры], манипулировать ими и изучать биологию с помощью обычного языка

Исследователи использовали модели искусственного интеллекта для создания работающих зелёных флуоресцентных белков (GFP) с помощью текстовых инструкций
Исследователи использовали модели искусственного интеллекта для создания работающих зелёных флуоресцентных белков (GFP) с помощью текстовых инструкций

Недавно я использовал искусственный интеллект для создания ужасного белка. Следуя пошаговым инструкциям, я создал элементарную модель белкового языка (PLM) — инструмент искусственного интеллекта (ИИ), который выдаёт не слова, а белковые последовательности. С помощью пары строк скопированного из другого места кода я попросил модель придумать короткую последовательность аминокислот.

Я не знал, насколько плох мой белок, пока не спросил AlphaFold, предсказателя структуры белка от Google DeepMind, как он выглядит. В предсказанной структуре были спирали, петли и другие реалистичные элементы. Но AlphaFold очень мало доверял своему предсказанию — знак того, что мою молекулу, вероятно, не получится создать в клетках в лаборатории, не говоря уже о том, чтобы она смогла делать что-то полезное.

Теперь у таких любителей вычислительной биологии, как я, появилась новая надежда. Учёные разрабатывают новое поколение инструментов биологического ИИ, которые принимают инструкции на простом языке и превращают их в белки и другие молекулы, которые в том числе могут стать потенциальными лекарствами. Эти модели также позволяют исследователям «разговаривать» с клетками на обычном английском языке, чтобы расшифровать их внутреннюю работу и получить другие биологические сведения.

Это последний поворот в революции био-ИИ, которая преобразует такие области науки, как дизайн белков и структурная биология. PLM и другие инструменты искусственного интеллекта позволяют учёным с относительной лёгкостью проектировать молекулы, такие как ферменты и антитела. Однако для того, чтобы получить максимальную отдачу от этих инструментов, как правило, требуется значительный опыт.

Модели, позволяющие пользователям «опрашивать» биологию с помощью обычного текста, могут снизить барьер для присоединения к революции био-ИИ, говорят учёные. Такие ИИ также способны обеспечить больший контроль над создаваемыми конструкциями и другими результатами.

«Было бы полезно иметь возможность точно указать, чего мы хотим, и получить белок с этими характеристиками», — говорит Мохаммед Аль-Кураиши, биолог-вычислитель из Колумбийского университета в Нью-Йорке.

Преобразование текста в белок

В прошлом месяце группа под руководством Фаджи Юаня, специалиста по машинному обучению из Университета Вестлейк в Ханчжоу (Китай), показала, что разработанная его командой модель «текст — белок» может проектировать функциональные белки, включая протестированные в лаборатории ферменты и флуоресцентные белки, которые оригинальны по своему дизайну и не похожи на существующие молекулы. «Мы первые, кто разработал функциональный фермент, используя только текст, — говорит Юань. — Это просто как научная фантастика».

 «Ужасный белок»: журналист Юэн Каллауэй создал модель языка белков (PLM) и использовал инструкции базового кода для создания этого белка.
«Ужасный белок»: журналист Юэн Каллауэй создал модель языка белков (PLM) и использовал инструкции базового кода для создания этого белка.

Модель, получившая название Pinal, является одним из нескольких ИИ для разработки белков, которыми можно управлять с помощью обычного языка — в отличие от большинства других подобных ИИ, которые требуют указывать последовательности белков или спецификации со структурой.

Но, по словам Энтони Гиттера, специалиста по вычислительной биологии из Университета Висконсин-Мэдисон, эти модели био-ИИ находятся на очень ранней стадии развития. «Я рассматриваю это как область с высоким риском и высокой отдачей», — говорит он.

Как говорить на языке молекул

Чтобы научить биологические модели ИИ общаться на английском (или любом другом языке), их обычно знакомят с текстовыми описаниями биологических данных. Команда Юаня обучала Pinal, используя краткие описания структур, функций и других характеристик 1,7 миллиарда белков. После некоторого дополнительного обучения модель может взять подсказку и выдать сотни конструкций последовательностей. У модели есть веб-интерфейс, но открытого доступа к ней нет.

Исследователи использовали следующий запрос: «Пожалуйста, спроектируй белок, который является алкогольдегидрогеназой», имея в виду фермент, метаболизирующий алкоголь. Затем Юань и его коллеги использовали другие вычислительные инструменты для определения наиболее перспективных конструкций и совместно с коллегой-биологом проверили их ферментативную активность.

Две из восьми алкогольдегидрогеназ успешно катализировали расщепление алкоголя, хотя и гораздо менее эффективно, чем природные ферменты. По словам Юаня, его команда также разработала работающие зелёные флуоресцентные белки (GFP) и ферменты, разлагающие пластик, причём все они не похожи по последовательности на природные образцы.

Несколько других команд разработали похожие модели ИИ, в том числе модель под названием ESM-3, которой можно давать текстовые команды, а также последовательности и структуры белков. Стартап 310.ai разработал собственный инструмент под названием MP4, который позволяет создавать множество белков на основе текстовых данных, причём несколько из них в лабораторных условиях смогли связываться с клеточным источником энергии АТФ. По словам вице-президента компании по открытиям Тимоти Райли, компания использует эту модель для разработки белков, которые действуют подобно препаратам GLP-1, модным ныне лекарствам для лечения ожирения.

 Поговорите с клетками: Модели искусственного интеллекта позволяют учёным «разговаривать» с клетками, используя обычный язык.
Поговорите с клетками: Модели искусственного интеллекта позволяют учёным «разговаривать» с клетками, используя обычный язык.

По словам соучредителя компании Кэти Вэй, одна из проблем таких моделей, как 310.ai, заключается в том, чтобы придумать правильные текстовые инструкции для ИИ, хотя большие языковые модели могут помочь в составлении успешных подсказок. Она сравнивает это с ранними днями создания ИИ, генерирующих изображения, таких как Dall-E: некоторые подсказки давали результаты лучше, чем другие, а попытки моделей изобразить человеческие руки, например, часто приводили к конфузам. По словам Вэя, вместо странно выглядящих рук MP4 иногда выдаёт белки с повторяющимися последовательностями.

Дизайн лекарств

Дизайн белков — не единственная область, в которой учёные оперируют словами ИИ. Целый ряд моделей стремится применить аналогичный подход к проектированию химических веществ.

Например, в прошлом году команда Гиттера выпустила модель, которая разрабатывает малые молекулы в ответ на текстовые подсказки, и показала, что с её помощью можно создавать лекарственные ингибиторы известных белковых мишеней. Эти модели не были проверены в лабораторных условиях, но вычислительные инструменты «докинга», широко используемые для поиска лекарств, показали, что некоторые из них являются перспективными.

Учёные также используют био-АИ, чтобы «разговаривать» с клетками. Усилия по определению последовательности всех молекул РНК в отдельных клетках стали основой клеточной биологии – разнообразие этой области ранее не ценили по достоинству. Но для того, чтобы разобраться в этих экспериментах с большим объёмом данных, обычно требуется интенсивное сотрудничество между биологами и специалистами по обработке данных, говорит Кристоф Бок, биолог-вычислитель из Медицинского университета Вены.

В качестве альтернативы его лаборатория разработала чат-бота с искусственным интеллектом под названием CellWhisperer. Он может принимать инструкции на простом английском языке — например, «подробно опишите эти клетки» — и возвращать резюме в виде обычного текста или позволять пользователям исследовать визуальное представление популяции разнообразных клеток, «выхватывая» интересующие экземпляры. «Он становится партнёром в анализе данных», — говорит Бок.

Клеточные предложения

В другом проекте наборы данных секвенирования одной клетки преобразуются в длинные списки генов, которые экспрессируют клетки, и эти «клеточные предложения» помещаются в существующую модель большого языка (LLM). Полученная модель, названная Cell2Sentence, может взять набор данных об одной клетке и описать её характеристики, например вид иммунной клетки, на обычном английском языке.

А поскольку модель была обучена на биологической литературе и данных, она может проводить логические рассуждения и делать, например, предсказание того, как лекарство для иммунотерапии рака изменит гены, которые экспрессирует клетка. «Наша модель может переводить с биологического языка на человеческий», — говорит Дэвид ван Дийк, биолог-вычислитель из Йельского университета в Нью-Хейвене (штат Коннектикут), который руководил работой вместе с учёными из Google Research и других компаний.

 Вторая попытка Юэна создать белок, на этот раз с помощью текстовых инструкций, переданных биологической модели ИИ.
Вторая попытка Юэна создать белок, на этот раз с помощью текстовых инструкций, переданных биологической модели ИИ.

Гиттер периодически оценивает способность готовых ИИ-моделей создавать белки, но результаты его пока не впечатляют. Он попросил LLM-помощника Amazon, «Rufus», придумать GFP, но результат не имел ключевой структурной особенности природных GFP.

По словам Аль-Кураиши, нынешний сонм говорящих био-АИ — это «набор костылей». Но идея дополнить LLM научными данными, такими как последовательности белков и химические структуры, является многообещающей, добавляет он. «Я не удивлюсь, если некоторые крупные технологические компании уже работают над этим», — говорит он.

Костыли это или нет, но в моём собственном проекте они сыграли важную роль. После неудачной попытки я зашёл в веб-интерфейс Pinal и набрал «сделай мне хороший белок». Когда я ввёл последовательность в программу AlphaFold, она выдала очень уверенное предсказание. Модель напоминала мешанину между спагетти и фузилли, так что я не ожидал, что она сможет катализировать реакцию, есть пластик или вообще что-то делать. Но это уже начало.

Теги:
Хабы:
Если эта публикация вас вдохновила и вы хотите поддержать автора — не стесняйтесь нажать на кнопку
+7
Комментарии5

Публикации

Ближайшие события