Как стать автором
Обновить

Нейросеть определяет принципы жизнедеятельности клеток

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров266
Автор оригинала: Elie Dolgin

Новая нейросеть ProtGPS теперь может предсказывать, как белки сортируются внутри клетки. Модель раскрыла скрытый слой молекулярного кода, который формирует биологическую организацию, открыв новые измерения в биологическом порядке и расширив наше понимание жизни. Это открытие – мощный биотехнологический инструмент для разработки и открытия лекарств.

Предыдущие системы ИИ в биологии, такие как удостоенная Нобелевской премии AlphaFold, были сосредоточены на прогнозировании структуры белков. Но эта новая система, получившая название ProtGPS, позволяет ученым предсказывать не только то, как строится белок, но и то, где он находится внутри клетки. Она также позволяет ученым конструировать белки с определенным распределением, корректируя их позицию внутри клетки с хирургической точностью. Чем не еще один кирпич в кладку трансгуманизма?

Знание того, куда транспортируется белок, полностью дополняет то, как он сворачивается. Вместе эти свойства определяют его функцию и тип взаимодействия внутри клетки. Эти идеи — и инструменты машинного обучения, которые делают их возможными — окажут существенное влияние на программы разработки лекарств.

Генри Килгор, химический биолог из Института биомедицинских исследований Уайтхеда в Кембридже, штат Массачусетс. Соавтор исследования.

Позиционирование белков внутри клетки

За последние несколько лет нейросети произвели революцию в структурной биологии, предсказывая формы белков. Это во многом напоминает инструкцию, которая идет в комплекте с мебелью IKEA. Но оказывается, что знаний о структуре белка недостаточно для понимания функций белка. ProtGPS восполняет эту недостающую часть, определяя местонахождение каждой молекулярной части «мебели» внутри планировки клетки.

У некоторых белков есть четкие пункты назначения. Исследователи уже десятки лет знают, что белки, которые направляющиеся в такие места, как ядро ​​или митохондрии — структуры, окруженные мембранами и отгороженные от остальной части клетки, — несут в себе короткие сигнальные метки, которые их направляют.

Но большая часть клетки — это открытая среда, где белки полагаются на более тонкие сигналы, чтобы реорганизовываться в биомолекулярный конденсат. Этим словом определяют динамические, жидкообразные кластеры, которые помогают регулировать активность генов, управлять клеточным стрессом и противостоять болезням. И если продолжать аналогию с квартирой и мебелью, то как уютное кресло естественным образом вписывается в уголок для чтения, белки следуют внутренним правилам молекулярного размещения, которые направляют их к специализированным биомолекулярным конденсатам, подходящим для определенных функций. Бионический датаизм во всей своей красоте.

Нейросеть в биологии человека

ProtGPS расшифровывает эти внутренние правила, раскрывая скрытые особенности в последовательности аминокислот, которые образуют основу всех белков. Нейросеть словно объясняет внутренние сигналы сортировки, которые определяют, как белок локализируется в конкретных биомолекулярных конденсатах в клетке, и в каких именно участках.

Наша модель изучает эти особенности локализации. И мы можем использовать эти особенности для создания новых белков с нужной нам локализацией.

Итамар Чинн, соавтор исследования, специалист по машинному обучению в Массачусетском технологическом институте. 

Обучение искусственного интеллекта языку белков

ProtGPS можно описать еще как модель языка белков. Она работает во многом как LLM, такие как ChatGPT от OpenAI или Claude от Anthropic, предсказывая последовательности на основе изученных шаблонов. Но вместо обработки текста или речи ProtGPS анализирует белки, которые представлены в виде строк букв, каждая из которых соответствует одному из 20 строительных блоков аминокислот — L для лейцина, S для серина и так далее.

Килгор, Чинн и их коллеги построили модель, используя структуру глубокого обучения ESM, изначально разработанную Meta для прогнозирования структур, функций и свойств белков.

Сокращение от Evolutionary Scale Modeling, ESM — как и AlphaFold — также ориентирована на отслеживание значимых закономерностей из последовательностей белков. Но вместо того, чтобы использовать физику для предсказания точных структур на атомном уровне, как это делает AlphaFold, модель Meta полагается на обучение на основе последовательностей без сложных 3D-вычислений, что делает ее существенно более быстрой и масштабируемой для анализа больших наборов данных. Обновленная версия ESM с улучшенными возможностями была представлена ​​в прошлом месяце.

Команда Килгора и Чинна использовала архитектуру ESM для расшифровки крипто сигналов, встроенных в аминокислотные последовательности. Исследователи адаптировали и усовершенствовали инструмент, чтобы предсказывать, где создаются белки. Это понимание обеспечит разработку новых видов белков — тех, которые не существуют в природе, но могут быть сконструированы с точными свойствами если учитывать свойства биомолекулярного конденсата.

Так родился ProtGPS. Исследователи обучили модель на почти 5000 человеческих белках, которые создаются в одной из 12 локаций биомолекулярного конденсата. Ученые протестировали ProtGPS на независимом наборе данных и обнаружили, что он нейросеть точно предсказывает размещение белков в нужной части клетки.

Неуловимый код разделения

Определенные физические и химические свойства, такие как заряд или гидрофобная природа белка, по-видимому, играют значимую роль касательно того, где белки в итоге оказываются в клетке. Но, как это часто бывает с моделями машинного обучения, точные рассуждения, лежащие в основе прогнозов ProtGPS, и, как следствие, биология, лежащая в основе избирательного распределения, остаются в значительной степени загадкой.

Это не значит, что исследователи не пытались разобрать ее на части. Они прочесали предсказания модели, ища четкие закономерности последовательностей или биохимические свойства, которые могли бы объяснить правила сортировки.

Мы не видим очевидных маркеров.

Питер Михаэль, соавтор исследования, вычислительный биолог из Массачусетского технологического института. 

Эта непрозрачность черного ящика — знакомая проблема в ИИ. Языковые модели по своей природе превосходно справляются с объединением паттернов множества различных факторов и контекстных сигналов, что позволяет им обнаруживать закономерности, которые не сразу очевидны для людей. Хотя новые нейросети могут пояснить за поставленные диагнозы.

Это не так уж и удивительно, что ProtGPS может извлекать сигналы локализации, которые даже опытные биологи с трудом определяют. Если бы правила были простыми, то мы, люди, давно бы их поняли.

Илан Митников, ученый в области машинного обучения, ранее работавший в Массачусетском технологическом институте и помогавший разрабатывать модель. 

Инженерные белки, прогностика заболеваний

Даже без полного понимания того, что управляет клеточным распределением белков, исследователи показали, что ProtGPS может быть использован для создания белков с тщательно настроенными свойствами локализации. Инструмент также оказался способным предсказывать, как мутации, связанные с болезнью, могут нарушить компартментализацию белка, проливая свет на молекулярные механизмы, лежащие в основе таких болезней, как рак и нарушения развития.

Dewpoint Therapeutics — биотехнологическая компания, соучредитель которой один из авторов исследования, биолог Ричард Янг из Уайтхеда — планирует интегрировать ProtGPS в свою работу по разработке лекарств. Главный научный сотрудник Айзек Кляйн уже назвал этот инструмент «переломным моментом» в определении целевых групп лекарств и разработке новых методов лечения.

Другие ученые также видят потенциал для инструмента, включая Туомаса Ноулза, биофизика из Кембриджского университета, который является главным технологом Transition Bio, другой компании, сосредоточенной на разработке лекарств против конденсатных целей.

Что особенно интересно, так это то, что эта статья предоставляет дополнительные доказательства того, что существуют очень специфические особенности последовательности, которые управляют локализацией и разделением белков на конденсаты в живых клетках. Более того, это открывает новые возможности для влияния и контроля локализации белков — и потенциального исправления неправильной локализации, которая лежит в основе многих заболеваний.

Туомас Ноулз, который не принимал участия в исследовании. 

Но помимо своей прикладной полезности ProtGPS освещает новую парадигму в биологии, в которой физическое расположение молекул внутри клетки так же важно для ее функционирования, как и структура молекул, при этом кодировки, встроенные в аминокислотную последовательность, в равной степени влияют на сворачивание и клеточную компартментализацию. На чем и строятся идеи датаизма.

Вернемся к аналогиям с архитектурой. Очевидно, что хорошо спроектированный дом — это больше, чем просто набор мебели. Его планировка опирается на интуитивное размещение для максимизации полезности. И клетки также требуют точной молекулярной организации для оптимального функционирования. Раскрывая скрытые закономерности в последовательностях белков, ProtGPS может служить архитектором этого клеточного потока, расшифровывая природный проект внутреннего дизайна клетки.

Больше материалов на тему биологии, технологии, сознания и их практического использования во благо человека – читайте в материалах сообщества Neural Hack. Подписывайтесь, чтобы не пропускать свежие статьи!

Теги:
Хабы:
+2
Комментарии0

Публикации

Истории

Ближайшие события

11 – 13 февраля
Epic Telegram Conference
Онлайн
27 марта
Deckhouse Conf 2025
Москва
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань