Учёные из Института AIRI и немецкого университета Constructor University представили совместную работу, посвящённую разработке ИИ‑модели для генерации искусственных белков DiMA. Специалисты отметили, что одна из практических задач новой модели — генерация белков с заранее определёнными характеристиками. Результаты исследования представлены на 42 Международной конференции по машинному обучению ICML 2025.
DiMA способна создавать не встречавшиеся ранее в природе белковые последовательности, точно соответствующие заданным исследователями критериям. Новые белки необходимы для разработки лекарственных препаратов, рассказали информационной службе Хабра в AIRI.
С точки зрения химии, белок представляет собой полимер: цепочку из аминокислот, которые в результате взаимодействий в пространстве сворачиваются в определённую структуру. Эту структуру можно представить как набор координат всех атомов в трёхмерном пространстве или в развёрнутом виде — как последовательность аминокислот, где каждую аминокислоту можно записать как отдельную «букву». Вследствие чего формируется что‑то похожее на длинные слова или предложения, где каждая «буква» означает уникальные физико‑химические свойства. Последовательность этих символов определяет, как белок свернётся и какие функции и характеристики будет иметь.
Для создания искусственных белков учёные уже применяли различные языковые модели. Авторегрессионные модели (например, ChatGPT) генерируют белковые последовательности побуквенно. Дискретные диффузионные модели (например, DALL‑E 3) создают всю последовательность («слово») сразу. Однако оба этих подхода требуют большого размера модели и огромного количества данных для обучения.
Специалисты из AIRI и Constructor University предложили принципиально новый подход. Новый подход основан на непрерывной Гауссовой диффузии. На первом этапе DiMA обучили генерировать разнообразные белки, которые всегда получаются биологически осмысленными и при этом не повторяют дословно известные природные последовательности. Это значит, что модель научилась понимать, как устроена вся «Вселенная белков», и может эту «Вселенную» достоверно имитировать.
На втором этапе исследователи дообучили систему генерировать белки только из определённых областей пространства, задавая соответствующие условия. Например, белки определённого семейства или белки с заданной трёхмерной структурой. Описанный подход позволяет не только расширять представления о теоретически возможных белковых конфигурациях, но и решать конкретные прикладные задачи в биотехнологиях и медицине.
Как объяснил ведущий научный сотрудник группы дизайна белков Центра ИИ‑разработки новых лекарственных препаратов Института AIRI Павел Страшнов, в естественных условиях существуют белки с одинаковой пространственной укладкой, но разными аминокислотными последовательностями, однако эволюция показала лишь те варианты, которые были обусловлены конкретными биологическими потребностями и ограничениями. По словам Страшнова, теоретически возможных вариантов белков существует астрономическое количество, поэтому наблюдаемые в природе белки представляют собой лишь каплю в океане возможностей.