De Novo дизайн молекул против предсказания текста: fight!

Возможно, факты покажутся очевидными, но я сознательно проговариваю их отдельно, потому что в сети смешиваются разные классы моделей — уверена, что и вы постоянно сталкиваетесь с утверждением, мол, «ИИ не способен создать ничего нового, модели только перерабатывают существующие данные».
Это мнение особенно распространено в контексте больших языковых моделей (LLM), GPT-подобных систем.

Но.
Биоинженерия сейчас входит в топовые тренды 2024-2025 как часть технологического «суперцикла» ИИ.
И применять мнение, упомянутое выше, к области молекулярного дизайна, неверно. Картина полностью меняется.

Что если я вам покажу, что генеративные модели действительно создают новые молекулы и структуры, ранее не существовавшие?

Сначала кратенько, а ниже разверну:

NLP = система производит текст, хотя внутри работает по механизму предсказания токена. Биодизайн: генерация = придумать кандидата, предсказание = оценить кандидата.
NLP = система производит текст, хотя внутри работает по механизму предсказания токена. Биодизайн: генерация = придумать кандидата, предсказание = оценить кандидата.

Пайплайн «как это часто собирают на практике»:

Это типичный модульный пайплайн. Компоненты могут существовать отдельно, естественно.

Генератор кандидатов => (опционально) фильтры/скоринг предикторами => отбор => лабораторная/физическая проверка.

Интерес к этой теме возник в рамках моего проекта (я изучаю нейродегенеративные и генетические заболевания). Актуальные направления ИИ в сфере биоинженерии включают молекулярный дизайн, анализ белков, РНК и разработку терапевтических молекул для новых лекарств.*

Пометка на полях: *я обобщила. По сути — генерация новых кандидатов (белки/биомолекулы) и их проверка экспериментально.

И когда в дискуссиях звучит заезженный тезис о том, что ИИ — это всего лишь «поиск по данным» или инструмент без творческого потенциала, критически важно уточнить контекст.

Тема очень актуальна в 2025 году.

ИИ в молекулярном дизайне и «drug discovery» — чуть ли не самое быстрорастущее направление: после AlphaFold 3 (2024) и новых генеративных моделей типа Evo (2024–2025), RFdiffusion All-Atom, Chroma и тд.
Выходит куча публикаций в Nature, Science и Nature Medicine. Плюс фармкомпании активно внедряют это (Insilico Medicine, Exscientia, Generate:Biomedicines и тд.). Общественный интерес «может ли ИИ изобретать новое» в связи с этим тоже растёт, особенно на фоне споров про креативность LLM.

В этой статье я попробую пояснить, почему ИИ в биодизайне способен генерировать инновационные структуры, и проведу небольшое сравнение с известными текстовыми моделями.

Часто под «ИИ» подразумевают исключительно LLM, игнорируя другие классы моделей, решающие принципиально иные задачи.

В биоинженерии/молекулярном дизайне различия между моделями особенно заметны

Давайте рассмотрим два основных типа моделей в этой области: предсказательные и генеративные (а потом вернёмся к LLM).

Предсказательные модели (пока возьмём широкий термин*) — анализируют существующие молекулы и прогнозируют их свойства.


В подмножество могут входить:

  • регрессоры (стабильность, аффинность);

  • классификаторы (токсично/нет);

  • дискриминативные модели в строгом смысле (которые учатся отличать одно от другого, например, больной белок от здорового; моделируют p(y|x))

Уточнение во избежание недопониманий: в этом тексте я называю предсказательными любые модели, которые по заданной молекуле/последовательности оценивают свойства или класс; на практике это часто дискриминативные модели (классификаторы/регрессоры). Дискриминативные чаще всего предсказательные, но не все предсказательные — дискриминативные.

Они ничего не создают —берут существующую молекулу и говорят нам, как она себя поведет:

  • Как свернётся белок по данной аминокислотной последовательности? (AlphaFold от Google DeepMind - ИИ для предсказания структур белков (protein folding) и шире — применение ИИ в биологии)

  • Будет ли это токсично?

  • Свяжется ли лекарство с целью (аффинность, имею ввиду)?

То есть объект уже существует (хотя бы как последовательность), и мы про него узнаем что-то новое. Потому что релевантных взаимосвязей — космическое количество, человек просто не в состоянии все их увидеть и обработать вручную.

И есть генеративные модели


Вот они-то как раз работают в режиме De Novo Design — создают совершенно новые последовательности, которых раньше не существовало: генерация аминокислотных цепей, молекул, структур (соединений).

И ещё одно примечание. Что я имею ввиду под «не существовало»: последовательности и разные конструкции, которые не встречались в известных наборах природных последовательностей и проектируются De Novo под заданные ограничения и функции, а затем проходят экспериментальную проверку, я ещё раз это проговариваю.

Тут я упомяну RFdiffusion (RoseTTAFold Diffusion) и его варианты, Chroma и другие диффузионные модели (существует уже много подобных лабораторий).

Сгенерированные структуры проверяются экспериментально в лабораториях с участием людей, конечно же. Многие недавние публикации в Nature и Science основаны на таких подходах. Это активное направление исследований.

Обязательно надо упомянуть ProGen. Он переворачивает всё с ног на голову и ломает бинарность (я напишу отдельно об этой модели, чтобы окончательно вас не запутать). В ней есть нюанс: ProGen — генеративная модель на трансформере (!), она думает почти как LLM (ближе к нему по архитектуре), работает на движке предсказания токенов (предсказание следующей аминокислоты), но на выходе дает De Novo дизайн, который проходит проверку реальностью. Я не могу отнести ProGen к гибридам, так как это авторегрессивная трансформер-модель для генерации белковых ��оследовательностей и она использует принципы обработки естественного языка (NLP), рассматривая аминокислоты как токены.

И именно здесь я выведу ключевой аспект различия со знакомыми нам NLP:

Объективные законы физики и химии — структура либо стабильна и функциональна, либо нет

Это отличает процесс от генерации обычных NLP: если LLM галлюцинирует, то мы получаем бредовый текст, но если био-модель «галлюцинирует» (нарушает законы физики), то белок просто не свернется или распадется.

Стабильность фолдинга и биохимическая активность сгенерированного белка — главные приоритеты.

Ремарка:
в биодизайне «ошибка генерации» быстро проявляется: дизайн не проходит физико-химические фильтры или лабораторную валидацию, то есть невалидная/нефункциональная конструкция, провал в эксперименте, риск токсичности и тому подобное. И обычно у биоинформатиков терминология такого рода: invalid / non-physical / non-functional / failed design.

В биоинженерии есть «Hard Reality Check», которого нет у копирайтинга (успех De Novo дизайна экспериментально подтверждается рентгеноструктурным анализом или крио-ЭМ, например).

Генеративная vs предсказательная модели здесь — это различие по типу задачи (создание кандидатов vs оценка заданного кандидата), трансформер внутри или нет — не так важно.

Лиричное уточнение:
Я не пытаюсь принизить LLM. Показываю, что ИИ бывает разным. LLM — это роскошный максимум: талантливый гуманитарий, а AlphaFold/RFdiffusion — это физик-инженер, грубо говоря. Здесь нет понятий «кто мощнее/креативнее/круче или умнее» — у них разные архитектуры + next-token имеет быть и в биодизайне тоже.


Вернемся к нашим ̶б̶а̶р̶а̶н̶а̶м̶ LLM (авторегрессивным) по типу GPT-подобных моделей. У них деление на предсказательные и генеративные менее выражено.

Архитектурно LLM решают задачу предсказания следующего токена. На уровне поведения это приводит к генерации текста. Предсказание и генерация здесь — две стороны одной медали.

Это всегда генеративная авторегрессивная модель, но генеративность достигается через предсказание токена.

Модели опираются на статистические закономерности в данных обучения/весах. Они комбинируют элементы неожиданным образом, но не выходят за пределы своего многообразия и не открывают новые фундаментальные законы (пока), не имеют встроенного механизма проверки гипотез реальностью и без дополнительных инструментов/экспериментов обычно воспроизводят/перекомбинируют статистические закономерности текста. LLMки не гарантируют выхода на фактически новое знание без внешней проверки — это самое важное! Они производят правдоподобные продолжения внутри выученных закономерностей.

Да, у современных массовых LLM с человекочитаемым текстом внушительные надстройки над трансформером: RAG, дополнительное внимание, расширенное контекстное окно, динамика в контексте, RLHF, цепочки рассуждений. Плюс эмбеддинговое пространство постоянно растёт (в новых моделях), растёт внешний retrieval/инструментальный слой вокруг LLM. Модель может комбинировать известные ей вещи в непредвиденных сочетаниях (показывать эмерджентность даже в решении задач, которые в обучении не встречались), подхватывая и развивая идеи пользователей, но двигается внутри распределения, заданного обучением/контекстом/архитектурой, и «новизна» в ней тоже есть (просто она комбинаторная, не физически-экспериментальная, как у генеративок в биодизайне).

Алярм! LLM и protein-LM способны генерировать новые комбинации внутри выученного пространства; разница начинается там, где в биодизайне объект проходит физическую валидацию, а в тексте валидатор чаще всего социальный (и постфактум).

Тут вы скажете, что я противоречу себе, ведь ProGen как раз-таки генеративная модель на трансформере. Отвечаю: трансформер (и в NLP, и в белках) генерирует «новое» в смысле новых последовательностей, которых не было в обучающей выборке, потому что он семплирует из выученного распределения (next-token / next-residue), но его новое знание о мире или новый закон природы — это другой класс новизны (его модель сама по себе не гарантирует). Потому-то в биодизайне такой спор быстро заканчивается тем, что есть внешний «reality check» (De Novo там часто звучит убедительнее — валидация-то реальная и гораздо жёстче).

Отдельно сделаю отметку о возникновении новых моделей последнего поколения, почти полностью стирающих границы:

Пример EvoEvo 2, 2024–2025 годов) — геномная языковая модель (GLM), DNA foundation model, обученная на длинных последовательностях ДНК, РНК и белков в гигантских масштабах. Это мультимодалка: Она понимает связи между ДНК, РНК и белками одновременно, а ещё предсказывает мутации и генерирует новые геномные последовательности длиной до 1 млн нуклеотидов. Это делает её одной из первых по-настоящему полногеномных генеративных моделей, ведь она способна проектировать новые биологические системы, включая лабораторную проверку синтетических систем CRISPR (вероятно, вы слышали о «биологических» ножницах для ДНК). Для Evo «языком» служат как раз последовательности ДНК/РНК/белков в противовес обычным NLP, где фигурирует «человеческий» текст.

В Evo, по сути, тоже вкладывают биологические промпты (если позволите такой термин) — условия/ограничения и представление объекта (последовательность, мотивы, скелет, контактные карты…), которыми задаём пространство поиска.

И вот, что интересно: Evo моделирует биологические ограничения (физика, химия, эволюция), чтобы вывод был правдоподобным.

Разница с моделями LLM в нескольких аспектах: домене данных (текст vs биологические последовательности/структуры), целевой функции/валидации (человеческая правдоподобность vs физико-химическая/экспериментальная проверка), типе ограничений и тестов.

Те, кто говорит, что «ИИ ничего нового не создаёт» скорее всего смешивает класс моделей. В обработке текста генерация ограничена статистикой данных (веса, вероятности), в молекулярном дизайне — в целом, тоже статистика, но при ней создаются новые структуры, подчинённые законам природы. Тренировочные выборки уже начинают размывать границы между типичным предсказанием и полноценной генерацией.
Но пока разделение этих подходов позволяет точнее оценивать возможности ИИ. В биоинженерии уже есть практические результаты: новые кандидаты в лекарства и синтетические белки.
Направление, считаю, перспективное. Оно продолжает развиваться.

Напоследок — маленький пайплайн, как учёные используют модели в связке (просто для примера):

RFDiffusion рисует функциональный каркас белка. ProteinMPNN помещает (примеривает) на этот каркас конкретные аминокислоты. AlphaFold 3 или ESMFold проверяют, действительно ли полученный белок свернется так, как мы задумали. И…

…на практике системы часто используются вместе, как вы могли заметить (генератор предлагает кандидатов, предикторы/скореры фильтруют), но это именно разные роли, стадийность одной модели тут необязательна — она может быть частью общего цикла.

Моя статья не претендует на полный обзор архитектур моделей. Целью ставила развести термины «генерация» и «предсказание» в разных доменах, потому что их часто путают, говоря об ИИ в целом.

Ещё мне бы хотелось вам показать статьи, заслуживающие внимания, чтобы не быть голословной. И несколько картинок.

(Взято с bakerlab.org)
(Взято с bakerlab.org)

Для RFdiffusion (самый яркий пример De Novo с кучей публикаций в Nature): De Novo design of protein structure and function with RFdiffusion (Nature, 2023) — тут генерация новых белков с нуля, включая функциональные (биндеры, энзимы и т.д.), с лабораторной валидацией.
Atomically accurate de novo design of antibodies with RFdiffusion (Nature, 2025) — эта свежая, от пятого ноября: De Novo дизайн антител на атомном уровне.

Ещё продемонстрирую в качестве иллюстрации одной из работ вот такую последовательность

 (взято с arxiv.org)
(взято с arxiv.org)
 (Взято с science.org)
(Взято с science.org)

ProGen (показывают генерацию функциональных белков De Novo): Large language models generate functional protein sequences across diverse families (Nature Biotechnology, 2023). Здесь напрямую демонстрируют, что ProGen создаёт искусственные белки с предсказуемой функцией, и проверяют их экспериментально.

И ещё ProGen2: Exploring the boundaries of protein language models (Cell Systems, 2023) — (это, конечно, не Nature/Science, но тоже солидный журнал)

Про упомянутую мной выше Evo (который геномный De Novo)
Sequence modeling and design from molecular to genome scale with Evo (Science, 2024) — генерация и дизайн на уровне геномов.
И Semantic design of functional De Novo genes from a genomic foundation model (Nature, 2025) — Прямо про function-guided De Novo дизайн генов с Evo.

Архитектура моделей Evo и Evo 2. (Взято с developer.nvidia.com)
Архитектура моделей Evo и Evo 2. (Взято с developer.nvidia.com)

Illuminating protein space with a programmable generative model (Nature, 2023) — вот тут про Chroma, ещё одну генеративную модель для De Novo белков и комплексов.
Не менее интересная модель, кстати.

И прикреплю ещё обзор LLM в биологии и химии

А теперь перейдём к пруфам.

Превысили горизонт 30% (ProGen). Пожалуй, это мой самый сильный аргумент в пользу «лингвистического» дизайна. Ученые из Salesforce и UCSF вырастили искусственные ферменты (лизоцимы), которые работают не менее эффективно, как и природные, но при этом их последовательность совпадает с природной всего на 31%! В биологии считается, что если последовательность совпадает менее чем на 40%, функция чаще всего теряется. Но тут ProGen доказал, что можно создать работающий белок в «пустой» области белкового пространства. =>

Madani, A., et al. "Large language models generate functional protein sequences across diverse families." Nature Biotechnology (2023).

Вторым аргументом я выделю белки-биндеры «под заказ» (реализованы с помощью RFDiffusion). Команда Дэвида Бейкера использовала диффузию для создания белков, которые «прилипают» к целям, для которых у природы нет готовых решений (к определенным участкам вируса гриппа, рецепторам раковых клеток и др). Эти белки имеют атомарную точность. Модель рассчитала форму, которая идеально заполнила «пробелы»/выемки/«пазы» в мишени. В природе таких последовательностей не существует — это чистая геометрия в аминокислотах. =>

Watson, J. L., et al. "De novo design of protein structure and function with RFdiffusion." Nature (2023).

И самое, на первый взгляд, загадочное исследование «Тёмной материи» фолдинга (Genesis / CVAE) — ещё один аргумент. Существуют так называемые Dark Matter Folds — топологии (формы) белков, которые физически возможны, но природа их не использует. С помощью генеративных моделей (таких как Genesis) ученые начали синтезировать белки с этими «запрещенными» формами.

Это одно из доказательств того, что ИИ выходит за пределы «латентного пространства» известной нам природы в пространство физических законов.

Harteveld, Z., et al. "Exploring 'dark matter' protein folds using deep learning." bioRxiv (2023)

Благодарю за прочтение!