
Химики из Йельского университета и фармкомпании Boehringer Ingelheim нашли случай, когда 2 498 маленьких моделей работают лучше одной большой. Их ИИ-платформа MOSAIC, построенная на Llama 3.1-8B-instruct, сгенерировала лабораторные протоколы для синтеза более 35 ранее не описанных соединений — от молекул для разработки лекарств до косметических компонентов. Код системы открытый и распространяется свободно.
Обычно путь от целевой молекулы до рабочего протокола выглядит так: химик ищет похожие реакции в базах данных, читает статьи, адаптирует чужие методы под свою задачу. Проблема в том, что ежегодно публикуются сотни тысяч новых реакций — отследить все невозможно. А протоколы из статей часто не переносятся напрямую: там синтезировали молекулу A, а ученому нужна похожая B, и приходится угадывать, сработает ли. Первая попытка нередко проваливается, оптимизация занимает недели.
MOSAIC решает проблему иначе — вместо одной универсальной модели система разбивает пространство химических реакций на 2 498 регионов Вороного и обучает отдельного "эксперта" на каждом. Когда пользователь вводит целевую молекулу, платформа определяет подходящий регион и передает запрос профильному специалисту. На выходе — не ссылка на статью, а готовый протокол с конкретными реагентами, условиями и оценкой уверенности. Последняя показывает, насколько запрос попадает в зону компетенции эксперта, — это позволяет приоритизировать эксперименты: сначала пробовать те, где уверенность системы выше.
При экспериментальной проверке система показала 71% успешных синтезов. Среди полученных соединений — молекулы фармацевтического профиля, катализаторы, агрохимикаты и косметические компоненты. Часть из них синтезирована через сложные реакции: кросс-сочетание Сузуки, аминирование Бухвальда — Хартвига, метатезис олефинов. Авторы особо отмечают: система предложила методологии, которых не было в обучении конкретного эксперта, — то есть не только воспроизводит известное, но и генерирует новое.
Потенциальн��й эффект может проявиться, например, на стадии lead optimization в разработке лекарств — когда нужно синтезировать десятки вариантов молекулы-кандидата. Вместо ручного поиска протоколов — автоматическая генерация с оценкой уверенности.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
