
Исследователи из Tsinghua University представили DrugCLIP — AI-фреймворк для поиска лекарственных молекул, который работает до 10 миллионов раз быстрее классического молекулярного докинга. Система проверила 500 миллионов молекул на совместимость с 10 000 белковых мишеней — более 10 триллионов комбинаций за сутки на восьми GPU. Прорыв закрывает разрыв между предсказанием структуры белков (где DeepMind с AlphaFold 2 уже получила Нобелевку) и реальным поиском лекарств — традиционный докинг для такого масштаба занял бы столетия вычислений.
DrugCLIP использует контрастное обучение: две нейросети превращают карманы белков и молекулы в векторы общего пространства. Если векторы близки — молекула подходит к мишени. Вместо физической симуляции миллионов положений молекулы система просто измеряет расстояния, что и дает скачок скорости.
За один прогон команда обработала 10 триллионов пар "белок-молекула" и получила 2 миллиона кандидатов, покрыв около половины белок-кодирующего генома человека. Результаты выложены в открытую базу GenomeScreenDB.
Метод проверили в лаборатории. Для переносчика норэпинефрина DrugCLIP показал 15% hit rate — каждая седьмая предложенная молекула оказалась рабочим ингибитором. Еще важнее пример белка TRIP12, связанного с раком и аутизмом: его структура была плохо изучена, и раньше подобрать лиганд не удавалось — DrugCLIP справился с hit rate 17,5%.
За полгода до публикации платформой воспользовались 1 400 исследователей, выполнивших более 13 500 задач скрининга. Теперь фреймворк и база данных выложены в свободный доступ для всех ученых. Это важно: около 90% потенциальных лекарственных мишеней в человеческом геноме до сих пор не имеют терапии — во многом потому, что классический скрининг слишком медленный и дорогой.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
