Комментарии 51
Если же вы подразумевали, что Rosetta возьмет верх над AlphaFold за счет кол-ва пользователей, то здесь можно вспомнить, что самая мощная версия AlphaGo(Zero) использовала одну машину с всего 4-мя TPU v2 для своих вычислений.
Да, так и есть. Скорей всего Альфафолд смог обнаружить гомологичные белки и не увидел уникальные. С учетом того, что некоторые белки организуют соединения с металлами, с углеводами, сворачиваются только в присутствии других белков или при определенных условиях (pH, температура, и так далее), подвергаются посттрансляционной обработке, то задача становится очень сложной. Даже одна заменённая аминокислота может повести белок совсем по другому пути сворачивания. С другой стороны, это большое достижение — доказывает, что там есть какой-то паттерн, механизм или код, который было бы неплохо изучить и понять. Количество уникальных белков тоже постепенно сокращается, так что точность будет только расти. Да и вообще, в конструировании новых белок этого задела должно вполне хватить. Другое дело, что одним фолдом тут не отделаешься, нужно знать как выглядит активный центр, а его на NMR и кристаллографии не видно, потому что активные группы постоянно находятся в движении. В общем, достижение большое, но недостаточное для переворота в области.
Их алгоритм построен не на шаблонах, а на coevolution подходе, который стал модным в последние 4-5 лет, хотя идея была впервые озвучена еще в 1990е. Они описывают это в своем блоге.
Теоретически возможно, что AlphaFold лучше ищёт шаблоны, чем остальные участники и, по сути, для него больший процент целей является template. Уже были одиночные случаи, что один из участников находил шаблон, которые другие отбрасывали и получал уникально хорошее решение. Но, как я понимаю, AlphaFold не использует шаблоны ни в каком виде, так что дело, видимо, не в этом.
- Насколько верна догма Анфинсена? Как я понимаю, чтобы её доказать, он разрушал дисульфидные мостики в белке, белок терял активность, затем дисульфидные мостики восстанавливал — и белок снова начинал работать. Есть большая вероятность, что белок был восстановлен шаперонами, или был разложен не до конца. Были ли поставлены эксперименты, где белок синтезировали с нуля химическим способом и он свернулся в биологически активную форму?
- Почему при de novo предсказаниях не используется биологический подход, ведь белок выдавливается из рибосомы по одной аминокислоте в «водяной мешок» и эти аминокислоты начинают взаимодействовать друг с другом не сразу все, а по очереди? Когда белки восстанавливаются при помощи шаперонов, они тоже проходят через «трубку», и сворачивание происходит с учётом последовательности. Так что может быть парадокс Левенталя не такой и парадокс?
- То, что белок начинает сворачиваться ещё до того, как сошёл с рибосомы уже доказанный факт. Пост-трансляционная обработка может изменить структуру, но очень незначительно, что заставляет нас опять смотреть в сторону трансляции для предсказания структуры. Есть доказанный экспериментом факт, что если в последовательности заменить одну аминокислоту, то мы можем получим совсем другую укладку- вместо нескольких бета-спиралей глобулярного белка получаются альфа-листы. То, что эта аминокислота находилась в середине последовательности открывает простор для некоторых мыслей, но это уже отдельный разговор.
- Если натравливать нейронные сети, то может быть стоит их использовать таким образом, как их натравливают на распознавание человеческой речи? А не давать на вход всю последовательность, надеясь что нейронная сеть увидит какие-то свои шаблоны.
Заранее спасибо, если сможете успокоить моё любопытство.
Насколько верна догма АнфинсенаДогма была сформулирована для «small globular protein» и в основном верна, но есть исключения. Есть пост-трансляционные модификации. Прионы тоже в некотором смысле можно считать исключением, но можно не считать, а отнести к «неверным» условиям внешней среды. То же самое с лигандами типа ионов, сахаров и т.п.
Были ли поставлены эксперименты, где белок синтезировали с нуля химическим способом и он свернулся в биологически активную форму?Были, свернулся, можно сначала поместить белок в среду с unfolding agent, например мочевину, затем снизить концентрацию мочевины и белок успешно сворачивается назад. Но гарантий, то все белки так могут нет. Скорее всего даже уже были примеры, что некоторые не могут, но я не следил.
Почему при de novo предсказаниях не используется биологический подходИспользуется, rosetta, например по кускам собирает. Не думаю что это критически важно. Проблема с этим подходом в том, что он подвержен локальным минимумам, которые в природе не проблема — времени вагон что бы исправить фолд, а в симуляции — нет. Не факт что последовательный выход — необходимость. Вероятно, пока весь белок не вылезет он всё равно нормально не свернется, то есть последовательные выход из туннеля рибосомы может не быть критичен для сворачивания. Тем более для компьютерного определения структуры — процесс свертки можно пропустить, вероятно, хотя, возможно, не всегда.
может быть парадокс Левенталя не такой и парадокс?Этот парадокс разрешен через folding funnel. Нет необходимости привлекать ещё и объяснение через процесс сворачивание по одной аминокислоте при синтезе.
То, что белок начинает сворачиваться ещё до того, как сошёл с рибосомы уже доказанный факт.Тут и доказательство не требуется, как иначе-то? Вопрос только в том, имеет ли это значение? Доказано, что, как минимум, не всегда. Кроме того, не обязательно повторять естественный путь сворачивания в компьютере, нас не путь а конечная структура интересует, которая независимо от пути термодинамически/кинетически стабильна. Что лучше работает — то и используют. Сейчас лучше получается сворачивать используя свойства свернутого состояния, а не пути сворачивания. Поиск пути сворачивания может быть более сложной и менее интересной (полезной) задачей. А может и нет, но пока так :).
может быть стоит их использовать таким образом, как их натравливают на распознавание человеческой речи?Если Вы имеете ввиду «по кускам», то этот подход активно применяется и применялся. Та же rosetta, сшивание (под-)шаблонов и многие многие другие.
Почитал про AlphaFold, потыкал по ссылкам, но так и не понял, чем их алгоритм на глубоких нейронных сетях и машинном обучении (опять?) круче алгоритмов, годами крутящихся на компьютерах энтузиастов в Rosetta@home.
Я вообще не нашёл их в конкурсе, хотя может это я такой слепень, кто-нибудь подскажите, пожалуйста, финальную таблицу, если нашли.
Тут очень важна область применения, разные структуры нейросетей сильно по разному хороши в решении разных типов задач.
Сами сети глубокого обучения стали популярны не так давно, а для подобных задач вроде игры в GO или вычисления белка применяются еще меньше по времени.
Если ваш вопрос про то можно ли ожидать взрывного роста отдельных областей за счет применения нейросетей (я его понял так) — вполне, сейчас нейросети новых структур эффективно применяют для задач где еще 10 лет назад даже и не рассматривались.
- Прогресс AlphaFold значительный, но не «прорыв»
- Успех AlphaFold в первую очередь обусловлен качественной реализацией известных ранее методов и подходов, а также объемом вычислительных ресурсов, мало кому доступных.
- AlphaFold привнес некоторые новые заметные улучшения в существующие подходы, которые будут подхвачены областью.
Уже были попытки (успешные) реализовать схему аналогичную той, что они показывают:
Из любопытного — они натренировали нейронку для оценки неправильности модели. Использование статистического потенциала для этих целей — старый метод, не знаю, пробовал ли кто-то раньше нейронки для этого.
We also trained a separate neural network that uses all distances in aggregate to estimate how close the proposed structure is to the right answer.
Что именно обеспечило преимущество мне пока неясно — просто бОльшие вычислительные ресурсы или вот эта идея с усложнением (улучшением) scoring function до нейронки или ещё что-то.
Вообще измерить неправильность модели по известной contact map легко, есть даже функции неправильности, которые вообще без ничего (без contact map) работают, Rosetta scores. То есть понять, что полученная модель правильная — не очень сложно, если она есть. Проблема в том, как получить гладкую функцию неправильности, когда модель ещё не совсем близка к верной, иначе градиентный спуск не работает (именно его применяет AlphaFold). Их нейронка, похоже, именно такую функцию неправильности дала.
Я не знаю, как именно они это делали, но мне на ум пришел следующий алгоритм. Можно попробовать натренировать нейронку на оценку неправильности в «числе изменений». Берем реальную структуру — неправильность = 0, меняем один элемент (заменяем фрагмент или dihedral) — неправильность = 1, возвращаем назад, меняем другой элемент — тоже неправильность = 1, далее меняем два подряд — неправильность = 2 и т.д. На этом ансамбле фальшивых моделей и соответствующих им метрик неправильности можно, наверное, натренировать нейронку.
Потом синтезируют ДНК с вновь полученной формулой и подсаживают эту ДНК каким-нибудь бактериям (например), кормят эти бактерии на убой, бактерии копируют подсаженную «паразитную» ДНК, производят на её основе белок. Затем бактерий убивают, разрушают ультразвуком, из полученной каши и отфильтровывают нужный белок.
ИИ удалось правильно предсказать структуру 25 из 43 белков. На втором месте — команда, которой удалось правильно предсказать структуру 3 из 43 белковФактическая ошибка, дает совершенно ошибочное представление о случившемся. Не «правильно», а «чуть-чуть правильнее». На самом деле AlphaFold удалось предложить САМУЮ лучшую модель среди всех участников для 25 из 43 белков. То есть на самом деле в 25 случаях из 43 AlphaFold дали ответ чуть-чуть точнее чем конкуренты. Загадали 43 задачи, AlphaFold дала 25 ответов, каждый из которых верен с точностью 1 ангстрем (условно), а команда, которая заняла второе место на те же 25 задач дала ответы верные с точностью 1.01 ангстрема. Разница совершенно небольшая. На самом деле в CASP не эта метрика главная, а, грубо говоря, число достаточно верно угаданных структур. По этой метрике AlphaFold не так сильно лидирует (120.3 балла против 107.0 у второго места). Нет особо смысла уточнять цифры после 3го знака для «простых» задач, а именно на этом фокус в статье.
И ещё одна ошибка:
В организме человека содержится огромное количество разновидностей белка. По разным оценкам, оно может достигать нескольких миллиардовОткрываем статью и что видим:
...there should be at least ~20,000 nonmodified (canonical) human proteins. Taking into account products of alternative splicing (AS),… as many as 100 different proteins can potentially be produced from a single gene.Итого 6 миллионов, а не «несколько миллиардов».
…
we estimate that in humans there exist 0.62 or 0.88 or 6.13 million protein species.
А можно попросить вас указать ссылку на финальные результаты, а то я совсем не в теме, так и не смог разобраться, где же они на сайте, заранее спасибо.
там нужно отметить Targets: TBM/FM, FM
ещё есть Table Browser — можно там смотреть, но ссылки дать не могу — оно всё POSTом настраивается. Google — это A7D.
| # | Model | GDT_TS A7D | GDT_TS Zhang | Winner | GDT_TS diff | GDT_TS best |
|----|--------------|------------|--------------|--------|-------------|-------------|
| 1 | T0955_1-D1 | 87.81 | 85.98 | A7D | -1.83 | 87.81 |
| 2 | T0990_1-D1 | 85.2 | 64.8 | A7D | -20.40 | 85.2 |
| 3 | T1008_1-D1 | 81.49 | 40.58 | A7D | -40.91 | 81.49 |
| 4 | T0968s2_1-D1 | 78.7 | 62.39 | A7D | -16.31 | 78.7 |
| 5 | T1019s1_1-D1 | 78.02 | 71.55 | A7D | -6.47 | 78.02 |
| 6 | T0992_1-D1 | 75.94 | 73.6 | A7D | -2.34 | 75.94 |
| 7 | T0997_1-D1 | 74.86 | 55 | A7D | -19.86 | 74.86 |
| 8 | T1015s1_1-D1 | 72.44 | 58.52 | A7D | -13.92 | 72.44 |
| 9 | T0958_1-D1 | 71.43 | 62.99 | A7D | -8.44 | 71.43 |
| 10 | T1017s2_1-D1 | 71.2 | 69 | A7D | -2.20 | 71.2 |
| 11 | T0968s1_1-D1 | 70.13 | 56.78 | A7D | -13.35 | 70.13 |
| 12 | T0986s2_1-D1 | 70 | 46.77 | A7D | -23.23 | 70 |
| 13 | T0986s1_1-D1 | 65.76 | 69.02 | Zhang | 3.26 | 69.02 |
| 14 | T1000_1-D2 | 68.75 | 61.21 | A7D | -7.54 | 68.75 |
| 15 | T0953s2_1-D2 | 56.31 | 65.54 | Zhang | 9.23 | 65.54 |
| 16 | T1021s3_1-D2 | 65.46 | 49.23 | A7D | -16.23 | 65.46 |
| 17 | T0987_1-D1 | 63.65 | 48.92 | A7D | -14.73 | 63.65 |
| 18 | T0970_1-D1 | 63.23 | 58.82 | A7D | -4.41 | 63.23 |
| 19 | T1001_1-D1 | 62.23 | 59.89 | A7D | -2.34 | 62.23 |
| 20 | T0949_1-D1 | 61.63 | 62.21 | Zhang | 0.58 | 62.21 |
| 21 | T1021s3_1-D1 | 61.6 | 50.45 | A7D | -11.15 | 61.6 |
| 22 | T0963_1-D2 | 42.07 | 61.59 | Zhang | 19.52 | 61.59 |
| 23 | T0957s2_1-D1 | 60.48 | 54.52 | A7D | -5.96 | 60.48 |
| 24 | T0975_1-D1 | 58.9 | 42.79 | A7D | -16.11 | 58.9 |
| 25 | T0960_1-D2 | 39.88 | 58.63 | Zhang | 18.75 | 58.63 |
| 26 | T1005_1-D1 | 56.37 | 51.38 | A7D | -4.99 | 56.37 |
| 27 | T0981_1-D3 | 55.17 | 53.33 | A7D | -1.84 | 55.17 |
| 28 | T0957s1_1-D1 | 54.86 | 42.13 | A7D | -12.73 | 54.86 |
| 29 | T0953s1_1-D1 | 54.48 | 41.05 | A7D | -13.43 | 54.48 |
| 30 | T0989_1-D1 | 41.42 | 53.92 | Zhang | 12.50 | 53.92 |
| 31 | T1022s1_1-D1 | 50.64 | 52.4 | Zhang | 1.76 | 52.4 |
| 32 | T0987_1-D2 | 52.04 | 35.97 | A7D | -16.07 | 52.04 |
| 33 | T0969_1-D1 | 51.7 | 48.3 | A7D | -3.40 | 51.7 |
| 34 | T0953s2_1-D1 | 51.14 | 50 | A7D | -1.14 | 51.14 |
| 35 | T0990_1-D3 | 48.71 | 16.78 | A7D | -31.93 | 48.71 |
| 36 | T0990_1-D2 | 45.89 | 29.76 | A7D | -16.13 | 45.89 |
| 37 | T0953s2_1-D3 | 29.3 | 43.01 | Zhang | 13.71 | 43.01 |
| 38 | T0980s1_1-D1 | 41.83 | 42.55 | Zhang | 0.72 | 42.55 |
| 39 | T0989_1-D2 | 38.84 | 32.14 | A7D | -6.70 | 38.84 |
| 40 | T1010_1-D1 | 29.64 | 33.33 | Zhang | 3.69 | 33.33 |
| 41 | T0981_1-D2 | 24.06 | 31.56 | Zhang | 7.50 | 31.56 |
| 42 | T0991_1-D1 | 25.9 | 23.42 | A7D | -2.48 | 25.9 |
| 43 | T0998_1-D1 | 18.68 | 17.02 | A7D | -1.66 | 18.68 |
Достижение большое, но не настолько, насколько заявлено в статье, не 25/43 против 3/43. Alpha Fold действительно показала самые лучшие среди участников результаты, и открыв приличный, но это не революция и не даже не качественно лучший результат, видимо.
Deep Mind научила свой ИИ предсказывать структуру белков