Часть №2. Введение в биовычисления по сворачиванию. Мат. критерии

    Это продолжение статьи Часть №1. Введение в биовычисления по сворачиванию. От белков к РНК. Здесь мы опишем ковалентные и водородные связи математически. Посмотрим какие углы мы будем вращать у РНК для сворачивания. И прикоснемся к вопросу «а в чем трудность то?»



    Вначале два слайда:





    тут вы видите более строгое определение ковалентных и водородных связей. И то как они описываются математически. Далее нам будет важно:

    1. Рассчитать появились ли запрещенные ковалентные связи дольше, чем сделать собственно поворот и рассчитать десяток водородных связей. Поэтому это делается только тогда, когда по всем остальным критериям нас устраивает найденное состояние. Считайте, что есть просто функция GetFullCovalentBond(), которая говорит нам есть ли хоть одна запрещенная ковалентная связь. Если есть, идем считать дальше и такие состояния не учитываем. Хотя сравнительно в игре FoldIt столкновения достаточно быстро просчитываются и избавляются от этих состояний из «плохих» состояний. В этом есть некоторый смысл. Но увы, у меня нет алгоритма как это нормально делать, в общем пока без этого.
    2. Важно, что между молекулами образуется сразу или две или три (в зависимости от типа) водородных связи. Далее мы будем говорить в контексте «между нуклеотидами образовалась водородная связь» — означает, что образовались все две/три связи.
    3. Вначале меня очень напрягало, что могут быть нестандартные водородные связи. Т.е. не как в ДНК только G с C и A с T (а в РНК с U). Могут быть разные сюрпризы. Например, G c U, а так-же тройные связи A c двумя U одновременно.
    4. Еще раз скажу, так как это важно — водородная связь образуется тогда когда определенные атомы находятся на расстоянии <3 ангстрем друг от друга и под определенным углом <20 градусов. Все координаты атомов рассчитываются в ангстремах. И существует функция ScoreGroup(int N1, int N2), куда подается два номера нуклеотидов (молекул) в цепи, и получаем ответ на сколько они близки для создания всех нужных водородных связей. Тут важно то, что ответ не просто да/нет, а как функция приближения к «да». Что именно за функция будем говорить в последующих статьях.

    Теперь как мы можем поворачивать цепь. Начнем с поворотов только одного нуклеотида:



    Цепь поворачивается только путем поворотов 9 торсионных углов. Ни как по другому она двигаться не может — запрещено биологией (энергией). 6 углов находятся в так называемой главной цепи, то что на рисунках в прошлой статье показывается сплошной линией. Тут обозначены греческими буквами начиная с альфа. Еще три угла в боковой цепи, сильно между собой зависимы, т.е. нельзя их поворачивать независимо — поэтому далее мы будем называть это углом с номером 7 — но на самом деле там будет комбинация из трех углов. Боковая цепь — это радикал, т.е. то, чем собственно отличаются нуклеотиды a, u, c, g — а главная цепь (12 атомов из 28-33) у них одинакова.

    Если мы имеем только один нуклеотид — понятно, что по 6 углам можно вращаться почти без запретов. Да и по 7 -му очень мало запретов. Ничего не мешает. Если же уже есть цепь из 2 нуклеотидов, то появляются запреты — атомы одного нуклеотида могут наскочит на атомы другого. Но так как связка не большая (возьмите бусы — два рядом стоящих шарика не сильно то могут с собой столкнуться при вращении — длина веревочки мала между ними) — то запретов тоже не много. Но если взять 6 и более уже запретов может быть много.

    И тут уже поворот по одному углу на 0.1 градуса может позволить повернутся по другому углу, например для образования водородной связи, и без этого не получится.

    В чем трудность? Просчитать все комбинации скажем за сутки можно только для цепи из 2-3 нуклеотидов, для 4 уже нужна неделя-месяц, и далее годы :)

    Но не так уж все углы коррелированны между собой. Есть те которые мало друг на друга влияют. Но никто не знает какие это в данном случае.

    Но за шаг взять и установить нужные углы не получается, поэтому хочется разработать процедуру итерационную, чтобы шаг за шагом получать все лучшее и лучшее состояние. Но я делал такой эксперимент. Брал всего 3 нуклеотида (биологически вырожденное состояние). И делал повороты вначале первого нуклеотида, находил лучшие состояние, затем второго фиксируем лучшие, затем третьего (одна итерация — просчет скажем 1500+1500+1500 поворотов) фиксируем лучшие… и дальше и дальше. Алгоритм со временем находит такое состояние с оценкой -9.41.

    Если же сделать так — поворачиваем первый нуклеотид на 1500 поворотов, затем для каждого из 1500 вариантов поворачиваем второй на 1500, затем для комбинации первого-второго (1500*1500 вариантов) поворачиваем третий на 1500 вариантов поворота. Мы получим действительно полный перебор из примерно 3 млрд. вариантов, и получим лучшие состояние -13.87.

    Но путь полнейшего перебора закрыт, а хотелось бы свести к варианту локального приближения (первый вариант). Как это сделать мы поговорим в следующей части.

    Для углубленного понимания дам две ссылки:

    1. О деталях описанного выше эксперимента

    2. О свободе колебаний нуклеотидов в спирали РНК, там хорошо видно, что законы максимально нелинейные и никакой простой логики не существует.

    Similar posts

    Ads
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More

    Comments 78

      –3
      это конечно хорошая попытка приобщить народ хабра к биоинформатике, но переписывать главы из учебников… плохой тон. Плюс тематика алгоритма не раскрыта.
        +6
        Я извиняюсь — где я что переписал?

        Про алгоритмы — не все сразу, чтобы их понять надо много знать до этого, вот и пишу более популярно основы.
          –2
          переписывать = копировать

          про алгоритмы — мне кажется если бы вы описали алгоритимические решения, используемые для фолдинга РНК было бы интереснее, а тому что вы описываете уже как минимум 20 лет, если не больше.
            +3
            А можно хоть немного конкретнее — что я скопировал? Рисунки на слайде? Или вы имеете введу что-то еще?

            Как вы себе представляете объяснить людям далеким от этого без основ?

            Чему именно 20 лет?
            +2
            Хотите чуть посложнее — не спешите, дождитесь хотя бы 4-ой части сего рассказа. Не вся аудитория имеет предварительные знания. Я начинаю с самых основ, как и сам начинал. Может в учебниках что-то и есть — но много лишнего и не нужного, и простой человек не угробив пару лет просто не поймет. Я же пытаюсь, чтобы он понял достаточно именно с информационной точки зрения.

            Вот вы говорите многое описано — покажите мне пожалуйста учебник в котором написано как описать математически когда образовалась ковалентная и водородная связь. Я не видел не одного, где четко было бы это указано. Вы встречали? Где?
              0
              Что значит «как описать математически когда образовалась ковалентная и водородная связь»?

              Ковалентная связь либо есть либо ее нет. Моделирование реакции совсем-совсем другой вопрос — квантовая химия к примеру это давно описывает.

              Образование водородной связи — молекулярная механика вроде это все неплохо описывает. Математически.

              И еще, а зачем вам описывать обраование ковалентных связей при фолдинге белка?

              И если не секрет, вы учитесь? студент? аспирант? и по какой специальности?
                +2
                А вы читали эту статью? Или просто по диагонали?

                Вот видите: квантовая химия, молекулярная механика… а все куда проще, например: водородная связь образуется тогда когда определенные атомы находятся на расстоянии <3 ангстрем друг от друга и под определенным углом <20 градусов. Все математически достаточно. И никаких сложностей. Но почему то НИ В ОДНОМ учебнике.

                Не секрет: свое я уже отучился, mg. sc. ing — мне хватает. Это мое хобби, но у кого-то это на уровне почитать, а у меня сделать что-то полезное для науки :) А работаю я совсем по другой специальности.

                +2
                Тут у вас драка не на шутку… Я лучше в сторонке со своим плакатом постою… Это собственно основная из функций в моей докторской по нахождению свободной энергии фолдинга белков… image
                  0
                  Поясните пожалуйста — по русски.
                    +3
                    Пока я хабр до 3ей страницы дочитал, статью опять ниже порога главной опустили…

                    Ладно, давайте по сути. Это очень простая функция, которая выражает классическую электростатику взаимодействия атомов кислорода и водорода в белке. Коэффициенты, а в данном случае это численные значения частичных (ещё их смещёнными иногда называют) зарядов находятся из квантовых симуляций.

                    Т.е. Е — это просто энергия взаимодействия. Для простоты можно ввести пороговое значение -0.5 ккал/моль и если энергия меньше этого значения — будем считать, что водородная связь присутствует. Если больше — то её нет.

                    Это если мы хотим работать в дискретном пространстве вероятностей. Тут тоже можно многое чего увидеть интересного.

                    Но я пробовал вычислять разницу свободной энергии Ландау, а точнее энергию перехода. И для этого мне нужна была непрерывная функция. Поэтому я энергию водородной связи запихивал в такую самодельную шаговую функцию. Подбирал параметры. И даже что-то там интересное намерил.

                    А по поводу статьи… Мне показалось, как-то Вы всё с ног на голову поставили. Перебором, понятное дело, ничего нельзя найти. Но кто мешает Вам использовать динамические методы, которые успешно развиваются уже последние 50 лет.

                    Просто для доп.информации: в 2000 году на тему молекулярного моделирования было опубликовано свыше 1 000 статей только в одних американских журналах. Общее число сегодня уже превышает 50 000. Только в прошлом году было опубликовано 12к статей. Вопрос качества их давайте лучше опустим)))
                      –1
                      А что я поставил с ног на голову? Если конкретнее, с чем не согласны?
                        –1
                        кто мешает Вам использовать динамические методы, которые успешно развиваются уже последние 50 лет

                        И результат этих методов и числа статей?

                        Мне мешает? Сложность, причем совершенно не нужная.
                          +1
                          Из Вашей первой статьи:
                          Биологи могут лишь с определенной погрешностью увидеть путем биоэкспериментов состояние в уже свернутом состоянии, но проследить как это происходит пока не возможно.

                          Именно эту фразу я и назвал постановкой вопроса неправильно. Молекулярная динамика показываем динамическое изменение состояния биологической системы. С теми методами, что мы, например, в моей группе разрабатывали, получается ускорение динамики в десятки тысяч раз. Что позволяет симулировать большие протеиновые комплексы. Если Вам кажется молекулярная динамика сложной, ну что же, Ваше право выбрать другой подход. Я просто показал, что можно удачно использовать и этот.

                          И если честно, как-то мне перестал нравится Ваша «тролевидная» манера общения. Потому пойду-ка я спать, пока в очередной холивар не влез.
                            –5
                            Ах вот как. Чем же вам моя манера общения не понравилась? Не то что-то спросил?

                            Молекулярная динамика — это разве биоэксперименты? Я говорил, в указаной цитате о NMR и рентгеноструктурной кристаллографии.

                            Где в свободном доступе ваши алгоритмы? Или этого нету?
                              –1
                              Написали бы популярную статью на хабре — мы бы почитали про ваш метод, тогда бы и был бы повод это все изучить и выбрать…
                            –1
                            Вот еще напомню, что я писал в самом начале

                            Сразу надо сказать, что буду излагать вопрос о биовычислениях с определенной кибернетико-геометрической точки зрения. Это мое название и это направление не распространено. Уверен, что так будет легче понять тем кто не в теме этой биологической проблематики. Те кто уже в теме — готов и с вами подискутировать и показать почему традиционные методы не пригодны с точки зрения кибернетического подхода (но в этой статье не вы моя аудитория — уж извините, но уверен и вам она будет полезна как расширение мировоззрения на проблематику).


                            т.е. НИКАКОЙ физики и биологии — Вы от меня не дождетесь. А со специалистами, такими как вы хотелось бы понять, точнее чтобы вы помогли понять, зачем вы все так усложнили? И есть ли лучший результат по сравнению с моим подходом (конечно, с учетом того, что моему подходу всего пару лет, а не тысячи статей за 50)?
                          –1
                          Если Вы про 3 ангстрема и угол в 20 градусов — то и на плакате у вас этого нет.
                            –1
                            Хотя есть, но очень как-то косвенно, и без чисел.
                              0
                              картинка была представлена не для того
                              –1
                              Кстати, мне любопытно стало, а Вы в курсе откуда вообще взялись эти волшебные 3 А и 20 градусов?
                                –1
                                Расскажите
                                  0
                                  сложно видимо рассказать, легче минус поставить ;)
                              0
                              Правильно я понимаю, что вы в докторской занимались фолдингом белка in silico?
                                0
                                правильно понимаете
                                +1
                                что такое q1, q2?
                                  0
                                  Я использовал вот этот источник для этих значений:

                                  Wolfgang Kabsch and Christian Sander. Dictionary of protein secondary structure:
                                  Pattern recognition of hydrogen-bonded and geometrical features. Biopolymers,
                                  22(12):2577–2637, Dec 1983. ISSN 1097-0282. doi: 10.1002/bip.360221211. URL
                                  www3.interscience.wiley.com/cgi-bin/abstract/107587714/ABSTRACT.
                                    –2
                                    вы ему список литературы в личку киньте, просто технарю сложно понимать некоторые тонкости молекулярной биологии.
                                      0
                                      Прям ВЕСЬ список литературы ему кидать? Ради интереса полез к себе в тезис смотреть сколько ж это статей — оказалось 124 наименования. Из них, вроде, 5-6 книг, остальное — научные публикации.

                                      Да и зечем человеку, который сам говорит, что занимается совершенно другим по-жизни, тратить время и энергию на изучение того, что ему не нужно профессионально.

                                      И кстати, если что, я то себя тоже к технарям причисляю. Я больше программист, нежели биолог.
                                        +1
                                        Надо отвечать нормально, а не ссылками кидаться
                                          –2
                                          а вы прописные истины спрашиваете, у меня вот совсем мало желания лезть в книгу и искать точную страницу, где приведены расстояния и углы водородной связи.
                                            +1
                                            Привыкайте, мы тут долго «прописными истинами» заниматься будем. А если специалистам лень — так о чем говорить?
                                              –2
                                              Нет, это лень вам. Вы хотя просто статью в википедии читали про водородную связь? я вот сразу нашел там и длины и углы
                                                +1
                                                Мне? Не во мне дело, Вы забыли кто это тут начал обсуждать? Я уж нашел кое как. А цитату можно дать? Я вот не нашел :(
                                                  0
                                                  The partially covalent nature of a hydrogen bond raises the following questions: «To which molecule or atom does the hydrogen nucleus belong?» and «Which should be labeled 'donor' and which 'acceptor'?» Usually, this is simple to determine on the basis of interatomic distances in the X−H…Y system: X−H distance is typically ≈110 pm, whereas H…Y distance is ≈160 to 200 pm. Liquids that display hydrogen bonding are called associated liquids.
                                                  Hydrogen bonds can vary in strength from very weak (1–2 kJ mol−1) to extremely strong (161.5 kJ mol−1 in the ion HF−
                                                  2).[6][7] Typical enthalpies in vapor include:
                                                  F−H…:F (161.5 kJ/mol or 38.6 kcal/mol)
                                                  O−H…:N (29 kJ/mol or 6.9 kcal/mol)
                                                  O−H…:O (21 kJ/mol or 5.0 kcal/mol)
                                                  N−H…:N (13 kJ/mol or 3.1 kcal/mol)
                                                  N−H…:O (8 kJ/mol or 1.9 kcal/mol)
                                                  HO−H…:OH+
                                                  3 (18 kJ/mol[8] or 4.3 kcal/mol; data obtained using molecular dynamics as detailed in the reference and should be compared to 7.9 kJ/mol for bulk waters, obtained using the same molecular dynamics.)

                                                  en.wikipedia.org/wiki/Hydrogen_bond
                                                    0
                                                    где здесь 3 ангстрема и 20 градусов?
                                                  0
                                                  и нету в википедии этого
                                                0
                                                И сами то подумайте — «прописные истины», которые не специалисту сложно найти. Это чья проблема? Это проблема неумелого изложения предмета, а если точнее изложения предмета не под тут аудиторию. Видимо еще запрос ИТ на эту тематику маленький, вот пока и доходчивых материалов нет.
                                              0
                                              не нужно так пренебрежительно говорить о других.

                                              Всего то нужно было дать нотацию своим обозначениям. Достаю из указанной ссылки

                                              with q1 = 0.42e and q 2 = 0.20e, e being the unit electron charge and r(AB)
                                              the interatomic distance from A to B.


                                              От куда столько негатива, на простые уточнения? Можно хоть немного соучастия?
                                                –1
                                                Никакого пренебрежения не было, вы неудосужились изучить элементарные вещи.
                                                  0
                                                  А это так принято давать формулы без пояснения обозначений?
                                                    0
                                                    Я и вижу, как вы не можете дать ссылки — где эти элементарные вещи описаны.
                                                      0
                                                      Вот вы интересный человек, решаете за меня, что я изучил, а что нет — и говорите что пренебрежения нет. Может пора уже Вам начать конструктивно обсуждать? Вы прочитали мою статью, есть что сказать? Так чего тогда тут говорим не ясно о чем?
                                                  0
                                                  Кстати, от туда же

                                                  more complicated description of H bonds in terms of one distance and one
                                                  angle. There is no generally correct H-bond definition, as there is no sharp
                                                  border between the quantum-mechanical (wave-function overlap dominates
                                                  at short distances) and electrostatic (electrostatic interaction dominates
                                                  at larger distances) regimes and no discontinuity of the interaction
                                                  energy as a function of distance or alignment. Thus, any H-bond definition
                                                  is empirically tailored to a particular purpose.


                                                  Вот не ужели так сложно написать полнотекстово, а не давать какие то обрывки, чтобы люди гадали, искали, недоумевали — что вы хотели вообще сказать?

                                                  Вы видимо использовали просто другое определение. Можно было так и сказать. Я единственно не понял почему авторы вашего источника считают определение через расстояние и угол более сложным?
                                                    0
                                                    Даже выделю
                                                    There is no generally correct H-bond definition

                                                    как окончание бесперспективного разговора.
                                    –1
                                    Я 15 лет назад делал похожее в институте. И пока да, не было серьезного прорыва решении NP полных задач. А белки почти все уже сфоткали, так что как мне кажется задача из классической перешла в более частные, например, в существующий белок добавляют другое молекулярное соединение и смотрят есть вероятность ужиться вместе или нет.
                                      0
                                      сфоткали сотые доли процентов… попробуйте найти модели хотя бы сотни тРНК. Я уже не говорю о больших белках/РНК. Тут статья Нобелевская премия 2009 по химии, а вы говорите 15 лет. А это мизер — есть только 2-5 моделей большой рРНК. Ну, и задача то в другом — имеешь первичную последовательность — высчитай трехмерную. Я же писал — все это дорого: знаете сколько уходит денег на одну «фотку»?
                                        0
                                        Белки и РНК не одно и тоже.
                                          0
                                          я же такого не утверждал, знаю :) И с белками сложнее…
                                            –1
                                            Я сказал что белки сфоткали, а не сказал, что РНК.
                                              0
                                              Я кстате не доконца уверен, а сворачивается ли тРНК в природе, она из ядра выходит и с неё сразу копировать начинают, зачем ей сворачиваться то?
                                                0
                                                Венее она дорезается подорезается обрезается и mRNA выходит.
                                                  0
                                                  Эх как всегда напутал, да tRNA как-то хитро и должна сворачиваться
                                                  0
                                                  Ну знаете ли… не знаю ГДЕ она сворачивается, но сворачивается это точно :)
                                                    0
                                                    Я хотел сказать, что она может не просто так сворачиваться, а по каким-то дополнительным законам не только физика, но и биология, может на ней какие белки сидят дополнительно.
                                                      0
                                                      А это не важно. Вы наверное тоже по диагонали читали. Так как это важно выделю даже

                                                      мы идеализируем процесс сворачивания, не рассматривая никакие другие взаимодействия, кроме водородных связей. Таким образом, в моделировании мы намеренно исходим из упрощения, идеализации, как бы отвечая на вопросы: «как пойдет ход сворачивания, если РНК будет стремиться только к образованию водородных связей?» и «каков “чистый” вклад образования водородных связей в процесс сворачивания?» (это из моей научной статьи)


                                                      и почему то я уверен, что этого будет достаточно для образования тРНК, и тем самым даже если там есть какие-то белки или еще какие-то силы — они будут не важны.
                                                        +1
                                                        Да я не спорю, то что она будет делать понятно, но надо к реалиям приближать, а если реали еще и упростят то вообще супер.

                                                        Вот не плохая статья
                                                        physwww.mcmaster.ca/~higgsp/4S03/QRBHiggs2000.pdf
                                                –2
                                                все равно их очень мало
                                                –1
                                                77 структур на данный момент
                                                www.rcsb.org/pdb/results/results.do?outformat=&qrid=AAA28EFB&tabtoshow=Current

                                                последняя опубликована в 2011 году, могу похвастаться — моим другом :)
                                                  0
                                                  О! Так у меня может быть проф. критик… а вы занимаетесь этим чисто биологически или in silico также?
                                                    0
                                                    я из соседней области, только in silico. Фолдингом не занимаюсь.
                                                    0
                                                    В смысле Вы и Ваш друг.
                                                      0
                                                      нет, мой друг.
                                                        0
                                                        а он фолдингом биологически или тоже in silico?
                                                          0
                                                          нет, он ветлаб.
                                                            0
                                                            т.е ручками работает
                                                              0
                                                              жаль
                                                +3
                                                А нельзя ли для перебора использовать модифицированный метод UCT, применяемый в текущий момент в самых сильных программах, играющих в ГО (Можно посмотреть здесь или здесь)? Этот метод основан на скрещении метода Монте-Карло и альфа-бета отсечения.
                                                В настоящий момент про этот алгоритм даже нет статьи на английской википедии.

                                                Прошу прощения, если написал какой-то абсурд не в тему, т.к. я сам в биоинформатике почти ничего не смыслю. Но если кому не понятно про этот алгоритм, могу объяснить.
                                                  0
                                                  Как раз в тему, надо смотреть. Если бы еще вы написали об этом алгоритме на хабре — вообще хорошо…
                                                    0
                                                    Да, я собираюсь писать статьи про данный алгоритм и про другие, но применительно к малораспространенной и малоисследованной игре «Точки».

                                                    Только не знаю когда это будет — у меня такой подход, что сначала нужно добиться результатов на практике, а потом писать)
                                                  0
                                                  Положу здесь пару ссылкок. Прямую не дам, в этом секторе сильна конкуренция и раздражение, выйдите через поисковик. По нуклеотидным последовательностям быстро собирают модели белков. Сейчас участвуют в CASP.

                                                  img-fotki.yandex.ru/get/6203/126580004.4a/0_b72b8_4e83ca7e_orig.gif
                                                  img-fotki.yandex.ru/get/5106/nanoworld.205/0_48908_9fa5c119_orig.gif

                                                  Only users with full accounts can post comments. Log in, please.