Браузеры генома

    Не последнюю роль в биоинформатике занимает визуализация. Учёные в этой области работают с огромными объёмами информации, которую хорошо бы как-то охватить взглядом и представить в голове. Ярким примером средства визуализации являются браузеры геномов (genome browser), о которых я и хочу рассказать.


    Как многие помнят из школьного курса биологии, геном состоит из набора хромосом, а хромосома — это две цепочки, свёрнутые в спираль. Каждая из цепочек содержит последовательность нуклеотидов с четырьмя типами азотистых оснований — аденин (A), гуанин (G), цитозин (C) и тимин (T). По одной цепочке легко определить вторую, если помнить, что аденин соединяется в пару с тимином (Антошка-Тимошка), а гуанин с цитозином (гусь-цыплёнок). Некоторые участки ДНК называются генами, с них считывается РНК, по которой потом кодируются белки. Белки состоят из аминокислот 20 видов (плюс пара экзотических), каждая из которых кодируется по трём нуклеотидам.

    Браузер генома — это такая одномерная карта, которая отображает какую-нибудь нуклеотидную последовательность (скажем, хромосому или отдельный ген) с сопутствующей информацией. Информация обычно структурируется в блоки, называемые треками (tracks). К примеру, может быть трек с генами или с отдельными нуклеотидами. Отдельные сущности на треках часто называют фичами (features).

    Бывают браузеры геномов, заточенные под маленькие бактериальные геномы, но универсальному браузеру необходимо показывать и длинные хромосомы позвоночных целиком, и отдельные нуклеотиды. Самая длинная хромосома человека (первая) содержит около 250 миллионов пар оснований, то есть масштаб должен меняться примерно в миллион раз. Конечно, в разном масштабе информация отображается по-разному. Например, на картинке выше есть трек с генами UCSC Genes, куда попал ген SOD1 целиком и фрагменты соседних генов. В таком масштабе отображается экзон-интронная структура гена. Экзоны (те части, которые останутся в РНК после сплайсинга и в перспективе закодируют белок) обозначены закрашенными прямоугольниками, а интроны (промежутки между экзонами) — стрелочками, которые показывают направление считывания гена (в данном случае ген SOD1 расположен на прямой нити ДНК, а BC041449 — на обратной). А вот как кусок гена SOD1 выглядит при увеличении:

    Здесь масштаб позволяет вывести аминокислотную последовательность тех фрагментов гена, которые потом закодируют белок. Каждой аминокислоте соответствует определённая буква латинского алфавита.

    Что ещё можно увидеть на браузере генома? В самом детальном масштабе можно увидеть отдельные нуклеотиды, как на прямой, так и на обратной спирали ДНК:

    Каждому нуклеотиду соответствует стандартный цвет, поэтому можно весело раскрашивать, даже если сами буквы уже не влезают:


    Если ещё немного откатиться, то о нуклеотидном составе можно судить по специальному треку GC content:

    Здесь красный цвет означает, что нуклеотидов G и C в данном месте меньше 50%, а синий цвет — больше. Можно подумать, что A, C, G, T — это просто четыре равноправные состояния двухбитовой ячейки, кодирующей генетическую информацию, и доля G и C ни о чём интересном не говорит. Однако пары оснований G-C образуют три водородные связи, а A-T только две. То есть G-C крепче, их труднее разорвать и обогащённость G-C или A-T связями влияет на химические процессы в данном регионе ДНК.

    Что ещё интересного можно посмотреть? Обычно имеются треки с геномными вариациями, которые, например, отличают различных людей друг от друга. Часто вариации выражаются в виде точечных мутаций, однонуклеотидных замен (Single-nucleotide polymorphism, SNP). Многие из этих мутаций найдены при сравнении результатов секвенирования геномов разных людей и помещены в специальные базы данных (например, dbSNP):

    На приведённом фрагменте не так уж и мало SNP (19 на 356 нуклеотидов — больше 5%). Впрочем, многие из них синонимичны. Так как из 43=64 вариантов трёх нуклеотидов кодируется 20 вариантов белков, некоторые замены не влияют на результирующий белок. Часть замен попадает в некодирующие регионы (например, в интроны), поэтому могут тоже не влиять на результат (но могут и влиять).

    Ещё одна интересная штука — это сравнение человеческого генома с геномами других видов. Для этого нетривиальными алгоритмами делают множественное выравнивание геномов и тоже его показывают. На самой верхней картинке поста показано схематично выравнивание человека с макакой-резусом, мышью, собакой, слоном, опоссумом, курицей, лягушкой (Xenopus tropicalis) и рыбкой данио-рерио (zebrafish). Тёмным показаны совпадающие фрагменты. Заметьте, что самые тёмные участки приходятся на кодирующие области генов. На той же картинке есть график консервативности участков среди млекопитающих (Mammal cons), который тоже коррелирует. А вот множественное выравнивание в увеличенном виде:

    Минус означает, что нуклеотид есть у человека, но отсутствует у другого вида. Оранжевая вертикальная черта (например, в строчке с собакой между двумя тиминами) — наоборот. Сверху указано количество пропавших нуклеотидов (сами они не приведены). Кодирующий регион приведён в аминокислотном виде, поэтому синонимичных замен не видно. Курица и рыбка, видимо, вообще не имеют похожего региона. Можно убедиться, насколько макака похожа на человека.

    На самом дальнем масштабе становится виден кариотип хромосомы:

    По кариотипу можно сориентироваться, если помнить, например, в какой полосе находится ваш любимый ген, который вы изучаете. Перекрещивание посередине — это центромера.

    Бывает и множество других предопределённых треков. Некоторые браузеры позволяют подгружать треки с веб по специальному DAS-протоколу. Ну и, конечно, геном-браузеры позволяют учёным добавлять свои (для этого есть специальные форматы файлов). Пользовательские треки могут, скажем, показывать области связывания ДНК с конкретным белком (например, с фактором транскрипции), как предсказанные, так и полученные в эксперименте (к примеру, ChIP-Seq). Если вы, к примеру, секвенировали собственный геном, можно загрузить результат и сравнить с референсным и с известными SNP.

    Браузеров генома великое множество. Только в Википедии перечислено штук тридцать, а это точно не все. Многие из них специализированы: заточены под определённый организм или определённый тип данных. Из популярных десктопных браузеров можно отметить Integrated Genome Browser и Integrative Genomic Viewer (как видите, с названиями не заморачивались). И тот и другой — Java-приложения, имеется Java Web Start.


    Конечно, часто удобнее пользоваться браузером генома на веб. Большинство картинок выше сделаны в UCSC Genome Browser и Ensembl Genome Browser. Оба этих браузера генерируют картинки на сервере. Есть и более современные в техническом плане решения. AnnoJ, например, рендерит картинки на клиенте в canvas, получая от сервера данные в JSON (демонстрация для любимой травки биологов — арабидопсиса). Есть ещё JBrowse. В своём роде он уникален, так как не содержит серверного кода. Данные о треках и последовательностях заранее подготавливаются на сервере в виде статических файлов, которые браузер подгружает по AJAX. Пользовательские файлы обрабатываются через File API.

    Идеального браузера геномов не существует. На мой взгляд, основная проблема — это скорость работы. Особенно это заметно на веб, хотя и в десктопных бывают задержки. Некоторые треки при определённых масштабах либо генерируются очень медленно, либо вообще отключаются. Для визуализации приходится перемалывать много информации, которая, возможно, не всегда представлена в оптимальном виде. Поэтому если у кого-то найдётся желание этим заняться, есть все шансы побороть конкурентов.
    Поделиться публикацией
    Комментарии 81
      +13
      Можно подумать, что A, C, G, T — это просто четыре равноправные состояния двухбитовой ячейки, кодирующей генетическую информацию, и доля G и C ни о чём интересном не говорит. Однако пары оснований G-C образуют три водородные связи, а A-T только две. То есть G-C крепче, их труднее разорвать и обогащённость G-C или A-T связями влияет на химические процессы в данном регионе ДНК.


      ничто на свете не заставит меня так подумать
        0
        Не знаю ни одного удобного браузера/редактора на уровне 10-100000 п.н., который бы подходил для типичных генноинженерных работ по конструированию. Т.е. что-то типа Vector NTI, только в виде свободного js компонента.
        Если кто-то из присутствующих серьезно интересуется темой — вот это реальная ниша для собственной разработки. Если нормально реализовать, то и продавать можно.
          0
          На самом деле, основная проблема в интерпретации массива данных. Косвенно сталкивался, вроде и формат открытый и все известно, но вот заставить работать навигацию за вменяемое время сложно. Есть пару хороших утилит на джаве написанных, но тоже со своими особенностями.
          +1
          Насколько я понял, с точки зрения программирования ген — это своего рода print(). Т.е. просто вывод на «внешнее устройство». Есть матрица, и по ней собирается белок.
          А вот как и где определяется, какой именно из закодированных белков и в каком количестве должен быть собран? Т.е. должны же где-то в ДНК быть условные операторы, счётчики собранных молекул, инструкции перехода? Иначе как получается, что на разных этапах развития клетки синтезируются разные белки в разных количествах, да ещё и в ответ на воздействия окружающей среды?
            –1
            Мне кажется, что правильней воспринимать ДНК как архив со всей информацией об организме. В этой БД находятся данные и алгоритмические стурктуры… Но это только «архив», именно поэтому человеки не вылупляются из ДНК :) В этом архиве конечно есть информация о том, как сделать человека… Но для того чтобы сделать человека нужны баба и мужик нужен человек, причем половозрелый ;)

            Весь организм можно рассматривать как уже функционирующую биологическую машину, которая умеет испольнять программы завернутые в архивы ДНК. В том числе некоторые представители из этих «машин» способны создавать «с нуля» новые машины… :)
              –3
              И как программист, я с довольно большой долей скепсиса отношусь к генетикам… которые официально считают 95% информации в ДНК «мусором».

              После успешного клонирования кошки оказывается что «клон» имеет другую окраску потому как окрас оказался закодирован в «мусорной» части ДНК :D

              Ну и учитывая объем данного «архивчика»… скорый его «разбор» и полноценный анализ весьма и весьма сомнителен…
                +6
                >я с довольно большой долей скепсиса отношусь к генетикам… которые официально считают 95% информации в ДНК «мусором».

                Это устаревшие представления. Скажем, моя дипломная работа была посвящена исследованию одного из таких «мусорных участков», который по всей видимости был нужен для регуляции, в не просто так занимал место.

                При этом, в геноме действительно много мусора, в частности, остатков вирусных геномов или транспозонов. Но не 90%.
              +3
              >ген — это своего рода print(). Т.е. просто вывод на «внешнее устройство». Есть матрица, и по ней собирается белок.

              Неправильное понимание. Скорее ген — это делегат метода. Он имеет строгий интерфейс, но варьирующуюся реализацию. От простейшей подстановки по хэш-таблице до всяких навороченных переключателей внутри. В зависимости от начальных аргументов (разные стадии развития etc) он отрабатывает разные пути исполнения с неизменным форматом результата (считанной молекулой РНК).
              Это если очень грубо.

              И да, это именно архив, текст программы. Как файл статической разметки. Чтобы его исполнить, нужно соответствующее окружение.
                +1
                с неизменным форматом результата (считанной молекулой РНК)

                Здесь можно говорить лишь, об определенной консервативности. Тем более, что даже при этом, путем альтернативного сплайсинга, а в человеческом геноме ему подвержено до 94% генов, из транскрибированных пре-мРНК получается множество вариантов белка.
              +8
              Поэтому если у кого-то найдётся желание этим заняться, есть все шансы побороть конкурентов.

              Люди, у которых нашлось желание заняться, у нас в стране уже есть — это разработчики Unipro UGENE. Этот опен-сорсный проект (родом, кстати, из Новосибирска) представляет из себя что-то очень похожее на IDE, только для биоинформатики: такой комбайн, объединяющий множество функций и алгоритмов, а также сторонних тулзов в одной среде. То, что он написан на C++/Qt, позволяет некоторые опен-сорсные тулзы даже встраивать на уровне исходного кода (так поступили, например, с samtools).

              К сожалению, до того, чтобы побороть всех конкурентов по набору фич, ему, наверное, ещё далеко. Но я имел удовольствие попрактиковаться в этом проекте в магистратуре, поэтому могу немного рассказать о его нутрях. Вот выше сравнили ДНК с базой данных. Разработчики UGENE придерживаются того же мнения, поэтому базу данных и используют для хранения (либо кэширования, если открываешь обычную fasta или bam), что позволяет работать довольно быстро без необходимости держать гигабайты в оперативной памяти. Например, открыть полный геном человека на нетбуке.

              Особенно интересным это становится в случае Next Generation Sequencing. Вот автор называет геномный браузер одномерной картой. Но это не всегда так. На выходе секвенаторов типа SOLiD/Illumina получается куча маленьких обрывков, которые потом выравниваются, в результате чего получается двумерная картина: каждый отрезок ДНК покрыт множеством выровненных на него кусочков, в итоге объём таких данных вырастает уже до десятков гигабайт. На самом деле, потом мы смотрим, какие основания чаще всего встречаются на каждой вертикали, и сворачиваем картинку в одномерную (consensus sequence). Но иногда хочется посмотреть и на «сырые» результаты выравнивания, называемые DNA assembly, что можно делать, например в Tablet или IGV. В UGENE также есть свой Assembly Browser, и вот над его ускорением я преимущественно и работал в своё время. Естественно, он тоже использует базу данных, а ещё кэширует рассчитанный coverage, и т. д. UGENE для меня сейчас — это самый интересный проект, над которым мне приходилось трудиться, так что если есть интерес к этой теме, у меня есть что рассказать о нём и вообще об обработке биоинформатических данных с позиции разработчика.

              В заключение хотел бы прокомментировать фразу о том, что «идеального браузера геномов не существует». Я не думаю, что он может существовать. Существует слишком много различных задач, связанных с анализом геномной информации, и поэтому существует множество различных браузеров. Представить себе такой, который был бы хорош во всём, сложно. Поэтому разработчик очередного браузера должен понимать, что будет его «киллер-фичей». В Assembly Browser мы делали ставку на скорость за счёт базы данных и многоуровневых кэшей, но зато там пока очень мало функций: нельзя даже несколько треков смотреть одновременно (в других модулях UGENE — можно). К сожалению, я бы не сказал, что эта ставка сыграла. Так что к вашему призыву побороть конкурентов я бы добавил уточнение: хорошенько подумать, в чём конкретно их побеждать, и не распыляться на многое. Если же сил/смелости на поднятие нового проекта не хватает, можно поконтрибутить в какой-нибудь развивающийся, как, например, UGENE. Команда у него хорошая, с ней будет интересно пообщаться.
                0
                То есть геномного Менделеева не ждать?
                  +1
                  Ну, знать это — уже не в моей компетенции :) Я думаю, что ждать (и стремиться) стоит, но если таковой появится, его заслуга будет явно не в том, что он напишет очередной просмотрщик, а в том, что какую-то новую теорию родит. Хотя, конечно, в отличие от учёных века Менделеева, в наш век мощные инструменты тоже играют важную роль на пути к открытию.
                    0
                    Ага, помню про Юнипро, даже общался с вашими на BGRS :-)
                      0
                      А исходный код UGENE доступен?
                        +1
                          +1
                          Дополню ваш ответ:

                          • SVN-репозиторий: https://ugene.unipro.ru/svn/ugene. Отсюда можно получить последнюю (нестабильную) trunk-версию.
                          • Кроме SVN, нестабильные сборки, равно как и их исходный код, также доступны со страницы снэпшотов в архивах.
                          • Ходить по репозиторию из браузера (если нужно только посмотреть) удобно с помощью Fisheye.
                          • Там же можно смотреть что-то вроде новостной сводки: последние коммиты, ишью, ревью: вкладка Activity.
                      +2
                      Пора уже запускать проект "Elven Genome" (исследование феномена меньшего возраста на вид, острых ушей, особых способностей и прочих эльфийских фич), писать патч и накатывать его на человечество!
                        +2
                        Орки протестуют! ))
                        0
                        Да уж… с визуализацией в этой области ещё всё плохо… :(
                          +1
                          При взгляде на картинки возникло желание запустить процесс дефрагментации
                            +1
                            вы совсем не упомянули интересные разработки, как
                            Genome Projector — к примеру
                            image

                            или GenomeView, или MizBee, у Genious эта тема неплохо раскрыта.

                            Плюс за обзор (ибо я из смежной области), но тема нераскрыта
                              0
                              И так длинно получилось. Всё в один пост не впихнёшь. С бактериальными геномами к тому же я редко сталкиваюсь, вы вполне можете написать про них отдельную статью :-)
                              +2
                              Этот пост войдёт в историю, как первый намёк на то, что части программистов придётся ответвиться в сторону программирования живых существ при помощи будущего IDE-генома.
                                0
                                Во-во, IDE надо строить, с редактором кода, дизайнером форм (что бы это не значило в данном контексте), отладчиком и профилировщиком!
                                  0
                                  IDE — это как раз то, что нужно и что является логическим продолжением. Но. Насколько я понимаю, для моделирования развития из ДНК нужно полностью понимать мультимедийную так называемую «мусорную» часть исполняемого файла ДНК. Вот когда у нас будет браузер генома, который в одном из режимов покажет четырехмерную модель (объемно + слайдер для перемещения во времени) результирующего организма (как IDE для оконных ресурсов) можно сразу приступать к обратному процессу — превращать подправленный визуальном редакторе фенотип обратно в генотип.
                                    0
                                    Необязательно понимать абсолютно всё, чтобы вносить изменения. Чтобы написать патч к ядру Линукс (или даже новый модуль), необязательно понимать все строчки ядра целиком. С генами то же самое. Можно просто внедрять новые гены, обеспечивающие определённые функции. Собственно, и технологии для некоторых изменений уже есть (делают же, например, светящихся рыбок). Тут больше этических проблем.
                                      0
                                      Да, знать иногда не обязательно. Но свечение как раз легко реализовать на уровне кодирования белков, где знания достаточно хорошие. А вот сделать из исходного генома рыбу с заранее заданными очертаниями тела и расцветкой, вплоть до отдельных пятен и линий силами манипуляции одними белками ИМХО нельзя.
                                      Относительно легко поменять белок, из которого строится чешуя у рыбы. В некоторых случаях можно нарушив что-то добиться тем самым другой формы чешуи или ее отсутствия. Но написать на чешуе рыбе название брэнда рыбозаводческой мегакорпорации или своё имя :-) или — устроить ароморфоз и сделать из чешуи перья, насколько я понимаю — задача на уровне мышления «ДНК<->белок» нерешаемая.
                                  0
                                  Слушайте, а я вот пока никак не пойму: отдельно пишут про разные смотрелки, иногда пишут про отдельные онлайн-базы данных с кучей генной информации, доступной для скачивания в виде непонятных файлов. И вроде бы проект «геном» был один, а баз вроде бы не одна…

                                  А вот связь у смотрелок с базами какая есть? И вообще, в каких форматах нынче геномы и их части/обобщения водятся? Как часто их берут из общих открытых или закрытых источников, и как часто делают исключительно своими силами?

                                  Насколько смотрелки можно использовать в школе/институте/дома для какого-либо обучения/самообучения/развлечения?

                                  Насколько все эти смотрелки — лишь смотрелки, и насколько они ещё и редакторы? Что там можно редактировать?

                                  Насколько далеко можно в них уйти от разглядывания самой цепочки ДНК? Я имею ввиду, можно ли там хоть где смотреть как ДНК сворачивается в хромосомы, как разворачивается для декодирования при развитии клетки/организма? Можно ли имитировать формирование РНК и исследовать её фолдинг? Можно ли имитировать создание белка и исследовать его фолдинг? Есть вроде бы где-то мощный проект моделирования клетки на физическом уровне — насколько он открыт, и насколько связан с теми базами, которые доступны для смотрелок?
                                    +2
                                    Проект Human Genome один, и референсный геном человека тоже один. По мере уточнения информации к нему выходят новые патчи и версии. Например, этим летом ждут GRCh38. Сейчас большинство работает на 37-й версии, а некоторые — на 36-й. Плюс бывают альтернативные, нереференсные геномы (в конце концов, все люди разные), но большинство использует референсный.

                                    Но надо понимать, что референсный геном — это просто последовательность буковок ACGT для каждой хромосомы. А вот что они значат — тут исследований ещё на десятки, если не сотни лет хватит. И в разных базах разная информация на эту тему лежит. Расположение генов, альтернативный сплайсинг, функции генов, экспрессия в разных типах клеток, участие в биологических процессах, связь с определёнными болезнями, известные вариации (аллели) генов, их фенотип и связь с болезнями, регуляторные районы генома, нуклеосомные сайты и прочие точки разметки высокоуровневой структуры ДНК — вот лишь некоторые вещи, которые лежат в разных базах. Некоторые базы объединяют другие (тот же Ensembl, например).

                                    «Смотрелки» практически всегда связаны с базами, иначе от них не так много пользы. Например, Ensembl Genome Browser использует информацию из базы Ensembl. Геномы водятся в разных форматах, как в простых типа FASTA (где по сути может быть просто номер хромосомы и миллионы букв ACGT после него), так и в более продвинутых типа GenBank (где добавляется какая-то аннотация к определённым районам). Могут и в SQL-базе лежать (как в том же Ensembl).

                                    Множество геномов сейчас общедоступно. Вот на Ensembl почти сотня видов, причём у них в основном позвоночные. Есть отдельные проекты для растений, бактерий и т. д. Есть, конечно, и закрытые. Своими силами с нуля делают для новых видов. Если уже есть какая-то сборка генома, можно на неё опираться (например, чтобы получить геном не какого-то человека, а себя любимого), это значительно проще. Работают как с персональными геномами конкретных людей, так и с геномами из определённых клеток (к примеру, у одного человека секвенировали фрагменты генома в раковой опухоли и обычных клетках и сравнивают между собой).

                                    Редактировать обычно не очень надо. Вместо этого надо анализировать — фильтровать какие-то фичи по каким-нибудь признакам, например. Если вы про генную инженерию, то там свой инструментарий, с ним я знаком крайне поверхностно. Вот в TinkerCell когда-то тыкался. Там можно конструировать всякие вирус-векторы и прочие генно-инженерные штуки. Как раз своего рода IDE, про которую выше пишут.

                                    Для исследования фолдинга РНК обычно используют отдельные средства. Конечно, ничто не мешает браузеру генома и анализатору структуры РНК быть встроенными в одно приложение, но всё же это разные вещи.
                                      0
                                      Спасибо, что-то прояснилось
                                        0
                                        Не удержусь, дам ссылку на свои попытки исследовать фолдинг РНК.
                                          0
                                          Слушайте, а не проще мутить фолдинг не для свободно болтающейся молекулы, а на выходе из сборщика? Белок — на выходе из рибосомы, РНК — на выходе из другой штуки, которая её собирает… Как в природе, в общем. Свободно загибаться там будет лишь выпускаемое очередное звено, а все ранее выпущенные элементы цепи будут практически окончательно свёрнуты уже к этому времени, и на их перерасчётах можно, кажется, некисло сэкономить. Почему никто так не делает?
                                            0
                                            Это не правильно, ни в природе это не имеет значения, ни в моделировании, т.е. вот это «ранее выпущенные элементы цепи будут практически окончательно свёрнуты уже к этому времени» — глубокое заблуждение.
                                              0
                                              А можно чуть подробнее про обоснования такого утверждения?
                                                +2
                                                Здесь можно почитать более подробно о некоторых моих экспериментах in sillico biogenom.eu/category/folding/advance/ (обратите внимание там на то, какие нуклеотиды должны вначале образовать водородные связи, чтобы потом было возможно образовать последующие водородные связи без разрыва уже образованных — и заметите, что они идут не по порядку)

                                                Основная же причина в том, что нуклеотиды сворачиваются далеко не по порядку их нахождения в вытянутой цепи. Иначе бы сворачивание одной цепи препятствовало бы сворачиванию другой.

                                                Если вас это интересует жду на форуме forum.biogenom.eu/index.php?board=2.0 (там кстати, обратите внимание на forum.biogenom.eu/index.php?topic=5.0 — описано то как должно идти сворачивание, при необходимости это можно обосновать достаточно детально)
                                                +1
                                                Что же касается природы, то сборка на рибосоме белков совсем не влияет, да для некоторых сложных белков помогают т.н. шапероны — но никто еще такие сложные комплексы не моделировал. И то, что моделируется как правило до 100 оснований — установлено, что могут денатурировать и потом заново свернуться без рибосомы или помощи чего бы то не было.
                                                  0
                                                  Но как же она может совсем не влиять?.. То, что конструкция может получиться не окончательной (требующей доработки шаперонами, ферментами и прочими инструментами клеточной среды) и не устойчивой, чтобы перебраться, как только хвост из сборщика освободится и прочие условия позволят — это вполне допускаю. И всякие дополнительные вставки, типа железа в гемоглобине, тоже наверняка приходят позже. Но всё же мне кажется, что имитация всех промежуточных положений должна сделать расчёт фолдинга в целом эффективнее и определённее, однозначнее.
                                                    0
                                                    Ну, подумайте логически. Вот есть такая структура как тут forum.biogenom.eu/index.php?topic=5.0. По вашему появляется 1,2… 7 нуклеотид и сразу ищет с кем бы ему образовать связь — не находит, нет еще в природе конца цепи (нуклеотидов 66-72), значит так или иначе гипотеза о «ранее выпущенные элементы цепи будут практически окончательно свёрнуты уже к этому времени» тут не играет, этот участок так или иначе будет сворачиваться только пока не появится конец цепи.

                                                    Хорошо скажите вы это относится только к началу-концу. Идем дальше — по вашему вначале образуется спираль 10,11,12,13 — 22, 23,24,25. Хорошо. Ну тут не новость и без вашей гипотезы вначале образуются спирали согласно самой старейшей гипотезе hierarchical model (только там не установлен порядок, что даже значительно лучше). Теперь дальше как будет по вашему — будет ли образовываться некононические связи — 8-14, 9-23? Все нуклеотиды уже есть ведь. И главное в каком порядке? 8-14, как только появится 14 нуклеотид? Но, это помешает (сильно замедлит и уменьшит вероятность образования) спирали 10,11,12,13 — 22, 23,24,25. Если же после образования спирали — то ваша гипотеза уже хромает — становится не понятно, когда согласно ей что-то происходит, а когда нет. Кроме того образование 8-14, практически запретит образование пары 9-23… и далее и далее — вариантов, когда последовательное образование запрещает дальнейшее сворачивание — много. Поэтому пользы от такой гипотезы мало, а строгое ей следование вред и дает невозможность сворачивания.
                                                      0
                                                      Ну и продолжение примера. Если даже исходить из варианта — вначале спираль T, потом 9-23, потом 8-14 (уж не знаю, как он согласуется с вашей гипотезой, но только так логично), потом спираль А, потом неканонические связи 44-10, 46-22, 48-15… а потом пробовать стэковать со спиралью D — то такой вариант я проверял.

                                                      Без взаимодействия (т.е. если сворачивание начнется до образования спирали D) со спиралью D, спираль Т сворачивается совсем по другом, у неё тогда с большей вероятностью как 90 из 100 нуклеотид 18 смотрит в другую сторону. И когда придет время образовать 18-55 это станет физически, геометрически (как хотите) не возможно, единственный выход все заново размотать. Поэтому вначале образуется спираль D (хоть она и находится в конечных номерах нуклеотидов), только потом ориентируется 18 нуклеотид, и при легком «притяжении» к 55 нуклеотиду, образуется спираль T. Т.е. ровно наоборот к вашей гипотезе.
                                                        0
                                                        Но в природе-то оно всё же сворачивается так, как должно?
                                                          0
                                                          В природе мы не видим последовательность сворачивания (это происходит так быстро, что текущая наука не может зафиксировать). Поэтому тут и есть куча гипотез как на самом деле? Собственно мой подход позволяет хотя бы отсечь совсем не логичные пути сворачивания.
                                                            0
                                                            Ну, текущая наука и с тем, что получилось, разбирается не на месте, а лишь убив и разобрав. На месте не то, что быструю сборку, но и готовый свёрток рассмотреть не умеем…

                                                            Но Ваш подход — он как рак на безрыбье. Полноценного результата дать не может принципиально, но пока более прямых методов нет — позволяет получать результаты, которые можно проверить сравнением с природными. Предсказательная сила Вашего подхода почти нулевая, потому что первичная структура цепи не может однозначно говорить о следующих уровнях, там всегда будет большой выбор вариантов компоновки, и однозначных критериев без природной модели здесь найти нереально. Один набор суррогатных критериев будет угадывать природную компоновку одной цепи и не подходить ко всем остальным. Смоделировав на нём цепь, которая свернувшись должна дать один результат, на опыте почти стопроцентно получите другой. Под этот другой можно будет подобрать свой набор критериев, чтобы расчетным путем получать данный природный результат, но предсказательная сила этого набора вряд ли будет выше. А дополняя условиями природную модель, предсказательную силу модели можно увеличить.
                                                              0
                                                              Ну не совсем так, в действительности первичная структура ПОЛНОСТЬЮ предопределяет третичную. Вторичную структуру из первичной достаточно не плохо прогнозируют. Они лишь не прогнозируют неканонические связи. Далее можно посмотреть полученные рентгеноспектроскопией определенный класс белков/РНК и найти недостающие связи путем сравнения с требуемой неизвестной.

                                                              Далее комбинация водородных связей и стэкинг — тоже достаточно неплохо предопределяет третичную структуру. Другое дело это сложно автоматически рассчитать, практически не возможно (при нынешнем уровне развития кибернетики). Но никаких принципиальных запретов, нехватки информации — нет. Более того, есть строгий критерий — если я предположу не верный путь сворачивания — то я никогда не сверну. Поэтому не может просто случится такого, что у меня РНК свернулась не так как в природе.
                                                                0
                                                                хм… А кстати, каков нынче критерий свёрнутости? Я знаю лишь банальный — дальше не вертится. И если при этом оно свернулось так, как в природе сворачивалось при перепроверке на практике — то всё ок.
                                                                  0
                                                                  Да, именно так классически и есть. Но что значит дальше не вертится — тут скрываются как раз ошибки моделирования. Никак мы не можем рассчитывать, что если у НАС в моделировании не вертится значит все вот оно и готово. (в деталях там сложнее — исходят из гипотезы наименьшей энергии или наибольшей скорости сворачивания, второе реже — но это как раз и есть «больше не вертится»)

                                                                  У меня критерий такой — что должны образоваться все требуемые водородные связи. И пока этого хватало. Другое дело, что иногда, чтобы образовались водородные связи — не всегда получается из случайного начального положения, тогда я смотрю какой стэкинг еще необходим, чтобы стало возможно образовать водородные связи.
                                                                    0
                                                                    все требуемые — это какие?
                                                                      0
                                                                      я выше писал — те которые прогнозируются и есть в данном классе белков/рнк
                                                                        0
                                                                        Какие прогнозируются — это ряд конкретных прогнозирующих критериев.
                                                                        «какие есть» — это не вариант прогноза, это база для построения тех самых прогнозирующих критериев и их проверки на опыте.

                                                                        Самих критериев Вы не приводили. Вы уверены, что они однозначны, достаточны и адекватны для всех природных РНК?.. Думаю, вряд ли.
                                                                  0
                                                                  А как же те же право- и левозакрученные формы? Из первичной структуры одинаково следуют как левые, так и правые формы, а на практике заворачивает свёртку в нужную сторону что-то вспомогательное в процессе и среде. Не может она её полностью определять. Нужна информация из среды. Я пока по-прежнему уверен, что нехватка информации в первичной структуре большинства белков/РНК/ДНК не то чтобы есть, она просто катастрофическая. И потому Ваш путь — тупиковый. Игра в песочнице, не имеющая отношения к движению вперёд.

                                                                  В общем, я к тому, что парадокс Левинталя может послужить рассчётам на руку, и лучше заняться моделированием критериев постепенного роста белка/РНК, чем бесперспективным подбором критериев свободного сворачивания.
                                                                    0
                                                                    Ну, тут я с вами не согласен. И пока Вы не привели ни одного аргумента, чтобы я даже начал задумываться. А право-лево — тут вообще не в тему.
                                                                      –1
                                                                      Ваше право. Я понимаю.
                                                                      С одной стороны, трудно себе признать, что занимался столько времени сложнейшей, но бесперспективной фигнёй. С другой — я действительно привёл лишь взгляд со стороны, и неконкретные невнятные доводы о потенциальной неоднозначности первичной структуры, в то время как Вы уже имеете десятки частных способов её преодоления…

                                                                      Я не знаю, как в таких ситуациях поменять мнение заблуждающегося, на мой взгляд, оппонента. Единственный известный мне способ — сделать предлагаемое самому и продемонстрировать оппоненту большую результативность — во многих ситуациях невозможен по объективным причинам. Да и он, как известно из истории, далеко не всегда переубеждает.

                                                                      А право-лево — это различные альтернативные формы, получающиеся в результате свёртки одной и той же первичной цепи. Это элементарный пример имеющейся неоднозначности первичной цепи, а более сложных неоднозначностей у меня под рукой нет, кроме как понимания, что их там не может не быть.
                                                                        0
                                                                        Выбирайте пожалуйста выражения. Фигней я занимался, и в таком контексте я не имею желания продолжать дискуссию с человеком, который в этом ничего не смыслит.
                                                                          +1
                                                                          Прошу прощения, не было цели обидеть.
                                                                            0
                                                                            Вас этот вопрос реально интересует или как? Давайте все же перейдем тогда на мой форум, и не будем тут оффтопить.
                                                                        0
                                                                        Вам надо не сделать что-то самому — а хотя бы разобраться в том, что делает оппонент. Сейчас уровень беседы такой — что «а вот я думаю, что фигня, а вот так будет не фигня». К сожалению оппонент проверил все эти «а вот так будет, и уже знает, что это фигня».
                                                                          0
                                                                          Более того, вам убедительно выше объяснил почему ваша гипотеза несостоятельна.
                                                                        0
                                                                        Еще раз — право-лево — это аминокислоты! Это во-первых в белках, во вторых, сами аминокислоты при сворачивании не моделируются, они уже берутся как есть — левые.

                                                                        Аналогия какая то может быть. Скажем при сворачивании рибозима, пока я не нашел нужный критерий (водородную связь которую не учел) — сворачивание шло то «левое», то «правое». Но когда эта водородная связь была найдена и промоделирована, то ход сворачивания пошел ровно так как в природе.
                                                                          0
                                                                          Спасибо за пояснения. Мне пока остаётся лишь пожелать Вам успехов и радоваться им, когда Вы их опубликуете.
                                                                            0
                                                                            Спасибо, что интересуетесь. Вы можете принять участие ;)
                                                              0
                                                              А как должно? :) Мы видим лишь конечное состояние…
                                                                0
                                                                В том-то и дело, что должно ровно так, как само по себе, по пути наименьшего сопротивления, получается в природе.
                                                                  0
                                                                  Тут в экспериментах получается очень интересно. Путь наименьшего сопротивления — это не сворачиваться вообще :) (шучу)… Но действительно есть локальные места (участки нуклеотидов), которые должны установится в положение НАИМЕНЕЕ ВЕРОЯТНОЕ, причем к этому должен подталкивать этот хаотически динамический путь сворачивания… Т.е. важно понимать, что путь наименьшего сопротивления — это не самый простой путь в нашем понимании, это такой путь, который как говорят «путем прохождения урагана на свалке соберет автомобиль».
                                                                    0
                                                                    Фишка в том, что этот ураган успешно собирает неимоверное количество моделей автомобилей по всему миру в неимоверных количествах экземпляров каждый в течении уже миллионов лет. Это действительно путь наименьшего сопротивления в условиях той свалки. И видимо, не сворачиваться у цепей просто не получается.
                                            0
                                            Как то мимолетом говорили о экзон-интронной структуре гена. Есть ли алгоритм определения этой структуры? Если да, то какой?
                                              0
                                              Я могу ошибаться, но думаю, что метод чисто экспериментальный: проводится секвенирование РНК, присутствующих в клетке, а потом они выравниваются каким-нибудь бластом на ДНК. Если я правильно понимаю, чисто из нуклеотидной последовательности определять экзон-интронную структуру не научились.
                                                0
                                                увы, у меня такие же сведения… я просто подумал, раз такие данные есть в браузерах — то они откуда то берутся. Так получается это просто дополнительные данные из биоэкспериментов… интересно где хранятся первоисточники таких данных, которыми пользуются подобные браузеры геномов… и кстати как у них обстоит дело с обновлением баз геномов? Или они представляют собой просто «чистый» интерфейс, и закинуть в них ДНК — это дело пользователя?
                                                  0
                                                  Я выше писал, что обычно браузеры геномов пользуются какой-то базой. В вебовских проблемы обновления вроде как не стоит. Десктопные многие умеют выкачивать информацию из сети. Иначе смысла мало. Одна сборка генома человека почти гигабайт будет весить, а если вы с разными видами и разными сборками работаете? Дистриб будет десятки гигабайт занимать.
                                                    0
                                                    :) написали вместе, см. ниже
                                                      0
                                                      К объемам мы привычные :) Подумаешь сотню гигов скачать :) Сериалы примерно так же весят :)
                                                        0
                                                        Но смысл, если, к примеру, вы никогда не анализируете кроликов или мух? Как подтребуется, так докачаете самую свежую сборку.
                                                      0
                                                      Часть ответа прочитал выше:
                                                      "«Смотрелки» практически всегда связаны с базами, иначе от них не так много пользы. Например, Ensembl Genome Browser использует информацию из базы Ensembl. Геномы водятся в разных форматах, как в простых типа FASTA (где по сути может быть просто номер хромосомы и миллионы букв ACGT после него), так и в более продвинутых типа GenBank (где добавляется какая-то аннотация к определённым районам). Могут и в SQL-базе лежать (как в том же Ensembl)."

                                                      Но это означает, что браузеры заточены под геномные проекты? и стандартизации тут практически нет… соответственно, и форматы разных баз не так легко просматривать любым из браузеров. Конечно, фасту просмотрит любой, но что-то посложнее — ту же интрон-экзонную структуру уже будут проблемы… Поэтому прежде чем тут что-то кодировать — нужен консорциум по стандартизации :)
                                                        0
                                                        Стандарты есть. Один из примеров — тот же DAS protocol, который я упоминал выше. По нему можно подключать треки из других баз. Вообще для треков используют форматы файлов типа BED (тысячи их). В BED можно задать блочную разметку фич, так что в принципе экзон-интронная структура туда легко укладывается.
                                                          0
                                                          Ну, об этом было бы неплохо почитать в вашей будущей статье ;)
                                                            0
                                                            Впрочем, у меня впечатление — сколько проектов столько и форматов… это не тот уровень стандартизации.

                                                Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                Самое читаемое