andrewprzh Jul 16 2013 at 15:46

Снова о биоинформатике: сборка бактериальных геномов

7 min

29K

Образовательные проекты JetBrains corporate blog

+34

Comments 18

MichaelBorisov Jul 17 2013 at 02:22

Я в данной теме не спец, позвольте уточняющий вопрос. Копирование ДНК с помощью упомянутой полимеразы — это то, что называют «Полимеразной цепной реакцией»? Или этот термин применяется для обозначения какого-то другого процесса?

andrewprzh Jul 17 2013 at 03:55

Описанный метод (MDA) как раз не относится к полимеразным цепным реакциям (ПЦР). При ПЦР копируется один конкретный участок ДНК. Какой именно — определяется экспериментатором, проводящим ПЦР. При MDA происходит хаотичное копирование случайных участков ДНК.

allegator Jul 17 2013 at 13:37

Это тот самый ПЦР, которым делают анализы на инфекции в медицине?

vyahhi Jul 17 2013 at 15:12

Да.

Megas Jul 17 2013 at 12:02

сборка человеческого генома может помочь определить наличие в организме раковых клеток еще на ранних этапах

это каким образом?

andrewprzh Jul 17 2013 at 17:28

Вот пример использования другой технологии секвенирования единичной клетки (MALBAC) для диагностики циркулирующих в крови раковых клеток: bernstein.harvard.edu/research/MALBAC.html

Kolegg Jul 17 2013 at 12:20

Другой подход секвенирования некультивируемых бактерий

Этот способ применяли тут?

andrewprzh Jul 17 2013 at 17:29

Да, именно так. Люди, которые проводили эти исследования, сейчас являются нашими непосредственными партнерами.

Спасибо за ссылку.

Fensfire Jul 17 2013 at 12:41

Всегда было бы интересно узнать, каким образом рибосома синтезирует белки по РНК. Теперь меня заинтересовали полимеразы. Можно ли ожидать какой-нибудь статьи, направленной именно на полимеразы?

andrewprzh Jul 17 2013 at 17:32

Полимеразы и то, что с ними связано, относятся скорее к молекулярной биологии и биотехнологиям. Я занимаюсь биоинформатикой (даже больше информатикой), поэтому, к сожалению, не смогу написать про них подробную статью, во всяком случае сейчас.

Master_Dante Sep 28 2016 at 22:01

Могли бы вы куда нибудь выложить сырые данные, из которых необходимо восстановить геном? Желательно с примером восстановленного генома. Хочу попробовать с чистого листа решить эту задачу как программист с большим опытом работы по нагруженным алгоритмам, структурам данных и много поточному программированию.

andrewprzh Oct 4 2016 at 16:02

Публичных данных и собранных геномов очень много.
Исходные данные https://www.ncbi.nlm.nih.gov/sra/
Геномы https://www.ncbi.nlm.nih.gov/genome/

Можно скачать примеры с сайта нашей лаборатории
Например, вот
http://spades.bioinf.spbau.ru/data/
http://spades.bioinf.spbau.ru/spades_test_datasets/

Тестовые (урезанные) данные
http://spades.bioinf.spbau.ru/~helsinki_course/data/

Сразу предупрежу что времени может занять много. Возможно, есть смысл почитать какие-то статьи на эту тему.

Master_Dante Oct 4 2016 at 16:31

Спасибо, а инфа по формату файлов есть какая нибудь?

Я размышлял по поводу данных, полученных в результате MDA, возникли некоторые вопросы.
1. Прочитанные кусочки имеют случайную длину и случайную позицию чтения? Или же есть некоторый шаг и кратность?
2. И действительно ли чтение хаотичное, или же все же есть некая закономерность? Грубо говоря, сначала читается геном по младшим адресам потом по старшим. Хотя это наверно не важно, в файл эти данные все равно должны попадать хаотично.

andrewprzh Oct 4 2016 at 16:45

Ага
https://en.wikipedia.org/wiki/FASTA_format
https://en.wikipedia.org/wiki/FASTQ_format
Нужно еще разобраться с реверс-комплиментарностью, с парными ридами итд. В общем, биологические аспекты есть. Тут, может быть лучше найти какой-нибудь он-лайн курс или методичку.
Можете посмотреть слайды к моему курсу тут http://bioinformaticsinstitute.ru/courses/ngs/09-2015-12-2015

1. Длина фиксированная, позиция при полногеномном секвенировании случайная всегда.
2. Да, действительно. Нет, младших и старших адресов нету :) Можете почитать про процесс секвернирования подробней
https://en.wikipedia.org/wiki/Shotgun_sequencing
https://en.wikipedia.org/wiki/DNA_sequencing#Next-generation_methods

Master_Dante Oct 4 2016 at 17:07

Тогда такой вопрос в продолжение к первому. Вопрос о покрытии чтения. Можно ли надеется, что чтение было выполнено на каждой позиции кратно 1(или 2) хотя бы 1 раз?

Я так понимаю наиболее интересен процесс полногеномного секвенирования?

andrewprzh Oct 4 2016 at 18:21

Нет, нельзя. В MDA покртыие генома обычно от 50% до 98%, при обычном секвенировании в среднем выше, до 100%, но гарантии что весь геном покрыт нету.

Сборка интересна как правило именно для полногеномного секвенирования. Другие методы используются для других целей.

Master_Dante Oct 4 2016 at 19:07

Ого, если покрытие не дает 100%. Тогда к MDA прибегают несколько раз?

andrewprzh Oct 4 2016 at 19:14

Не всегда, иногда нет цели собрать геном целиком. Интерес могу представлять отдельные гены или группы генов.