Pull to refresh

Геномы секвенированных организмов — ошибки в базах

Reading time 4 min
Views 4K
Наиболее известная база, содержащая геномы секвенированных организмов — NCBI, содержит большое количество систематических ошибок. Из-за этого практически невозможно использование этих данных, и тем более невозможно изучение механизма мутаций (а, следовательно, и эволюции), так как в таком случае исследуются человеческие ошибки при секвенировании, а не природные мутации. Поэтому прежде чем использовать эти данные необходимо уточнение этой базы.

И это трудоемкая задача, её невозможно решить для отдельного нужного организма. Поэтому хотелось бы найти тех, кто хотел бы создать свой русскоязычный источник аналогичный NCBI, но с уточненной информацией.

В статье показывается на сколько массовы ошибки геномов, находящихся в NCBI и рассказывается как самому в этом убедится, и некоторые способы исправления.



Где располагаются геномы

Вот тут на ftp ftp.ncbi.nih.gov/genomes/ расположены все секвенированные геномы. А тут ftp.ncbi.nih.gov/genomes/Bacteria/ геномы бактерий — с них и стоит начать.

Нам нужен файл all.fna.tar.gz — он содержит геномы порядка 2000 бактерий. Что такое геном? Это цепочка ДНК — букв A, T, C, G. Скачиваем, распаковываем — получаем кучу директорий с названиями видов на латинском. Внутри как правило несколько файлов NC_###### — в каждом файле отдельный т.н. локус — нить ДНК (хромосома или плазмида).

Для простоты мы займемся РНК, так как с белками немного посложнее для обработки. Для этого нам нужны еще два файла:
1. all.rnt.tar.gz — содержит список и расположение (начало, конец, направление) всех РНК в определенном локусе
2. all.frn.tar.gz — содержит список собственно вырезанных кусков РНК из ДНК (не удивляйтесь хоть это и РНК — замен T на U здесь не будет — т.к. это именно код ДНК, по которому будет создано РНК)

Как выполнить предобработку

Для обработки данные файлы не очень удобны. Файлы .fna содержат в первой строке комментарий, а далее код ДНК в каждой строке по 70 символов, потом перенос строки. Естественно для поиска это не куда не годится, и нужно это склеить в одну строку без переносов, и исключить комментарий. Обработанному таким образом файлу дадим расширение .fna.txt

Кроме того, есть еще один нюанс: с ДНК может осуществляться транскрипция РНК как справа налево, так и наоборот, а так как ДНК — это у нас двойная спираль, то справа налево означает транскрипцию с одной нити ДНК, а слева направо с другой комплементарной ей.

Это означает, что чтобы найти к примеру РНК для которой указано отрицательное направление в файле all.rnt.tar.gz — нам нужно искать не в полученном файле .fna.txt — так мы ничего не найдем. Нужно создать обратный файл (дадим ему расширение .fna_.txt). Суть там такая берем файл .fna.txt — читаем побуквенно с конца и делаем комплементарные замены:

T=A; G=C; A=T; C=G; M=K; R=Y; W=W; S=S; Y=R; K=M; V=B; H=D; D=H; B=V

Первых 4 понятны и известны. Остальные достаточно неожиданны :), правда они встречаются редко, но встречаются. Суть в них такая если при секвенировании невозможно отличить G от A ставится R и т.п.

Находим ошибки или кросс-анализ

Этому процессу я дал название кросс-анализ. Суть такая из интересующего файла .frn берем код одной РНК. И ищем совпадение по всему множеству файлов .fna.txt и .fna_.txt.

Как вы думаете сколько вы получите совпадений? Достаточно. Причем может оказаться, что в файле .rnt может не оказаться соответствующей записи. А наиболее часто окажется, что начало и конец в файле будет не таким, а сдвинутым на 1 или 3 позиции. Может даже быть другое направление. Встречался я и с ошибками более существенными когда указано, что это Ile РНК, а на самом деле это Met РНК.

По числу этих ошибок практически порядка 50%. Как можно работать с такими ошибочными данными я не знаю. Почему люди из NCBI не проводят такой простой кросс-анализ — тоже не знаю.

Но прикиньте сколько ошибочных выводов потом делают биологи доверившись этим данным?

В то же время, когда ошибки исправлены — этот же метод позволяет сделать эксперимент такого типа, как описан тут Интересные результаты о эволюционной систематике прокариот или «многовидовое происхождение», отдельно отметим на сколько это элементарный метод, но дающий точные факты, которые могут говорить о многом.

Один самый простой пример

Открываем секвенированный организм Chlamydophila pneumoniae TW-183. Поиском ищем тег «CpBt08», там указано complement(266485..266557) — это начало и конец соответственно. Там же есть ссылка на GeneID:3284349. Далее есть ссылка FASTA — там указана последовательность

CGGGGACTTAGCTTAGTTGGTAGAGCGTCTGATTTGCATTCAGAAGGTCAGGAGTTCGAATCTCCTAGTCTCC

она не верная — на самом деле должна быть

GGGGACTTAGCTTAGTTGGTAGAGCGTCTGATTTGCATTCAGAAGGTCAGGAGTTCGAATCTCCTAGTCTCCA

(и она действительно такая есть в полном секвенсе ДНК, она лишь неправильно идентифицирована)

поставим их рядом

CGGGGACTTAGCTTAGTTGGTAGAGCGTCTGATTTGCATTCAGAAGGTCAGGAGTTCGAATCTCCTAGTCTCC
  GGGGACTTAGCTTAGTTGGTAGAGCGTCTGATTTGCATTCAGAAGGTCAGGAGTTCGAATCTCCTAGTCTCCA


видим что отличие в сдвиге.

Почему?

Теперь идем в другой организм Chlamydophila pneumoniae CWL029, ищем тег: CPnt08. И аналогично находим ген

GGGGACTTAGCTTAGTTGGTAGAGCGTCTGATTTGCATTCAGAAGGTCAGGAGTTCGAATCTCCTAGTCTCCA

вы думаете это просто другая последовательность? Ан, нет — это та же сама но сдвинутая. Конечно есть, вопрос какая из них правильная. И тут самое плохое — автоматически это решить затруднительно. Приходится решать основываясь на частоты ошибок и некоторого знания о том какими могут быть последовательности РНК. Впрочем, для тРНК есть более конкретный критерий проверить соответствие антикодона в позициях 34-36 и наличии конца ССА (который должен быть у всех тРНК).

P.S. Кого это заинтересует настолько, чтобы попробовать поискать ошибки, исправить или даже сделать эксперимент аналогичный моему, но на других данных — обращайтесь личным сообщением.
Tags:
Hubs:
+3
Comments 20
Comments Comments 20

Articles