Геномы секвенированных организмов — ошибки в базах

    Наиболее известная база, содержащая геномы секвенированных организмов — NCBI, содержит большое количество систематических ошибок. Из-за этого практически невозможно использование этих данных, и тем более невозможно изучение механизма мутаций (а, следовательно, и эволюции), так как в таком случае исследуются человеческие ошибки при секвенировании, а не природные мутации. Поэтому прежде чем использовать эти данные необходимо уточнение этой базы.

    И это трудоемкая задача, её невозможно решить для отдельного нужного организма. Поэтому хотелось бы найти тех, кто хотел бы создать свой русскоязычный источник аналогичный NCBI, но с уточненной информацией.

    В статье показывается на сколько массовы ошибки геномов, находящихся в NCBI и рассказывается как самому в этом убедится, и некоторые способы исправления.



    Где располагаются геномы

    Вот тут на ftp ftp.ncbi.nih.gov/genomes/ расположены все секвенированные геномы. А тут ftp.ncbi.nih.gov/genomes/Bacteria/ геномы бактерий — с них и стоит начать.

    Нам нужен файл all.fna.tar.gz — он содержит геномы порядка 2000 бактерий. Что такое геном? Это цепочка ДНК — букв A, T, C, G. Скачиваем, распаковываем — получаем кучу директорий с названиями видов на латинском. Внутри как правило несколько файлов NC_###### — в каждом файле отдельный т.н. локус — нить ДНК (хромосома или плазмида).

    Для простоты мы займемся РНК, так как с белками немного посложнее для обработки. Для этого нам нужны еще два файла:
    1. all.rnt.tar.gz — содержит список и расположение (начало, конец, направление) всех РНК в определенном локусе
    2. all.frn.tar.gz — содержит список собственно вырезанных кусков РНК из ДНК (не удивляйтесь хоть это и РНК — замен T на U здесь не будет — т.к. это именно код ДНК, по которому будет создано РНК)

    Как выполнить предобработку

    Для обработки данные файлы не очень удобны. Файлы .fna содержат в первой строке комментарий, а далее код ДНК в каждой строке по 70 символов, потом перенос строки. Естественно для поиска это не куда не годится, и нужно это склеить в одну строку без переносов, и исключить комментарий. Обработанному таким образом файлу дадим расширение .fna.txt

    Кроме того, есть еще один нюанс: с ДНК может осуществляться транскрипция РНК как справа налево, так и наоборот, а так как ДНК — это у нас двойная спираль, то справа налево означает транскрипцию с одной нити ДНК, а слева направо с другой комплементарной ей.

    Это означает, что чтобы найти к примеру РНК для которой указано отрицательное направление в файле all.rnt.tar.gz — нам нужно искать не в полученном файле .fna.txt — так мы ничего не найдем. Нужно создать обратный файл (дадим ему расширение .fna_.txt). Суть там такая берем файл .fna.txt — читаем побуквенно с конца и делаем комплементарные замены:

    T=A; G=C; A=T; C=G; M=K; R=Y; W=W; S=S; Y=R; K=M; V=B; H=D; D=H; B=V

    Первых 4 понятны и известны. Остальные достаточно неожиданны :), правда они встречаются редко, но встречаются. Суть в них такая если при секвенировании невозможно отличить G от A ставится R и т.п.

    Находим ошибки или кросс-анализ

    Этому процессу я дал название кросс-анализ. Суть такая из интересующего файла .frn берем код одной РНК. И ищем совпадение по всему множеству файлов .fna.txt и .fna_.txt.

    Как вы думаете сколько вы получите совпадений? Достаточно. Причем может оказаться, что в файле .rnt может не оказаться соответствующей записи. А наиболее часто окажется, что начало и конец в файле будет не таким, а сдвинутым на 1 или 3 позиции. Может даже быть другое направление. Встречался я и с ошибками более существенными когда указано, что это Ile РНК, а на самом деле это Met РНК.

    По числу этих ошибок практически порядка 50%. Как можно работать с такими ошибочными данными я не знаю. Почему люди из NCBI не проводят такой простой кросс-анализ — тоже не знаю.

    Но прикиньте сколько ошибочных выводов потом делают биологи доверившись этим данным?

    В то же время, когда ошибки исправлены — этот же метод позволяет сделать эксперимент такого типа, как описан тут Интересные результаты о эволюционной систематике прокариот или «многовидовое происхождение», отдельно отметим на сколько это элементарный метод, но дающий точные факты, которые могут говорить о многом.

    Один самый простой пример

    Открываем секвенированный организм Chlamydophila pneumoniae TW-183. Поиском ищем тег «CpBt08», там указано complement(266485..266557) — это начало и конец соответственно. Там же есть ссылка на GeneID:3284349. Далее есть ссылка FASTA — там указана последовательность

    CGGGGACTTAGCTTAGTTGGTAGAGCGTCTGATTTGCATTCAGAAGGTCAGGAGTTCGAATCTCCTAGTCTCC

    она не верная — на самом деле должна быть

    GGGGACTTAGCTTAGTTGGTAGAGCGTCTGATTTGCATTCAGAAGGTCAGGAGTTCGAATCTCCTAGTCTCCA

    (и она действительно такая есть в полном секвенсе ДНК, она лишь неправильно идентифицирована)

    поставим их рядом

    CGGGGACTTAGCTTAGTTGGTAGAGCGTCTGATTTGCATTCAGAAGGTCAGGAGTTCGAATCTCCTAGTCTCC
      GGGGACTTAGCTTAGTTGGTAGAGCGTCTGATTTGCATTCAGAAGGTCAGGAGTTCGAATCTCCTAGTCTCCA
    


    видим что отличие в сдвиге.

    Почему?

    Теперь идем в другой организм Chlamydophila pneumoniae CWL029, ищем тег: CPnt08. И аналогично находим ген

    GGGGACTTAGCTTAGTTGGTAGAGCGTCTGATTTGCATTCAGAAGGTCAGGAGTTCGAATCTCCTAGTCTCCA

    вы думаете это просто другая последовательность? Ан, нет — это та же сама но сдвинутая. Конечно есть, вопрос какая из них правильная. И тут самое плохое — автоматически это решить затруднительно. Приходится решать основываясь на частоты ошибок и некоторого знания о том какими могут быть последовательности РНК. Впрочем, для тРНК есть более конкретный критерий проверить соответствие антикодона в позициях 34-36 и наличии конца ССА (который должен быть у всех тРНК).

    P.S. Кого это заинтересует настолько, чтобы попробовать поискать ошибки, исправить или даже сделать эксперимент аналогичный моему, но на других данных — обращайтесь личным сообщением.
    Share post

    Similar posts

    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 20

      +4
      1. NCBI — это институт (контора, грубо говоря). База со структурами называется Genbank. И она не единственная.

      2. Вам, скорее всего, не нужны сырые данные с ftp. У нас есть куча инструментов, специально предназначенных для поиска данных. Как онлайновых, так и оффлайновых. С удобным доступом к свежим данным в базе, а не к тому, что лежит на ftp.

      3. Если вас чем-то не устраивают готовые инструменты, вы можете написать свой. Для этого есть специальный toolkit, которым я, собственно, и занимаюсь.

      4. Обработкой данных и написанием инструментария занимаются сотни людей. На это тратятся весьма немалые деньги. Вы серьезно полагаете, что сможете с кучкой энтузиастов на коленке сделать лучше? Вы хотя бы объем данных представляете? Точно не скажу, но ориентироваться надо на терабайты в день новых поступлений. Конечно, в базу кладется гораздо меньше, но тоже весьма прилично.

      5. «Ошибки» типа сдвига на 1-2-3 основания — это, скорее всего, не ошибки, а норма. Ключевое слово (одно из многих) — frame. Дальше сложновато для комментария. Есть еще полезные слова: SNP, например. Все это описано в базе. Для сравнения разных структур есть специальный вид данных — alignment, который тоже есть в базе. Именно поэтому люди и не работают с сырыми данными, а используют инструменты типа blast.

      Если вы биолог (биохомик/биофизик) и вам интересна эта тема — обращайтесь в личку. Попробую вывести на нужных людей (сам я, хоть и биофизик, но занимаюсь довольно низкоуровневыми частями вышеупомянугого тулкита). Но для начала я посоветовал бы полазить по нашему сайту и почитать документацию. И просто книжки по биохимии, какие найдете.
        0
        Извиняюсь, а как вы, собственно, сумели зайти на наш ftp? Он, вроде, снаружи не должен быть виден.
          0
          :) Вот теперь почему то стал не виден, а так лет 5 как виден был :)
            0
            Это я просто неправильные ссылки в статье поставил — они на http. А нужны на ftp
            +1
            Ан, нет виден… по ссылке www.ncbi.nlm.nih.gov/genbank/ftp/
            0
            > Вам, скорее всего, не нужны сырые данные с ftp

            О нет, извините, но инструменты ваши меня не устраивают, а то что есть на ftp самое то

            > Вы серьезно полагаете, что сможете с кучкой энтузиастов на коленке сделать лучше? Вы хотя бы объем данных представляете?

            Да, думаю можно. Объемы не стоит преувеличивать — порядка сотен гигов все геномы которые есть. А так все бактерии — 20 гигов.

            Но, конечно, контакт с NCBI — помог бы… может они сами захотят исправить свои ошибки ;)
              0
              > «Ошибки» типа сдвига на 1-2-3 основания — это, скорее всего, не ошибки, а норма. Ключевое слово (одно из многих) — frame.

              О нет! речь не идет о белках в данном случае, речь о РНК. И рамка считывания тут не причем.

              > инструменты типа blast

              выравнивание тут не нужно, речь о другом.
              0
              Налицо полное непонимание основ секвенирования и принципов наполнения геномных баз данных.

              1. Сиквенсы бывают длинными и короткими. Для длинных велики ошибки чтения, для коротких — ошибки сборки.
              2. Секвенирование всегда ведется неоднократно.
              3. Различие в сиквенсах может свидетельствовать не об инструментальной ошибке, а о различных мутациях.
              4. Единого центра верификации нет, любой человек может послать последовательность. Люди используют в работе то, что считают нужным и явный шлак отбраковывают.
              5. Сиквенс отдельно от эксперимента в котором он получен — бессмысленен. Хотя бы из-за различных методик секвенирования.

              Ваши претензии сродны тем, что в яндексе по важным ключевым словам кроме правильных ссылок находятся кривые домашние странички и говносайты. Ну так, елси оно не нужно — фильтруйте, кто ж мешает.
                0
                Налицо не понимание того о чем вы читаете в моей статье — а бред который вы говорите я даже обсуждать не буду, так далеко вы не правы.
                  0
                  Впрочем, для читателя поясню, а то еще вам поверят :)

                  > 3. Различие в сиквенсах может свидетельствовать не об инструментальной ошибке, а о различных мутациях.

                  Речь именно о ошибках. В статье разжевано для малышей — написано что в организме №1 ген начинается с позиции N, а на самом деле он начинается скажем с позиции N-3. Почему? Потому что в другом организме №2 ген указан правильно. Берем его и идем обратно в полный сиквенс ДНК — и без проблем находим там правильную последовательность, для нее просто не правильно идентифицированно местоположение.

                  В общем для желающих я могу объяснить как это им посмотреть самим, если не верите.

                  > 1. Сиквенсы бывают длинными и короткими. Для длинных велики ошибки чтения, для коротких — ошибки сборки. 2. Секвенирование всегда ведется неоднократно. 4. Единого центра верификации нет, любой человек может послать последовательность. Люди используют в работе то, что считают нужным и явный шлак отбраковывают.

                  То как идет секвенирование тут совершенно не причем. А вот то, что нет элементарного кросс-анализа при верификации — это и проблема. Там не шлак — там просто неточные данные.

                  > Ну так, елси оно не нужно — фильтруйте, кто ж мешает.

                  Оно нужно, так как геномов бактерий всего 2000, а так я отфильтрую 60% — я предпочитаю исправить.

                    0
                    еще раз, правильность файла fna я проверить не могу. Речь идет о массовых ошибках в файлах .frn, .rnt (аналогично для белков, но это отдельных разговор).
                      0
                      Я сам не очень разбираюсь в геномных вещах, но могу вас связать с людьми, которые отвечают именно за это. Они вам объяснять, почему данные именно такие, а не другие. Сильно подозреваю, что это именно результат сырости. Используя правильные данные и правильные инструменты вы получите правильный ответ. Конечно, ошибки случаются у всех, но когда вы говорите про половину брака — это явно ваше непонимание происходящего, а не плохая работа профессионалов.
                        0
                        Нужно начинать с малого если говорить по сути. В статье описан «один самый простой пример» — давайте начнем с того, что вы признаете что в данном конкретном месте ошибка.
                      0
                      > любой человек может послать последовательность

                      Это не верно, любой био. институт да — но не человек
                      –1
                      Эта ветка дискуссии из темы рядом — на самом деле относится к этой статье. И мне стыдно за специалиста который так говорит… но судите сами.
                        0
                        Вы жа там бред несете. Еще раз: свяжитесь со специалистами, они вам объяснят, что к чему. NCBI отвечает на вопросы пользователей довольно оперативно. Если, конечно, это нормальный вопрос по делу, а не наезд профана, возомнившего себя гением в духе «вы там все дураки сидите, давайте я вас сейчас научу, как надо».
                          0
                          В чем же бред?
                            0
                            Впрочем давайте оставим эмоциональные оценки в пользу разговора по сути и на конкретном пример.
                          +1
                          Году так в 2003 когда этим занимался, мы тоже подымали вопрос об качестве секвенированных данных (искали рекомбинации в имунно-глабулиновых генах). Тогда пришли к мнению о 70% достоверности и возможности только статистических исследований. Сейчас наверное многое изменилось хотя я недавно статейку в «В мире науки»(SciAmerican) читал кок-раз про низкое качество данных для исследований и ограничений современных методов секвенирования. На первых порах наверное это не сильно влияло на исследования, но сейчас всё сильнее и сильнее.
                            0
                            реквестирую удаление или редактирование комментариев. >_<

                          Only users with full accounts can post comments. Log in, please.