Систематика прокариот — дальние родственники

    Еще летом я запланировал эксперимент и написал статью Использование UML для эксперимента по эволюционной систематике прокариот, и косвенно о психологии ученых. Результаты по грубой обработки уже были готовы к концу лета (спасибо, mktums за помощь ).

    Вот теперь образовалась пауза, и я добил эту тему, и представляю результаты.



    Метод



    (кое-что повторю из предыдущей статьи, чтобы не заставлять новых читателей ее читать)

    Основная критика статьи Интересные результаты о эволюционной систематике прокариот или «многовидовое происхождение» заключалась в следующей претензии "Нельзя рассматривать один ген в качестве мерила". С этим я полностью согласен, и этот эксперимент это исправляет в полной мере.

    Немного цифр. Сейчас в NCBI есть порядка 2000 геномов бактерий (3723 локусов). При подготовке к эксперименту, я выделил все тРНК, которые помечены таким образом. Их оказалось более 40 тысяч уникальных вариаций. Но увы, среди них много ошибок (порядка 50%, см. предыдущие статьи, где это обсуждалось подробно).

    Но я подумал, что можно пропустить этап полноценного исправления ошибок. Как это сделать? Я рассортировал указанные тРНК по длине и по наличию конца CCA на конце последовательности. Надо сказать, что последовательность CCA обязательна для любой тРНК, а длина может быть от 74 до 96 нуклеотидов.

    В NCBI есть много чудес вплоть до тРНК из одного нуклеотида, или более 1300 :) (без улыбки не скажешь). Поэтому я убрал последовательности, которые имеют длину до 70 и больше 100, а также те которые не оканчиваются на CCA.

    Их стало около 20000. Это наиболее вероятные тРНК, которые не содержат ошибок из NCBI. С оставшийся половиной тРНК — можно разобраться позже.

    На самом деле, для планируемого эксперимента без разницы содержит ли ошибки данная конкретная последовательность длиной 70-100 нуклеотидов или нет. Почему? Так как я собираюсь перепроверить по геномам 2000 бактерий, действительно ли есть такие последовательности — ошибки будут исключены. А тРНК это на самом деле или нет это дело второе. Главное, что у разных организмов совпадают значительные участки ДНК. Совпадение последовательности длиной 70-100 в геномах — дело далеко не случайное.

    Поэтому, что теперь я делаю. Беру этих 20000 тРНК и нахожу в каких бактериях они присутствуют. Если последовательность присутствует только в одном организме — это не интересно. И скорее всего это ошибочная последовательность. И таким образом отсеивается еще солидный процент ошибок.

    Если же последовательность есть в более чем в одном организме — это одна ассоциация (связь) между двумя организмами.

    Результаты



    В первой статье был сделан важный вывод, что

    Многовидовое происхождение сильно запутывает эволюционную картину, но с этим ничего не поделаешь — такова сложность видообразования, и нам нужно лишь их наиболее точно отразить в условиях, когда не все виды известны.
    И поэтому для адекватного описания нужны не филогенетически деревья. Как минимум можно говорить о половых деревьях с двумя родителями (для усреднения), а в общем случае граф.


    Также мне посоветовали отобразить граф с помощью Graphviz, что я и сделал. Но Graphviz зависает, когда число связей в графе больше 1000. А общий граф у меня получился на 6172 связи. Поэтому тут показываю лишь маленький фрагмент для наглядности. И даю ссылку на граф из почти 1000 связей.



    Здесь граф с наиболее сильными связями (опущены связи до 5 идентичных тРНК включительно)

    Каждая связь характеризуется минимальным-максимальным числом совпадающих (идентичных на 100%) генов тРНК. Связь рода с самим собой означает число идентичных тРНК внутри этого рода (т.е. как различаются виды).

    Некоторые выводы



    По сути это все надо еще визуально обработать, чтобы можно было бы объять визуально все это множество. На графе с 1000 связями есть много родов, которые не с кем не связаны — но если бы отобразить более слабые связи до 5 идентичных тРНК — то можно увидеть дальних родственников. (это я подумываю сделать следующим этапом, если есть желающие помочь — пишите).

    По сути, на этом основании многое совпадает согласно текущей классификации. Число идентичных тРНК хорошо иллюстрирует дальность родов друг от друга, чем меньше идентичных тРНК — тем более древний предок. Те рода, которые имеют мало связей — наиболее древние (т.к. секвенируют сейчас, а их популяция в настоящие время представлена отдельными видами). Анализируя их можно построить достаточно точно процесс начальной эволюции.

    upd. Убрал из графа двухсторонние связи (засоряли изображение). Общие число связей уменьшилось до 4551. Это позволило отобразить больший граф:
    Скачать изображение можно тут (11.2 MB). Тут граф с наиболее сильными связями (опущены связи до 3 идентичных тРНК включительно)
    Тогда видны связи (промежуточные виды) между двумя огромными доменами (выделяются на изображении, предположительно соответствуют Бета и Гамма протеобактериям), и другие детали. На сколько это соответствует текущей классификации надо сравнивать, но есть над чем подумать (просто детализация такова, что наверняка есть то, что не попало в текущую научную классификацию).

    upd2 Используя yEd Graph Editor получилось отобразить полный граф. Ниже мини картинка.



    Изображение получается плохо из-за связей не видно деталей, поэтому ниже файл в формате yEd Graph Editor, там по крайней мере можно увеличить, подвинуть и разглядеть. Если кто-то заинтересуется и сделает более обозримый граф — скажу спасибо :).

    Граф «Систематика прокариот (505 родов и 4548 связей между ними)»
    Share post

    Similar posts

    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 100

      0
      А чем рисовали графы, если Graphviz зависает?
        0
        Так им и рисовал, только пришлось брать не больше 1000 связей, поэтому на графе нет еще 3500 связей. Кстати, если кто знает чем можно нарисовать еще — посоветуйте.

          0
          matplotlib?
            0
            или даже networkx
              0
              А алгоритмы раскладки оно умеет?
          +1
          В GNU R есть такая штука, называется ape. Последний раз рисовал в ape граф с тысячей вершин и десятками (если не сотнями) тысяч ребер.
            0
            Тот же вопрос: неужто 100000 рёбер с автоматической раскладкой?
              0
              Ох, приношу свои извинения, перепутал пакет. Правильное название igraph. Причем пришлось откатиться на старую версию (igraph0 для R), т.к. новая на больших графах тормозила.

              Раскладку я делал в другой программе, она биологическая, использует кинетическое отталкивание. Я думаю, что часть layout'ов в igraph должна быть быстрой, например circle :)
                0
                Ну Graphviz на здоровой картинке разложил иерархически. И это выглядит как-то более-менее. Я сильно сомневаюсь, что семейство force directed выдаст что-либо удобоваримое на подобных размерах. Вот если подскажете что-нибудь свободное, что лучше Graphviz'а справляется с иерархической раскладкой на больших графах, я вам большое спасибо скажу :-)
          –2
          Одобряю этот пост!
            +2
            Как уже было сказано, тРНК — довольно плохая молекула для филогенетики, особенно на больших расстояниях. Исторически тРНК использовали лишь потому, что они короткие и их умели секвенировать.

            Сейчас при наличии полных геномов никакого смысла строить какие-то деревья по тРНК не осталось. Нужно либо самому взять полные геномы и бластом отыскать 16S, либо воспользоваться прекрасными готовыми базами данных (green genes, sliva).

            Ну и, собственно, где настоящие статьи с результатами?
              –5
              У вас одни голословные утверждения, даже ответить нечего.
                0
                Это как раз 16S плохая молекула для установления близости. Внимание аргумент (в отличии от вашего комментария) — молекула 16S подвержена мутациям, и нет практически не одной в разных организмах, которые были бы идентичны (в отличии от тРНК). Далее вы начинаете делать выравнивание (упрощая процесс мутирования) и делаете нелепые выводы на основании ошибочного выравнивания (а оно ошибочное почти всегда для длиной молекулы).
                  0
                  И кроме того, 16S — это всего лишь один ген, против 50-60 генов тРНК. Итого вы берете порезанные куски и ошибочно выровненные от одного гена, а я беру 50-60 генов, которые на 100% совпадают в разных организмах. Если разницы в пользу предложенного здесь не чувствуете, то это по меньшей мере странно.
                    +5
                    1) Помимо «голословных» утверждений существует довольно большой пласт работ на эту тему. Вот, в этом году в PNAS опубликовали работу по мутации отдельных позиций в 16S, например.
                    2) Аргумент — это отлично. Но публикация в реферируемом журнале — ещё лучше. Что касается самого аргумента, он базируется на разных предпосылках, которые ещё сначала стоит доказать, например, настолько ли ошибочно выравнивание, чтобы кардинально поменять результаты. Скорее всего не настолько.
                    3) 16S это полторы тысячи нуклеотидов, то есть почти 3 килобайта данных. 50-60 идентичных генов, это всего лишь 50-60 байт. Даже если в 16S только 10% позиций пригодны для построения графа, то это в пять раза больше информации. То есть с учетом шума 16S намного надежнее. Ну а если вы ещё учтете ужасное качество аннотации тРНК в NCBI, то совсем грустно становится.
                      –2
                      1. Публикация в реферируемом журнале — это научная политика, а не результаты.
                      2. Доказывать нужно как раз обратное, что выравнивание не ошибочно, вот вам для тренировки всего лишь два маленьких куска
                      gggagcccugucaccggaugugcuuuccggucugaugaguccgugaggacaaaacagggcucccgaauu
                      aagaggucggcaccugacgucgguguccugaugaagauccaugacaggaucgaaaccucuu
                      попробуйте выравнять правильно — это не сделает не одна программа
                      3. 50-60 идентичных тРНК — это 50*73 = 3650 нуклеотидов, причем находящихся в разных местах. Т.е. если совпадение такое то это в раз 5 стабильнее 16S. И даже хватает 5-10 идентичных тРНК, что будет сравнимо с 16S (как раз качество аннотации тРНК в NCBI у меня учтено, а вот качество 16S — такое же)
                        +5
                        1. Публикация в научных журналах — это в том числе способ проверить себя. А на айтишном ресурсе не так много специалистов, которые могут оценить качество ваших изысканий.
                        2. Ещё раз, незначительные ошибки в длинном выравнивании не сильно влияет на качество, например дерева. Т.к. позиций много, недостаточной «толстые» позиции выбрасываются + bootstrap — это инструмент, который позволяет оценить качество дерева на каждом конкретном узле.
                        Если вы мне по какой-то причине не верите и не хотите читать статьи по теме, проведите простой эксперимент:
                        Создайте случайную строку, промоделируйте эволюцию с мутациями, вставками и делециями. Затем выполните выравнивание, убедитесь что выравнивание действительно неверное (а это скорее всего так и будет).
                        Потом возьмите mafft+gblocks+phyml, если лениво, идите на phylogeny.fr, только обязательно с bootstrap. И посмотрите, как сильно настоящее дерево будет отличаться от полученного. Если вам нужны критерии сравнения деревьев, почитайте Фельзенштейна, например.
                        3. А какая разница сколько там нуклеотидов, если они по вашим словам идентичные? Это 0 бит. А если не идентичные, то ваш прежний аргумент уже не работает. Если не идентичные, то это нужно показать, рассмотреть насколько. Как бороться с плохой аннотацией (да, вы сделали фильтр по длине, но сколько вы в итоге потеряли)? Сравните, в конце концов, с результатами по 16S, и покажите, что ваш метод лучше. Или возьмите fusion из универсальных белков и сравните с ним.

                        Не обижайтесь пожалуйста, но пока что работа очень сырая. Методы описаны очень сумбурно, никакого доказательства того, что ваши подходы лучше общепринятых нет, только какие-то умозрительные рассуждения. Статей нет. Никаких биологических выводов нет.

                        Да, на it ресурсе вы можете сорвать плюсиков, потому что необычно и никто не способен дать критическую оценку. Но по сути такой нигилизм «статьи все куплены, а я один знаю, как правильно».
                          –1
                          Опять голословные утверждения… ну нельзя же так, а еще критиковать пытаетесь…
                            +3
                            По пунктам пожалуйста. :)
                            –2
                            > какая разница сколько там нуклеотидов, если они по вашим словам идентичные? Это 0 бит.

                            Бред да и только.
                              +1
                              Сюрприз сюрприз: идентичные позиции в выравнивании не дают вам никакой информации вообще (с точностью до масштаба), их можно только выкинуть. Вам даже это нужно доказывать?
                                –1
                                О чем Вы? Какое выравнивание? Какие позиции? Я этим не занимаюсь.

                                Вот что вам надо доказать:

                                Имеем 100 последовательностей Z0..99 длиной в 1000 знаков. Последовательности Z0..99 были образованны из одной путем перестановок.

                                На основании чего проще выстроить последовательности Z0..99 в виде дерева.

                                1. Имея идентичных 10 разных подпоследовательностей P1 в 70 знаков, которые совпадают в ряде Z0..99
                                2. Имея одну подпоследовательность в 700 знаков, но имеющую шум на 50% и не известно на 100% соответствует ли (стоит на том же месте) хоть один символ символу в другой последовательности (а на самом деле еще хуже)

                                Тут очевидно, что 2 способ вообще не дает ни каких гарантий.
                                  +1
                                  Ну эта задача плохо соотносится с реальностью. Во-первых, не только перестановок. Во-вторых, причины совпадения по пункту 1 далеко не всегда ортология. В-третьих, оценка шума у вас не учитывает его неравномерность (а это существенно). А главное в способе 1 у вас тоже есть шум, но вы почему-то считаете, что его нет.
                                    –1
                                    1. Ок, пусть будут любые изменения — тем хуже для метода 2.
                                    2. Снова сказки
                                    3. Мне учитывать шум вообще не надо — его у меня нет. А вы учитывайте.
                                      +1
                                      Да какие сказки? Про шум ниже написал.
                                        –1
                                        Ну, и что по вашему в той статье написано? Можно резюме своими словами? (у просто подозрение, что вы совсем не о том)
                                          +1
                                          Статья не о том, но там во введении рассмотрен вопрос разной степени консервативности различных участков.
                                            0
                                            Знаете с вами очень сложно говорить, вы говорите какими то отрывками… да, разные участки имеют разную консервативность — замечательно. И что? Если это использовалось для выравнивания — хорошо, ошибок будет чуть меньше. Но большая часть 50-75% не являются этой консервативной частью… и поэтому нельзя судить анализируя не консервативные части с полной достоверностью, какие организмы более или менее стоят ближе друг к другу. И тем более не возможно их выстроить в дерево — нет оснований для этого, кроме как фиктивного понятия близости строящейся на статистической оценки шума… а выдается это как достоверная мера — а это ошибки ошибок

                                            Если же вы о чем то другом — то не ясно о чем…

                                              0
                                              Ошибок будет существенно меньше. И «выстроить» дерево можно. И оно будет согласовываться с множеством других деревьев, чего не было бы, если бы шума было так много, как вы говорите.

                                              Почему фиктивного? Вы теперь и статистику отвергаете? Понятие близости построено на строгих статистических концепциях. И я даже как-то сравнивал различные меры и убедился, что они все очень неплохо и согласовано работают.
                                                0
                                                То что они согласованно дают ерунду — вполне верю. У вас нет четких оснований считать что организм А связан с Б. В то время как идентичные тРНК в двух организмах говорят 100% о их генетической связи.
                                                  0
                                                  Как они могут согласованно давать ерунду? :) Шум не должен коррелировать. Значит это сигнал. Какой? Эволюционный.
                                                    0
                                                    Нет, это «игра теней»… показывает лишь общую тенденцию, но не дает детализации. Т.е. для 100 организмов показывает что они чем то близки, но когда анализируешь 2-3 организма — то совершенно не ясно, кто из них эволюционно ближе/дальше. Нет возможности сказать, что этот организм произошел раньше этого, а этот позже. Это получается гадание на основе шума.
                                                      0
                                                      И главное, этот ваш классический подход не показывает какой организм является переходным между различными группами.
                                                        0
                                                        Раз тенденцию показывает, смысл сравнивать с ним есть.

                                                        Про два три организма, как правило, понятно, кто ближе, а кто — дальше.

                                                        А вот с другими вашими вопросами сложнее: дело в том, что в рамках классической эволюции мы не можем найти ответ на вопрос «A произошел позже, чем B?». Потому что мы смотрим только на современные виды, а происходили их предки, которые могли существенно отличаться. Я советую почитать об этом, или хотя бы подумать.

                                                        Про переходные организмы та же история: эволюция не остановилась тысячу лет назад и продолжаются, переходные организмы — это некие предковые состояния, которые впоследствии разошлись на несколько разных «ветвей». Так что среди живых организмов предковых состояний, увы, не сохранилось.

                                                        Это базовые концепции, к которым можно прийти либо размышлением либо прочитав релевантную литературу. Я вам все-таки настоятельно рекомендую ознакомиться с каким-нибудь базовым учебником. Даже если там есть ошибки и неточности, вам будет проще ориентироваться в области.
                                                          0
                                                          Эти сказки, про «в рамках классической эволюции мы не можем найти ответ на вопрос «A произошел позже, чем B?»» я в курсе, но категорически с этим не согласен. Это просто способ классической филогенетики расписаться в своей бесполезности. Надеюсь в нашей приватной дискуссии я смогу вам объяснить как эту проблему можно обойти.
                                                            0
                                                            А пока напишу одну аналогию. Есть куча машинных деталей, которые мы изготавливаем каждый год. Скажем есть детали 51-го года выпуска, 52-го… 60-го и т.д.

                                                            Теперь мы берем 1000 машин с наших дорог как случайную выборку. Но не знаем какую машину выпустили раньше, а какую позже. У нас есть только детали. Да и про детали тоже не маркированные и год выпуска не известен. Как же быть?

                                                            Первое что мы отмечаем, когда распотрошим капот машин, что некоторые машины сходны по деталям. Скажем 50 деталей у них просто идентичны. Да, есть еще 500 деталей, но все они хоть немного, но разные. Мы долго можем гадать о сходстве этих 500 деталей — только это будет гадание. Поэтому мы их возьмем и выкинем. А начнем анализировать только те детали, которые идентичны.

                                                            Тогда мы можем сказать, что если 50 деталей в машинах одинаковы — то их производили в более менее одно время, а отличия в 500 прочих деталях нам будут указывать только на то что их производили разные фирмы, и эти 500 деталей просто взаимозаменяемые, в отличии от 50, без которых машина не поедет. Эти 50 деталей характеризуют класс машин — на бензине, дровах, дизели, электричестве и т.д.

                                                            Теперь у нас есть из 1000 машин разделенных на 10 множеств, причем он в каждое множество могут входить разное число машин, что показывает как много машин успели понаделать такого или иного поколения.

                                                            Но как же узнать как эти поколения связаны. И тут мы понизим точность, но посмотри как совпадают машины если смотреть только по 7 деталям из этих 50.

                                                            Тогда окажется, что машины из 10 множеств стали пересекаться. Эти детали стали настолько принципиальны, что не почти все машины их имеют. Так мы находим связи между поколениями.

                                                            Теперь нам надо решить какие же машины сделали раньше, а какие позже. Тут мы посмотрим, что те из 7 деталей, которые объединяли множество машин в некоторых машинах постепенно пропадают, их становится 5, 3, и наконец вообще нет, но зато они имеют другие детали из тех 50.

                                                            Так вот это постепенное убывание и говорит о отметках времени.

                                                              0
                                                              на самом деле, все несколько сложнее в деталях, одно поколение, накладывается на другое и разделить их сложновато, можно лишь говорить о перекрытии.

                                                              Но чтобы идти дальше — надо осилить хотя бы эту начальную логику.
                                  0
                                  > Сравните, в конце концов, с результатами по 16S, и покажите, что ваш метод лучше.

                                  Снова говорите глупости, вам объясняют что сравнение по 16S — это глупость, а вы говорите проверять метод на глупости… не, занимайтесь этим сами и верить любому сравнению на 16S — нет ни каких оснований.
                                    0
                                    Любой новый метод полезно сравнивать с общепринятым, а как иначе доказать, что он работает лучше? А использование 16S — это именно общепринятый метод
                                      0
                                      Где доказательство эффективности этого общепринятого метода?
                                        0
                                        Finally.
                                        Доказательства есть, например, в статье Кунина, которую я вам уже советовал, но и в тысяче других работ.
                                        Главная идея вот в чем: эволюционный сигнал от 16S в целом совпадает с сигналами от других молекул. Чисто статистически такое совпадение объяснить невозможно.

                                        А где доказательства эффективности вашего?
                                          –2
                                          Нет, в тысяче нету. Не помню что вы мне что-то предлагали. Можно ссылку?
                                            0
                                            Посмотрите мои комментарии из предыдущего вашего поста.
                                              –2
                                              Не вижу. Повторить сложно?
                                                +1
                                                Если вы в тот раз не прочитали, то видимо не прочитаете и в этот. Зачем тратить на это время?
                                                Да, и вот вам три причины, почему tRNA плохи для филогении:
                                                — Они находятся под сильным влиянием аппарата трансляции [1]
                                                — Подвержены особенно сильному горизонтальному переносу [2]
                                                — Часто находятся вблизи мобильных элементов генома [3]
                                                1. Saks ME, Conery JS. 2007. Anticodon-dependent conservation of bacterial tRNA gene sequences. RNA 13: 651–660.
                                                2. Canchaya C, Fournous G, Brussow H. 2004. The impact of prophages on bacterial chromosomes. Mol Microbiol 53: 9–18.
                                                3. Williams KP. 2002. Integration sites for genetic elements in prokaryotic tRNA and tmRNA genes: Sublocation preference of integrase subfamilies. Nucleic Acids Res 30: 866–875.

                                                Но вы же и это не прочитаете.

                                                P.S. Посмотрю сейчас хорошую ссылку про доказательство.
                                                  0
                                                  — Подвержены особенно сильному горизонтальному переносу [2]
                                                  — Часто находятся вблизи мобильных элементов генома [3]

                                                  Вот замечательно то :) А это не эволюция? В том то и дело, что я исследую в том числе эффекты горизонтального переноса, как наиболее основной силе видообразования… вы только еще раз подтвердили, что я на правильном пути.
                                                    +1
                                                    Шум бывает разный. Горизонтальный перенос одной (консервативной молекулы) из бактерии в бактерию не говорит вообще ни о чем. Это тот же шум.

                                                    А вот основной (геномный) сигнал вы уже почти потеряли.
                                                    0
                                                    www.sciencedirect.com/science/article/pii/S0168952501025227
                                                    Вот статья, там в выводах есть про схожесть деревьев, полученных разными способами. Если вы потратите чуть больше времени, то найдете статью со сравнением различных молекул в качестве источника филогенетической информации.
                                                  0
                                                  Это Conservative Fragments in Bacterial 16S rRNA Genes and
                                                  Primer Design for 16S Ribosomal DNA Amplicons in
                                                  Metagenomic Studies?
                                        0
                                        > никакого доказательства того, что ваши подходы лучше общепринятых нет, только какие-то умозрительные рассуждения

                                        умозрительные рассуждения — это когда на основании зашумленных данных пытаются построить смешные теории, а потом печатают в научных журналах — и все думаю, что в этом есть хоть что-то. В этом нет ни какого доказательства, а мне почему то нужно эти глупости еще опровергать — мне есть чем заниматься, вместо того, чтобы опровергать «странные методы».

                                        Метод описан у меня достаточно просто и понятно для любого, более того на раз все поддается проверки в отличии от того, что написано в научных публикациях…
                                          +2
                                          Ваши данные зашумлены не меньше. Только вы почему-то отказываетесь проверять это.

                                          Я рекомендую вам ознакомиться с трудами Карла Поппера, чтобы понять, зачем вообще ученый занимается наукой, а также узнать про концепцию фальсифицируемости результатов исследований. Пока ваш подход больше похож на религию, чем на науку, увы.

                                          Раз вы не способны воспринимать критику или проводить исследования, которые могут опровергнуть превосходство вашего метода, то я не вижу смысла продолжать дискуссию.
                                            0
                                            Нет, мои данные не имею вообще шума.
                                              0
                                              Имеют. Ошибки секвенирования (это просто), ошибки аннотации (недоаннотированные), псевдогены.
                                                0
                                                По таким ошибкам — мой метод от вашего не отличается вообще. У вас же еще + ошибки выравнивания (а они на порядок существеннее)
                                                  0
                                                  В консервативных областях ошибки выравнивания минимальны, в силу особенностей 16S, о которых выше. 16S в геноме в нескольких копиях, поэтому псевдогены легко выкинуть. Секвенирование не так существенно влияет, т.к. мы не требуем полного совпадения и используем bootstrap, ошибки аннотации вообще не волнуют, т.к. мы ищем blastом.
                                                    0
                                                    Я так и знал, под ошибками аннотации мы понимаем разное. Напишите Вы, пожалуйста, что вы понимаете под ошибкой аннотирования ?!
                                                      0
                                                      а) Не аннотированный
                                                      б) Неправильно аннотированный
                                                        0
                                                        Тогда, что такое не правильно аннотированный?
                                                      0
                                                      В том то и дело, что поиск blastом — тоже дает ошибки, в отличии от моего поиска идентичных подпоследовательностей.
                                                        0
                                                        Если вы самостоятельно найдете мне хоть один эубактериальный геном, в котором PSI-BLAST не сможет отыскать 16S, то с меня шоколадка.

                                                        Лишние найденные отбросить тоже довольно легко. Хотя и требует работы.
                                                          0
                                                          а с чего уже эубактериальный, когда говорим все время о протеобактериях?
                                                            0
                                                            Эм. А вы и правда не в курсе, кто такие эубактерии? :)
                                                              0
                                                              путаю с Eukaryota в данном случае, ну а зачем мне знать эту странность когда её нет в классической систематике, например в NCBI
                                                                0
                                                                Да ладно, правда нет? :)
                                                                  0
                                                                  Ладно, уговорили — есть синоним :)
                                                                    0
                                                                    Там даже написано, чуть ниже, почему не стоит говорить «бактерии». Почитайте обязательно.
                                                                      0
                                                                      Ага, только сами они используют Bacteria ;)
                                                            0
                                                            И потом будте так добры — вот psi-blast
                                                            www.ncbi.nlm.nih.gov/blast/Blast.cgi?CMD=Web&PAGE=Proteins&PROGRAM=blastp&RUN_PSIBLAST=on

                                                            научите меня найти 16S в геноме? Я не вижу там полей, чтобы задать поиск 16S и как указать нужный мне геном.

                                                            (Сдается мне, что он этого вообще не ищет, или опять же мы говорим о разном)
                                                              +1
                                                              Значит во-первых, я бы посоветовал делать это на локальной базе геномов, а не через веб сервис.
                                                              Во-вторых, если вы не умеете пользоваться BLAST, я могу посоветовать вам учебник.
                                                              И это очень странная просьба, честное слово.
                                                              Все же я вам посоветую книги:
                                                              раз, два, три, четыре (последняя — это не шутка, действительно приличная книга).

                                                              Волшебной кнопки «найти 16S», действительно нет. Поэтому вам придется самому найти последовательность для поиска.
                                                                –2
                                                                Вот с того, что «Волшебной кнопки «найти 16S», действительно нет.» — и надо начинать. А все остальную вашу болтологию я пропускаю мимо ушей, чтобы не выругаться.

                                                                А теперь вернитесь назад и подумайте, что Вы написали «PSI-BLAST не сможет отыскать 16S» — он и не сможет. На вход вы уже должны дать хоть одного представителя 16S.

                                                                1. Откуда вы его возьмете? Из аннотирования при секвенировании — или как? или выдумаете сами ;)
                                                                2. Что сделает ваш бласт? Найдет что-то близкое к этой последовательности? И вы думаете она 100% будет 16S?
                                                                  0
                                                                  1. Из генома (аннотация для E.coli довольно приличная). Если сомневаетесь, проверьте по PDB. Или вы не верите в существование рибосомы тоже? :)
                                                                  2. Да, я так думаю. Более того, я проводил ряд опытов, которые это подтвердили. Почему найдет? Потому что у нас длинная область, с несколькими консервативными участками. Найденное можно безболезненно расширить. А потом «обрезать» по краям референсной последовательности. Плюс, помните, что 16S, как правило, присутствует в геноме в нескольких, практически, идентичных копиях. На основе этого легко можно вычистить 99% псевдогенов.
                                                                    0
                                                                    Вот тут рассмотрен один из методов. Он работает хорошо даже на большом масштабе. На маленьком масштабе можно его существенно упростить.
                                                                      0
                                                                      Ну, и где описаны эти опыты? И то как их воспроизвести? Почему бы не написать?
                                                                        0
                                                                        Ну это такой технический вопрос, обычно этим занимаются на курсовых студенты. На хабре этому точно не место. Попробуйте воспроизвести то, что по ссылке на геномах протеобактерий, думаю вы будете приятно удивлены.

                                                                        P.S. Если серьезно, я подумываю о том, чтобы написать на хабре про наши исследования (через месяц выходит статья).
                                                                        0
                                                                        вот элементарный эксперимент

                                                                        берем начальный символы 16S
                                                                        CATGGAGAGTTTGATCCTGGCTCAGGATGAACGCTGGCGGTATGCTTAACACATGCAAGTCGAACGGCAG

                                                                        и ищем в другом организме (в том же конечно, находит), пусть

                                                                        в Zymomonas mobilis subsp. mobilis ZM4

                                                                        и он вообще ничего не находит :) С вас шоколадка.

                                                                          0
                                                                          Пока нет, потому что надо брать всю 16S. :)
                                                                            0
                                                                            будет только хуже
                                                                              0
                                                                              Впрочем, ладно — действительно что-то нашел… видимо именно размер влияет…

                                                                              но это лишь пол проблемы… дальше надо делать выводы о мере близости и тут вообще все плохо…
                                                                              0
                                                                              Если хотите продолжить, то лучше пишите в личку.
                                                              0
                                                              Кроме того, у меня ошибки аннотации — исправлены.

                                                              Что касается, недоаннотированного — то такого объема как у меня с тем что есть НЕТ НИ В ОДНОМ ИССЛЕДОВАНИИ.
                                                            0
                                                            Если бы ваша критика была бы хоть немного приближена к реальности — её можно было бы воспринимать, а так полный бред. Не обижайтесь но это так.
                                                          0
                                                          > Да, на it ресурсе вы можете сорвать плюсиков, потому что необычно и никто не способен дать критическую оценку.

                                                          Обоснованную, возможно, не можем. Зато мы видим стиль ведения беседы — минусы говорят за себя (если их не вы, конечно, воткнули))
                                                            0
                                                            Стиль ведения беседы часто зависит от желания понять собеседника, и не как не коррелирует с оценкой исследования. Даже наоборот, иногда чем жестче беседа — тем больше есть смысла не соглашаться с двух сторон, это лишь показывает далекие начальные установки оппонентов.
                                                          0
                                                          Да, и я в прошлом комментарии рассказал, как собрать последовательности 16S, практически, идеального качества. Пользоваться ncbi для поиска 16S не стоит совсем.
                                                          0
                                                          Ах, да, у меня кроме того, это еще усреднено по видам внутри рода, т.е. это еще коэффициент умножения для стабильности от 2 до 5
                                                      –1
                                                      Автор топика влазит (уже не первый раз) на территорию генетиков. Генетики сейчас — это отдельная каста, субкультура, научный цех. Ключевой момент в этом цеху — близость к кормушке. Научная истина критерий вторичный и не очень важный. Могу привести кучу конкретных примеров, поскольку интересуюсь генетикой, когда известные ученые отрекаются от своих убеждений, дабы не выслали с США назад в Китай рис выращивать.
                                                      IT-субкультура на порядок демократичней субкультуры генетиков, несмотря на Microsoft, Oracle и прочих монополистов. Поэтому возмущения из цеха генетиков — вещь предсказуемая и ожидаемая. Уровень демократичности, принятый в IT, недопустим в классической генетике.
                                                      Автору — пишите еще, и нагло влазьте на чужие территории. Конечно же, Вы можете ошибаться, но помните, что Максвелл, теоремы которого проходят в каждом ВУЗе, ошибался на 85%, однако ж, без его исследований не было бы IT-индустрии.
                                                        0
                                                        Спасибо, конечно — я ошибаюсь, если посмотреть выводы сделанные в первой статье и посмотреть на граф в этой — то окажется, что в первой статье я спекулировал на исключении (далеком родственнике, который казался близким). Но действительно — надо влазить и делать :)
                                                          0
                                                          Именно так! Влазить и делать!
                                                          Сам все хочу детальней в генетике покопаться. Тем более, что значительная часть данных есть в виде файлов, в т.ч. можно даже свой геном получить в виде CD-ROM за 500$.
                                                          Ведь наш геном — это программа. И кому в ней разбираться, как не программистам?
                                                          +2
                                                          Вы знаете, очень удобно ссылаться на теорию заговора (хотя уверяю вас, я как раз пример человека, который в «генетику» пришел сбоку). Но просто исходя из вашего комментария получается, что критиковать вообще никого нельзя. А если его критикуют, то он точно прав, так что ли?
                                                            –2
                                                            Тут не идет речь о теории заговора, здесь идет речь о неприятии методов, которые идут не в общей конве текущей тенденции развития отрасли. А критиковать надо со знанием дела, а не явно отдавать бездумно предпочтение только общепринятым подходам/методам.
                                                              0
                                                              Вообще-то korvint говорит именно про теорию заговора:
                                                              Ключевой момент в этом цеху — близость к кормушке. Научная истина критерий вторичный и не очень важный. Могу привести кучу конкретных примеров, поскольку интересуюсь генетикой, когда известные ученые отрекаются от своих убеждений, дабы не выслали с США назад в Китай рис выращивать.
                                                              Наверное, korvint считает, что вы сейчас отберете мой хлеб и чтоб этого не случилось, мне срочно придется вас выслать в Китай. :)

                                                              Я с большим интересом и энтузиазмом отношусь к новым методам. Вот сегодня обнаружил интересную публикацию в неплохом журнале про филогенетику и тРНК, этот метод точно не является общепринятым. И, надеюсь, что по крайней мере вы мне не отказываете в знании дела.

                                                              А что касается критики, я по-прежнему считаю, что у вашего подхода есть ряд недостатков, перечисленных выше. Более того, их можно преодолеть, но для этого их нужно признать. Ну и я все ещё считаю, что предлагая новый метод, нужно хоть как-то подтверждать его применимость и сравнивать с общепринятыми.
                                                                0
                                                                Ну, давайте тогда поговорим, как по вашему можно преодолеть те недостатки, которые есть в моем методе. Это будет интереснее. (может, я тогда и признаю их наличие, просто пока недостатки моего подхода блекнут на фоне недостатков классического подхода — и я не могу назвать черное белым).
                                                                  0
                                                                  Отлично, готов пообщаться по XMPP/Google Talk. Жду в личку адрес.

                                                                  Здесь все-таки мы уже все зафлудили.
                                                                  0
                                                                  Более того, я не отрицаю полезность сравнения по 16S — но считаю, что это может быть лишь дополнительным методом к сравнению по тРНК. Оно позволяет сделать кое-какие выводы, когда не хватает выводов по тРНК (а такое есть, можно посмотреть последнею версию графа — там не все вершины соединены). Но выводы сделанные по тРНК — неоспоримые (они детерминированные), а выводы по 16S всегда будут спорный в силу их статистической природы.
                                                                –1
                                                                При чем тут заговор? Это классика социальной стратификации и социологии труда. Нам в летней школе читали. Если интересно, могу поискать ссылки. Меня там больше всего впечатлило сравнение современных профессий с закрытыми и полумистическими артелями средневековой Европы.
                                                                А насчет критики — покажу на примере. Когда я, зеленый аспирант, высказал новые идеи в области социологии и отправил свой автореферат директору РАН социологии, то директор РАН нашел время, чтобы лично со мной встретиться и покритиковать мою работу. Я реально спорил с директором и его помощниками, и по некоторым вопросам их реально переубеждал. Но что меня поразило, так это отсутствие враждебности, предвзятости и важности с их стороны. Они внутренне хотели согласиться со мной, но некоторые имеющиеся у них знания не позволяли им сделать это, и они просто говорили мне — а как же то, а как же это. После общения с ними я сильно переосмыслил свои идеи.
                                                                На мой взгляд, критиковать надо именно так, чтобы человек не потерял интереса к исследуемой проблеме. Критиковать доброжелательно. Тем более что современная наука лишь слегка приоткрыла тайны генетики, и много еще впереди.
                                                                  0
                                                                  Я могу рассказать вам точно такую же историю про аспиранта биоинформатика и советника министра. Закрытость биоинформатики — это скорее миф.
                                                                  Ну и учтите к тому же, сколько вы проучились прежде чем написать что-то, что хоть как-то осмысленно можно обсуждать.
                                                                  И да, с tac мы сейчас в процессе дискуссии, не понял, с чего вы взяли, что он потерял интерес.
                                                                    0
                                                                    Ну, это меня не так просто напугать «жесткой критикой», а так korvint прав чаще нужна более мягкая и вразумительная критика, предполагающая, что и оппонент в чем-то прав…
                                                              0
                                                              Я тут подумал какие лучше связи было бы правильно убрать. Пришел к выводу, что надо решать задачу «о нахождении максимального потока на графе». Только там вроде как надо указывать, какие истоки и какие стоки. И нужно чтобы поток прошел по всем вершинам.

                                                              1. может кто встречал реализации алгоритмов, которые это делают
                                                              2. как определить истоки/стоки — при необходимости задействовать все вершины
                                                                0
                                                                P.S. Ручками кодировать очень не хотелось бы, хотя на втором курсе это делал, но успешно все забыл :)

                                                                Only users with full accounts can post comments. Log in, please.