Проект «Геном прокариот» — научный стартап

    Этот проект был задуман давно. Лет 5 назад я считал, что многие результаты в геномике могут быть получены людьми далекими от биологии, коим я в полной мере являюсь. Конечно за это время я немного нахватался терминологии и немного узнал как работают специалисты. Но чем больше я узнавал как работают специалисты тем большие отторжение это у меня вызывало. Я считаю, что они явно много незаслуженно усложняют в результате чего непростая область становится непроходимой. В то время как все достаточно просто и качественно можно сделать. И да я с ними пытаюсь конкурировать (конечно, только в определенной узкой области), как бы наивно это не выглядело.

    Вся проблема этого проекта — это то, что я его единственный полноценный участник. Конечно, я успел со многими за это время поговорить и многие оказали реальное влияние на проект. Всем им спасибо. Понятно, что некоммерческий проект не сильно может рассчитывать на успех. Да, действительно за каждым научным проектом стоит солидные около миллионные вливания и команда серьезных ученных. У нас этого нет, а есть лишь гуманизм и энтузиазм.

    Поэтому в первую очередь я нуждаюсь в советах от тех у кого есть опыт в стартапе подобных проектов на не коммерческой основе. Во вторую очередь, нужна собственно команда программистов (от знания биологии, при необходимости, я вас освобожу :) ). А сейчас я хотел бы найти таких энтузиастов, которые могли бы обеспечить работу (скажем скромно) домашней веб-страницы проекта (прошу писать мне на почту tac@inbox.lv или личными сообщениями хабра). И конечно, важен любой другой отклик и предложения.

    А ниже я расскажу идею и то на что претендует проект, а также о текущих результатах, а они в худшем случае сравнимы с теми которые дают специалисты. Но я вполне самокритичен, поэтому всегда готов выслушать критику — желательно не в мой адрес, а в адрес проекта.



    От идеи к компьютерным экспериментам



    Сырую идею я излагать не буду, уже многое пройдено и было мной описано в прошлых статьях на хабре. [Впрочем пару слов вставлю, т.к. ниже многие жалуются, что я начал «с места в карьер». Основная идея/задача проекта понять как эволюционировали бактерии и как последовательно изменялась их ДНК. Для этого строим дерево дивергенции видов и анализируем их.] Я опишу новый, что называется полноприводный эксперимент. Но вначале мне надо ввести вас в проблематику и затем понять как оценивать полученные результаты эксперимента.

    Филогенетический сигнал


    Здесь попробуем обсудить этот термин, на который обратил мое внимание один биолог.

    При эволюционном происхождении животных от общего предка, считается что можно выстроить единую древовидную иерархическую структуру происхождения видов. При этом нет принципиальной разницы какие признаки брать за основу. Просто чем больше генов включается в анализ, тем меньше остается в дереве слабо обоснованных участков. В то же время если классифицируемые объекты не происходят от общего предка, то отсутствует единая древовидная иерархическая структура. Классификация таких объектов либо получается принципиально различной при использовании разных наборов признаков (генов), либо имеет принципиально не «древесный» вид.

    А вот совпадение получаемых «деревьев» построенных по разным признакам якобы говорит нам о наличии «филогенетического сигнала». И чем меньше различия между деревьями, построенными по разным наборам генов, тем более сильный «филогенетический сигнал» мы имеем. Но что важно, обратное не верно.

    Часто говорят, что этот сигнал действительно имеется и совпадает. Но это не совсем так, так мне попалась одна статья, которая несколько более критична на этот счет.

    Во-первых они указывают, что:

    Предполагается, что анализом множества генов можно усилить филогенетический сигнал до его превышения над шумом и добиться правильного разрешения конфликтов между различными генами. Но

    [идут ряд частных примеров]

    Все это говорит о том, что нынешние методы реконструкции филогении по большому числу генов не избавляют от артефактов, известных для единичных генов. Здесь точно так же могут сказываться допущения моделей эволюции, разница в скорости эволюции видов, ошибки выравнивания и выбора ортологов, недостаточная репрезентативность таксономической выборки. Для устранения артефактов мультигенного филогенетического анализа предлагается селекция данных, что, конечно, делает его не столь формальным. Таким образом, практика современной филогеномики показывает, что статистическая поддержка реконструкций филогении повышается с увеличением числа сравниваемых генов, однако высокий уровень статистической поддержки дерева в целом или его отдельных узлов не может служить показателем правильности филогенетической реконструкции.


    И во вторых задаются вопросом:
    Как же найти для проверки ген или нуклеотид, достойный безграничного доверия? Чем меньший геологический срок существовала стволовая группа, тем меньше вероятность, что выбранный наудачу ген будет нести синапоморфию, притом не подверженную гомоплазиям и реверсиям. Чтобы добыть наверняка выигрышный билет в лотерее, есть способ – скупить весь тираж. Учитывая скорость развития технологии секвенирования и компьютерной обработки, применительно к геномам это может через несколько лет показаться не такой глупой идеей. С другой стороны, если родственное сходство у видов большое, то оно обнаружится во многих генах из числа выбранных наудачу и даже, вероятно, в одном достаточно протяженном гене, как 18S или 28S рРНК.


    Это что называется классика биологии. А теперь попробуем подумать над этим.

    В предыдущих статьях на роль таких генов «достойных доверия» я предлагал и показывал, что получится если это будет ген тРНК. Этот ген ничем не хуже, чем рРНК, который сейчас пользуется «безграничным доверием». Но в этой статье [в продолжение её] я покажу далее, что будет если «скупить весь тираж». Но до этого надо разобраться, чем плох вариант когда «безграничным доверием» пользуется рРНК.

    И оказывается, что дело совсем не в выборе того или иного гена или нуклеотидной последовательности. И правильно, что мечтают (но странно почему не делают) о сравнении по большому множеству генов. Дело именно в методе. А он имеет статистическую природу, и те кто немного более трезво на это смотрят признают как выше в статье наличие проблем «Здесь точно так же могут сказываться допущения моделей эволюции, разница в скорости эволюции видов, ошибки выравнивания и выбора ортологов, недостаточная репрезентативность таксономической выборки».

    Все это по отдельности ухудшает так или иначе филогенетический сигнал. Больше всего претензий к ошибкам выравнивания (не буду объяснять, что это почитайте Википедию по ссылке). Именно из-за этого приходится иметь дело со статистикой, и связанными с этим ошибками. Правильно сделать выравнивание, особенно для небольших последовательностей сейчас не умеют — оно реально не учитывает консервативность некоторых фрагментов. Для этого нужно учитывать водородные связи в третичной структуре — но этого обычно при выравнивании не делается.

    Но рРНК, во-первых, длинная, во-вторых, по отдельности есть множество ошибок, но статистически они все же дают некий сигнал. А вот какого он качества мы ниже и разберемся на примере сравнения деревьев построенных по 16S рРНК и 23S рРНК (это самые длинные последовательности РНК из которых состоит рибосома). Такие деревья были получены в проекте The All-Species Living Tree. Но, а в третьих, сейчас пишут достаточное число статей по построению филогенетических деревьев, но вот такой вопрос как «анализ преобладания филогенетического сигнал над шумом» почему то не обсуждается.

    А что в альтернативе?


    Единственным вариантом, чтобы возразить на критику подобную выше приведенной («высокий уровень статистической поддержки дерева в целом или его отдельных узлов не может служить показателем правильности филогенетической реконструкции») состоит в том, чтобы перейти от статистических умозаключений, в которые здравый смысл не дает верить со 100% уверенностью, это перейти к умозаключениям детерминированного характера. А для этого надо избавится от выравнивания в анализе и выбрать те нуклеотидные последовательности, которые можно анализировать без выравнивания.

    Я удивлен, но специалисты этой альтернативы не предлагают и не видят. Хотя она как минимум показывает более стабильные результаты. Почему? Вот с этим давайте и разберемся.

    Ведь какое бы дерево я бы не дал в заключение доверие к нему будет не больше / не меньше, чем к другим деревьям. Но там строили специалисты (как например, в проекте The All-Species Living Tree), а тут вы скажите построил «шарлатан». И всегда найдутся возражения.

    Точно также любой метод уязвим для критики, пока нет доверия к результатам. Поэтому нам нужен критерий правильности результатов. На такой критерий претендует стабильность «филогенетического сигнала».

    Но прежде, чем его за такой выбрать — я хотел бы, чтобы читатель понимал бы почему вообще этот сигнал может быть нестабилен. Могут быть 3 причины:

    1. Эволюция не идет по Дарвину, т.е. попросту у организмов нет общего предка и никогда его не было. Учитывая, во-первых, что сейчас есть явление горизонтального переноса, а во-вторых, что гипотеза о РНК-мире уже практически доказана, и тогда отдельные организмы могли возникать независимо друг от друга — эволюция по Дарвину на самом деле под большим вопросом. Поэтому тут мы просто согласимся с тем, что человеческому уму просто удобнее иерархически рассматривать происхождение видов и эволюция по Дарвину для нас просто удобный способ представления информации, аналогично рисованию графиков взамен текстовой информации.
    2. Ошибки метода. Так например, выравнивание, к которому выше я высказал большое недоверие. Именно из-за неверного выравнивания происходит отклонение сигнала в большой мере.
    3. Разное количество примеров в выборке.

    Когда у нас есть влияние всех трех причин, мы не можем с полной уверенностью отличить полученный шум — это объективная причина или субъективная. Т.е. мы не можем сказать или проблема в нашем методе, проблема в нашей репрезентативности выборки или все же эволюция идет не совсем по Дарвину.

    Исследователи очень легко могут сказать «а знаете наш метод работает идеально, выборка замечательная, а те мелкие погрешности которые вы видите — это просто так оно в природе и есть». Но во-первых, давайте будем измерять количественно погрешности. Во-вторых, заменим статистический подход на детерминированный. В третьих, сделаем анализ всего доступного для детерминированного подхода.

    Преимущество детерминированного подхода


    Чтобы продемонстрировать преимущество детерминированного подхода я предложу мысленный эксперимент. Его можно в реальности сделать экспериментально, но просто публика устанет от сухости изложения, и главное со времен Аристотеля мы знаем, что эксперимент не доказывает ничего в абсолютных категориях, а лишь позволяет сказать «на этих данных мы видим это, но это не значит, что не может быть по другому». А нам нужно судить именно в абсолютных категориях.

    Итак мысленный эксперимент. Сравним статистический и детерминированный подход. В статистическом мы анализируем 1000 организмов на одном гене 16S рРНК, который имеет большую длину около 1600 символов (а это делается в подавляющем числе случаев при исследовании). Допустим у нас есть достоверный набор рРНК для всех 1000 организмов. Но для построения филогенетического дерева нам нужно сделать выравнивание. Но перед выравниванием разделим рРНК на две равные части и сделаем выравнивание и последующие построение дерева по первой и по второй части отдельно.
    Так как выборка одинакова 3-я причина не оказывает влияния. На 1-ю причину мы договорились не ссылаться. Но очевидно, что выравнивание хоть в малой степени повлияет на вид дерева, т.к. там вычисляется некое эволюционное расстояние, а оно для разных частей хоть немного но будет отличаться. И в результате первое и второе дерево будет отличаться и это будет 2-я причина — ошибка метода.

    Что имеем для детерминированного подхода. Тут мы ориентируемся на такие гены, которые в разных организмах полностью идентичны, но они не могут быть длинными, т.к. все длинное с большей вероятностью подвержено мутациям. Но вместо одного гена в 1600 символов, мы располагаем набором из 10-20 генов по 70-150 символов. Таким характеристикам, например, соответствует гены тРНК. Опять же предположим, что мы обладаем достоверным набором этих генов. Тогда вопрос заключается в следующим: если последовательности тРНК разделить на две части и построить два разных дерева — они совпадут или нет? Ответ: они совпадут на 100%. Это связано с тем, что при построении дерева на самом деле последовательности заменяются на идентификаторы, и далее все манипуляции происходят на основании лишь комбинаций генов. Поэтому если гены были правильно идентифицированы на основании половины последовательности, то дальше искажений не будет.

    То есть в идеальных условиях и одинаковости выборки детерминированный подход имеет явное преимущество, и не имеет ошибок 2-го рода.

    А дальше можно говорить об ошибках 3-го рода и как они влияют на филогенетический сигнал. Но мы должны понимать, что в детерминированном подходе мы только и имеем ошибки 3-го рода, а в статистическом, который принят сейчас повсеместно, мы не можем разделить влияние ошибок — «шума» 2-го и 3-го родов.

    Собственно эксперимент



    №1. Сравнение деревьев 16S и 23S


    Итак нам надо сравнить между собой два дерева построенному по гену 23S рРНК и построенному по гену 16S рРНК являющиеся последним результатом проекта The All-Species Living Tree.

    Но сравнивать можно лишь сравнимые вещи. И тут самое время поговорить о том как измерять величину ошибки 3-го рода, т.е. то как влияет величина выборки и её состав на результат. Специалисты тут бы нам предложили бы заняться статистическими изысканиями какие бы то распределениями вероятности, оценками смещения, дисперсии и т.п. мутными индексами и ничего не говорящими коэффициентами. В противовес мы должны сравнивать так, чтобы каждая цифра позволяла бы понять, что это означает.

    Во-первых, формат филогенетических деревьев скрывает одну важную вещь — в них не отображается явно родитель, хотя он там есть как пересечение линий на одном уровне. По сути тут нам надо решить вопрос конвертации формата .newick например в формат .gml, т.е. получить полноценное дерево, где будут все предки иметь название.

    Во-вторых, дело в том, что данных по гену 16S почти в 10 раз больше. И нам нужно убрать такие листьях деревьев, которые есть в дереве 16S, но их нет в дереве 23S, и наоборот. Только тогда мы получим то, что можно между собой сравнивать. Но после такого удаления (обрезания) «листьев» на дереве, которые мы не имеем возможности сравнить, могут остаться предполагаемые их предки и если они больше не имеют других «листьев», то их тоже надо убрать, чтобы они не засоряли дерево.

    В-третьих, и это наиболее важно, выше сделанное описанное обрезание не решает всех проблем приведения дерева к одному знаменателю. Может возникнуть ситуация, что предок имеет только один лист, а этот предок имеет в свою очередь опять только одного предка, и так несколько раз. Т.е. в результате на дереве мы имеем «длинные нити». Все эти «единичные» предки не позволяют нам сравнить с другим деревом (23S) в которых этих предков нет, т.к. оно строилось на другой меньшей выборки, и естественно, что большая выборка заставляет предполагать большое число предков, чтобы более точно отобразить дивергенцию видов. Но чтобы это было сравнимо надо исключить таких «единичных» предков, а листья от них поднять на такой уровень, где есть предок больше чем с одним листом (т.е. где есть реальная дивергенция).

    Этот процесс «подъема листьев в места дивергенции» снова оставит предков, которых можно исключить и этапы 2 и 3 нужно повторять пока не будут исключены все лишние предки.

    Маленькая зарисовочка для понимания:



    Справа вариант до всех манипуляций. По центру вариант, где обрезан лист «Escherichia_albertii», которого нет в сравниваемом дереве. Слева вариант, где убран излишний предок «n23». В реальности все более серьезно из 18000 узлов остаются нужных только 3000. Может также создаться впечатление, что убраны важные предки, но если их не убрать результат сравнения будет только хуже, так как в меньшем дереве «убранные» предки появится не могут, а сравнивать все же надо сравнимые вещи, а не «чайник с кастрюлей».

    Теперь если строго подходить к сравнению, то совпадение деревьев это тогда, когда листья имеющие одного родителя в одном дереве имеют также одного родителя в сравниваемом дереве. И мы можем подсчитать число таких случаев. Но чтобы оценить близость надо также иметь некоторое распределение ошибок. Величину ошибки можно посчитать так. Если пара «листьев» в одном дереве имеет одного родителя, то в сравниваемом дереве мы находит их наименьшего общего предка LCA и считаем число промежуточных предков от одного листа до LCA и от второго до LCA — полученные числа складываем и наносим как точку на распределение ошибок.

    В итоге имеем такой график, порядка 50% правильных случаев, а остальные несколько ошибочны, ошибка правда затухает.



    Как видим у специалистов все далеко от идеала, сигнал получается где-то на 50% зашумленный и далее хоть и пробивается какая-то закономерность, но неустойчивая. Поэтому есть что улучшать.

    Продолжение следует…


    Получается как-то длинно, поэтому результаты детерминированного подхода, я вынесу в отдельную статью. Там мы посмотрим на сколько удастся улучшить качество эволюционного дерева (филогенетического сигнала). Эксперимент в полной мере не закончен, но я надеюсь на лучшие :)

    P.S. upd. Есть высокая вероятность, что вопрос с сайтом будет решен. Спасибо хорошим людям :) Теперь в команду нам требуются главный редактор сайта / имиджмейкер — так сказать умеющий поправлять как грамматику, так и смысловую коррекцию текста, чтобы мой «нахальный стиль» не коробил специалистов, и был в тоже время понятен простым людям.

    Only registered users can participate in poll. Log in, please.

    Сложен ли текст этой статьи?

    • 63.3%Я программист и мало понимаю в биологии, текст для меня сложен и непонятен88
    • 17.9%Я программист и мало понимаю в биологии, но текст для меня понятен25
    • 10.7%Я разбираюсь в биологии, текст для меня сложен и непонятен15
    • 7.9%Я разбираюсь в биологии, текст для меня понятен11
    Share post

    Similar posts

    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 110

      +13
      Честное слово, несмотря на незаконченное медицинское, после нескольких абзацев появляется стойкое желание «scroll-scroll-scroll».

      Искать программистов, а потом писать кучу узкоспециализированного текста, причем без научнопопулярного введения — это плохая идея.
        0
        Т.е. вы хотите сказать, что написанный тут текст непонятен программисту? (на мой то взгляд — это и есть научпоп, в чем я ошибаюсь?)
          +2
          Мне термины понятны. Многим программистам текст вполне может быть непонятен.

          Вы пытаетесь объяснить идею и привлечь людей, но не описываете в начале простым языком цели проекта, практический смысл, да даже не даете краткую постановку задачи для компьютерного моделирования.
            +1
            Цели проекта элементарны — изучить геном прокариот, построить дерево происхождения видов, сделать выводы о ходе эволюции. Тут то и описывать нечего, поэтому я и сосредоточился на деталях. Практический смысл — это указать как нужно исследовать данный вопрос, а пока тут дано лишь то какие результаты есть у специалистов, и так сказать показано, что может быть в альтернативе.
              +2
              Ну вот написали же кратко, а говорили, что нельзя.
                0
                Не, ну если об этом речь — то ок. Но вряд ли это что-то дает…
                  0
                  Это как нисходящее проектирование: вы начинаете с более высокого уровня абстракции, потом переходите к низкому. Так легче воспринимать статью--сразу знаешь, куда автор ведет, чего ожидать; сразу видишь за лесом деревья; легче выделять структурные блоки, выделять важное в статье, можно сразу понять, что статья неинтересна, и т.п.

                  В научных статьях обычно 3 уровня абстракции: abstract, introduction, сама статья.
                    0
                    Нет, дает, я вот все проскролил, но из этого все стало ясно.
                  +1
                  Несколько замечаний:

                  1. цели неизмеримы. Лучше если б это было «написать 2 статьи за 2 года/привлечь 100500 млн инвестиций за 2 года»

                  2. цели нереальны. «изучить геном прокариот, построить дерево происхождения видов»--это то, чем занимаются тысячи ученых по всему миру много лет. Вы можете быть даже умнее их, но у вас нет столько времени (даже если взять всю вашу жизнь, без сна и еды). И у вас нет экспертизы и опыта. И, скорее всего, вы не умнее их большей части. И если вам кажется, что они просто дурачки, и не замечают каких-то очевидных подходов, то, скорее всего, это не так.
                    0
                    Вот именно «занимаются тысячи ученых по всему миру много лет», поэтому то я это написал лишь как уровень до abstract. Потом надо немного отличать научную статью, от статьи на хабре :) — цели разные.

                    В introduction же говорится о детерминированном подходе применительно к «целям». Это то, что отличает меня от «тысячи ученных». Ну, и зачем «дурачки» я такого нигде не говорил. Но детерминированный подход они не используют.

                    А вот в самой статье начиная с раздела «Собственно эксперимент» — я начал говорить, что им детерминированный подход есть для чего использовать, и далее собственно то что я собираюсь написать в следующей статье покажет на сколько…

            +3
            а можно кратко описать суть статьи?
              –5
              Еще короче? Нет, нельзя.
              0
              Я считаю, что вам надо проконсультироваться со специалистами в этой области, притом обязательно с теми, у которых есть публикации в рецензируемых международных журналах по этой теме. Вероятно, вы услышите немало критики. Еще лучше попробовать опубликовать статью в рецензируемом международном журнале--вы тоже, вероятно, услышите немало критики. Я считаю, это может очень помочь в расстановке приоритетов, оценке собственных ресурсов и качества результатов. Так вы сэкономите свое время и время людей, которых хотите привлечь к проекту.

              Кроме того, мне кажется, вашей основной задачей должна быть публикация статей в международных профильных журналах--иначе никто из отрасли о ваших результатах не узнает, а те, кто узнает--не поверят (потому что результаты не прошли peer review).
                0
                А я вот как раз считаю, что это вторично. Писать статьи в международных журналах — опыт я имею. Там часто критика не касается сути статей. Разговаривать со специалистами — тоже было. Да, они могут критиковать — но «что слова» — а анализ результатов действительно специалистов — я тут вам и показал (последний раздел, это то что делает проект The All-Species Living Tree, у которых множество статей — только вот результат слабоват). Поверьте такое они не напишут не в одной статье, там все прилизано и если «что-то не так» внимание читателя отвлечено другим.
                  +1
                  1. опыт, видимо, неудачный. Для этого статьи и рецензирование и нужны--чтобы отсеивать неподходящий материал. Вместо того, чтоб продолжать писать статьи на хабр в свободное время, лучше вам подумать, что именно не так в вашем подходе. И если уж совсем интересно, найти профессора в Европе/США (по вашей теме, computational biology, computational genetics), подать заявку на PhD и поработать full-time 4 года над этой темой.

                  2. Критика иногда не касается сути, но в основном касается. Рецензенты, конечно, тоже разные бывают. Ну и характер замечаний разный--major, minor, critical.

                  3. Ваш анализ результатов меня, даже как дилетанта, не устраивает:
                  серьезные замечания:
                  а. детерминистический подход в принципе не может работать--во всех генах присутствуют случайные мутации, это одна из основ эволюции. Поэтому стохастический подход явно лучше детерминистического.
                  б. Сравнение двух деревьев--это стандартная задача. Вы их сравниваете явно кустарным способом. Потрудитесь поискать хоть что-нибудь об этой теме.
                  мелочи:
                  в. «распределениями вероятности, оценками смещения, дисперсии и т.п. мутными индексами и ничего не говорящими коэффициентами» Если вам, как программисту, не читали основы теории вероятности--то это ваши проблемы. Почитайте курс лекций какой на досуге (курсера, напр), и научитесь разбираться в мутных индексах.
                  г. у вас нет ни одной (!) ссылки на научные статьи. Это не вызывает доверия--может, вы вообще в теме не разбирались.

                  4. если результат The All-Species Living Tree слабоват, то обычно появляются статьи с критикой--это же выгодно критикующим (к ним сразу пристальное внимание). Она вполне может быть очень жесткой (пример из физики, правда).

                  В общем, я считаю, что вы напрасно тратите свое время и время людей, которых привлекаете. И даже если ваши результаты будут чего-то достойны, о них никто не узнает и на них никто не обратит внимания. Кроме того, глупо думать, что если вы хороший программист, то легко войдете в генетику и расскажете тысячам пацанов, что они 30 лет были неправы, и вообще все разложите по полочкам (так называемый «синдром программиста»).
                    –3
                    Ну, считайте как хотите… опыт у меня разный, правда несколько по другой теме… и статей 10 я опубликовал, а «крестиком вышивать» в PhD нет никакой необходимости…

                    Короче потрудитесь разобраться и понять, и написать хоть что-то по сути, а такая поверхностная без претензии на содержательность критика меня волнует мало.
                      –3
                      А в этой теме — я намерено думаю продвигаться неформальным способом — думаю он более оправдан.
                        +1
                        Вот еще немного критики, раз старая не понравилась вам:
                        1.
                        Да, метод «собственный» сравнения деревьев, но он простой и ясно показывает, что нужно. Мне не нужно для элементарных вещей изучать что-то еще, что не дает такого же четкого результата.


                        Пример: мы хотим сравнить две строки--посчитать расстояние между ними (это могут быть как раз последовательности нуклеотидов). Строки «ABCA» и «ACBA». Вы придумаете кустарный способ, и будете считать число удалений и число вставок букв в певрую строку, чтоб получить вторую. Получите расстояние 2 (удалить B слева от C, вставить B справа от C). А есть нормальный алгоритм сравнения--расстояние Левенштайна. Он даст расстояние, равное 1 (поменять местами B и C) (в ДВА раза меньше, чем ваше кустарное). Алгоритм надо выбирать в зависимости от задачи, и для сравнения генов используется как раз расстояние Левенштайна. То есть ваш кустарный способ будет давать систематическую ошибку вплоть до 2 раз.

                        Так же и с деревьями--ваш кустарный способ может давать систематическую ошибку в несколько раз, и ваш график в конце статьи сейчас можно смело выбрасывать.

                        2. Важное замечание. Ваш график ошибок не показывает, что ваш метод работает правильно, а TASLT--неправильно. Он показывает, что два метода дают разные результаты. И, поскольку TASLT--код проверенный, свободный, результаты опубликованы во многих журналах, прошли peer review, я, как непредвзятый читатель, скорее подумаю, что это ВАШ метод неправильный и ошибочный. Может, у вас просто баги в коде. То есть вы делаете принципиально неправильный вывод из этого графика.
                          0
                          1. Смешная критика — сами придумали что-то, приписали мне, покритиковали то, что сами придумали приписав мне… смешно, оригинально.
                          2. Еще смешнее, мои результаты я еще даже не озвучивал — а уже мой метод работает неправильно :) А далее, «поклоны погонам» — раболепие в крови… понятно когда сами ничего посчитать не можем даже элементарное как здесь — надо рассчитывать на peer review… не это же проблема в самом деле, опубликовать мой метод не проблема.

                          Мой график ошибок показывает однозначно, то что деревья построенные TASLT по разным генам 16S и 23S совпадают лишь на 50%, еще в 30% ошибка не большая, а в 5-15% ошибка существенна.

                          Поэтому в целом этим деревьям можно доверять как 50 на 50 (ну немного больше).
                            –1
                            Я постарался привести простой доступный пример, когда кустарный метод дает систематическую ошибку, хотя выглядит очень даже ничего. Вам я ничего не приписывал. И систематическая ошибка может присутствовать в вашем кустарном методе сравнения деревьяв. Пока вы не докажете обратное, графику верить нельзя.
                              0
                              Берите проверяйте — как можно доказывать человеку, который ничего не читает и не проверяет?
                                –1
                                Это ваша задача доказать мне, что ваш метод работает. В научном методе и других областях знания (судебная система, напр) есть специальный термин для этого--burden of proof, бремя доказательства. А вы делаете типичную ошибку--перекладываете это бремя на меня (читателя).
                                  0
                                  Это не так, я все доказал уже. А Вы хотите убедится. Я предоставляю вам для этого все что нужно (начнем хотя бы с малого, см. пример ниже). Но вы ничего не делаете, чтобы убедится (не пошли и не проверили, отличаются ли расположение этих видов). Тут не нужны мат. выкладки — нужно всего лишь посмотреть «есть стул под столом, или нет».
                          0
                          И еще — вы уверены, что есть метод сравнения деревьев:
                          1. назовите мне название
                          2. назовите его отличия от моего метода

                          (в силу элементарности — даже если такой метод есть, то или он будет чего-то не учитывать, или он будет такой же как у меня)
                            0
                              0
                              Словами!
                                –1
                                Простите, я вам ничего не должен. Хотите--читайте, не хотите--не читайте. Но не удивляйтесь, что вашим результатам никто не поверит.
                                  0
                                  А в таком случае — перестаньте писать ерунду, т.к. вы не понимаете о чем говорите.
                                    0
                                    Вы даже не понимаете о каком сравнении деревьев идет речь!
                                  0
                                  + это все мимо! Вы не понимаете о чем говорите, точнее подсовываете мне, не утруждая себя обдумыванием, всякую ерунду не относящуюся к делу.
                                0
                                А по поводу багов — так в чем проблема, возьмите деревья из TASLT и сравните / проверьте сами… и тогда поговорим.
                                  0
                                  Вот вам для примера откройте одно дерево и второе, посмотрите как далеко расположены два вида
                                  Caldicellulosiruptor saccharolyticus и Dictyoglomus thermophilum, в одном дереве они будут близко, в другом далеко! Чтобы это значило?… Могу таких примеров дать целую кучу — сверять будите? Нет, тогда оставьте свои домыслы при себе!
                                –3
                                Ну, отвечу только на серьезное заблуждение:

                                «во всех генах присутствуют случайные мутации» — это не так, и именно поэтому возможен детерминированный подход.
                                  –2
                                  Перепроверить проект The All-Species Living Tree — можно любому за несколько дней — нет доверия моим результатам — дайте свои, а огульно плести чушь — может каждый!

                                  Да, метод «собственный» сравнения деревьев, но он простой и ясно показывает, что нужно. Мне не нужно для элементарных вещей изучать что-то еще, что не дает такого же четкого результата.
                                +3
                                Автор тут не первый месяц. Специалистов он не любит, т.к. они его регулярно тыкают носом в школьные ляпы. Эдакий Петрик от генетики.
                                  –1
                                  Настоящих специалистов я люблю, особенно когда они говорят по сути, а не «хватаются за погоны». А вот «специалистам», хватающимся за погоны — их логику жизни — я действительно игнорирую. И еще раз я же просил — критиковать результаты, а не меня.
                                    +2
                                    Статья получила наивысшую оценку по критериям псевдонаучности
                                      –4
                                      Ага, «а судьи кто»?
                                        0
                                        Вы хотели критику? Вот вам и критика, все чётко и по пунктам. Нужно следовать определенным правилам, если хотите, чтобы серьезные люди воспринимали Вас всерьез.
                                        Эволюция не идет по Дарвину, т.е. попросту у организмов нет общего предка и никогда его не было.

                                        Теория Дарвина объясняет не происхождение жизни, а её разнообразие
                                          –3
                                          О каких пунктах речь?

                                          «Теория Дарвина объясняет не происхождение жизни» — да ну? («курите» — Дарвин Ч., Происхождение видов путем естественного отбора)

                                          И не отвлекайте серьезных людей своими глупыми придирками, а не обсуждением сути статьи.
                                            0
                                            «Дарвин Ч., Происхождение видов путем естественного отбора» — где именно тут упоминается происхождение жизни? И где Дарвин утверждает что все организмы происходят от общего предка?
                                            Горизонтальный перенос, в свою очередь, это такая же теория разнообразия видов, которая скорее дополняет теорию Дарвина, объясняя причины возникновения мутаций, а не замещает её.
                                              –2
                                              ну, основы дарвинизма нужно знать — и тут не место вас учить… тем паче при таком отношении. Давай, до свидания :)
                                  –2
                                  А вообще я несколько в замешательстве. А давайте всем кто пишет на хабр — будем говорить «пишите в рецензируемые журналы», иначе «никто ничему не поверит». Может автор лучше знает куда и с какой цель он пишет, об этом не задумывались?
                                  0
                                  Прочитал 1 раз. Как программисту из всего текста мне пока понятна идея сравнения деревьев. тРНК, рРНК, необходимость выравнивания пока ни о чем мне не говорит — видимо надо что-то вводное читать.
                                    0
                                    Ну, вы поняли самое главное — уже хорошо. Действительно на хабре я написал почти десяток статей на эту тему — если есть желание разобраться посмотрите мои статьи в хабе Биоинформатика. Ну, и всегда можно меня спросить :)
                                    0
                                    Так как статья для «обычных» людей просьба писать в начале краткое содержание человеческим языком, а то ничего не понятно — да есть выкладки, ошибки, метрики, но в чем изначальная проблема? Явно же в этих сложных изысканиях сокрыт какой-то простой «обычночеловеческий» вопрос, ради которого все это и исследуется
                                      –1
                                      Всем хочется кратко, и лень читать/разбираться я понимаю.

                                      Можно начать так (для программистов читать задом на перед статью):

                                      1. Надо открыть ссылки на построенные эволюционные деревья
                                      «Итак нам надо сравнить между собой два дерева построенному по гену 23S рРНК и построенному по гену 23S рРНК являющиеся последним результатом проекта The All-Species Living Tree
                                      2. Дальше в статье описано как можно сравнить эти деревья (понять общие принципы).
                                      3. Дальше почитать про филогенетический сигнал, который есть результат сравнения этих деревьев
                                      4. Подумать вместе с автором статьи — почему это филогенетический сигнал не столь четкий и как его можно улучшить.

                                      А если уж совсем «легковесно» — то задача проста как некогда — понять как эволюционировали бактерии и как последовательно изменялась их ДНК.
                                      +3
                                      Текст сложен не в научном плане, он просто сложно написан, начиная с самого первого «Этот проект был задуман давно.» которое можно спокойно выкинуть, учитывая что дальше идет «Лет 5 назад я считал, что многие результаты в геномике ...».
                                        –1
                                        Ну, думаю эти строки все хорошо поняли :) а если дальше «выкидывать» — то станет совершенно не ясно… Ну, и потом — давайте обсуждать, что именно сложно/неясно т.д. — в дискуссии я готов пояснять, другое дело, что должно быть желание разобраться… и тогда все будет легко, ведь я ровно такой же программист как многие тут… и ничего кроме желания у меня 5 лет назад не было…
                                          +1
                                          Вы не поверите, но мне даже этот комментарий сложно читать…
                                            –5
                                            Ну, тогда может «Курочка ряба» будет в самый раз :)
                                        0
                                        Вы б вначале написали, какой «этот» проект задумывался :(
                                          0
                                          я ж уже даже вставил

                                          [Впрочем пару слов вставлю, т.к. ниже многие жалуются, что я начал «с места в карьер». Основная идея/задача проекта понять как эволюционировали бактерии и как последовательно изменялась их ДНК. Для этого строим дерево дивергенции видов и анализируем их.]

                                          +1
                                          Тогда вопрос заключается в следующим: если последовательности тРНК разделить на две части и построить два разных дерева — они совпадут или нет? Ответ: они совпадут на 100%.

                                          Что вам мешает разрезать геном на две части и получить точно такую же кроссвалидацию?
                                            0
                                            Нечто подобное я и собираюсь сделать (придется подождать следующую статью, уже скоро)… Но в цитате говорится немного о другом. Там было важно понять, влияет величина и состав выборки или же это ошибки метода. Так вот в детерменированном подходе возможно влияние только величины и состава выборки, в то время как в статистическом обеих факторов.
                                              0
                                              Если разрезать геном (а не набор подстрок) на две части и провести кроссвалидацию, то получатся разные деревья и вылезет ошибка метода. «Ошибка метода» присутствует всегда, какой бы метод ни был.
                                                0
                                                Если разрезать геном — то будет разный состав выборки, а не «ошибка метода»
                                                  0
                                                  Если разрезать ген 16S — то будет разный состав выборки, а не ошибка метода.
                                                    0
                                                    нет, состав будет тот же! Последовательность нуклеотидов с одинаковым ID — правая и левая часть.
                                                      0
                                                      Состав выборки (для организма) = (по определению) отрезки нуклеотидов взятые из генома. Разные отрезки — разные выборки.
                                                        0
                                                        Не понятно — что непонятно?

                                                        Имеем 10 геномов g1, g2… g10. Судить о их близости можно по некоторым последовательностям нуклеотидов скажем n1, n2… n100. Эти последовательности могут быть по разному входить в геном. В g1 есть n1, n5, n23, в других другой набор… может частично пересекаться.

                                                        Теперь предположим, что мы однозначно идентифицировали какой набор последовательностей входит в геномы. Далее разрежим последовательности n на две части nl и nr.

                                                        В случае статистического подхода далее нужно будет сделать выравнивание — оно даст ошибку, т.е. деревья будут разные построенные на основании частей nl и nr.

                                                        В детерминированном подходе никакое выравнивание не нужно — деревья построенные на основании частей nl и nr — будут идентичны.

                                                          0
                                                          И да выборка — это набор (полное перечисление) n1, n2… n100 — оно в этом мысленном эксперименте одно и то же, но результат для разных подходов разный.
                                                            +1
                                                            Резать на две части нужно gX. В случае одного гена для статистического алгоритма получится то же самое что и при разрезании nX (если пренебречь отличиями в выравнивании около разреза). В случае вашего алгоритма — получится правильная кроссвалидация вашего алгоритма.
                                                              –1
                                                              Если мы будем резать gX, то в правой части будут одни nX, а в другой другие — и получим разно мощную выборку. Вы пытаетесь сравнить методы по разному, ставя их в разные условия.
                                                                +1
                                                                В обоих случаях разрезаем gX, значит по определению мы ставим алгоритмы в одинаковые условия. Это называется кросс-валидацией. Она позволяет грубо оценить качество алгоритма. Если ваш алгоритм ее не проходит — значит его результат не имеет ничего общего с реальностью.

                                                                Возможно, имеет смысл разрезать gX хитрее, если есть существенные статистические отличия между началом и концом генома. К примеру, разбить на 2N частей и четные поместить в одну половину, а нечетные — в другую. Но N нельзя делать слишком большим (большинство генов должно попадать в одну и ту же половину).
                                                                  –1
                                                                  Вы понимаете, что gX никто не разрезает? Ни я, ни биологи.

                                                                  Далее вы мешаете в одну кучу мой мысленный эксперимент и реальный эксперимент — а это разные вещи.
                                                                    0
                                                                    Биологи берут просто два разных гена, что тоже самое nX, из одного организма (генома) — и проводят кросс-валидацию на одно и втором гене (это если проводят, и собственно за них я это в этой статье и сделал).
                                                                      0
                                                                      Это и есть разрезание gX состоящей из двух генов на две части. Один ген — в одной части, другой ген — в другой части.
                                                                        0
                                                                        Это какое-то искусственное изложение. В геноме как минимум могут быть дубликаты — тогда это разрезание gX — на число имеющихся генов 16S и 23S… хотя нас интересует только один. Могут быть еще разные последовательности 16S и 23S в одном геноме — отличающиеся мутациями. В итоге мы точно не знаем на сколько разрезан геном — а это то и неважно… так как сравниваем всего несколько 16S и 23S, а как они находились в геноме — совершенно не важно.
                                                                      –1
                                                                      Кросс-валидация позволяет определить не качество алгоритма!!! А влияние выборки на результат, так сказать представимость выборки.

                                                                      А качество алгоритма можно оценить тогда, когда выборка одинакова. В реальности этого быть не может, именно поэтому я говорил о мысленном эксперименте, где легко установить идеальные условия, чтобы сравнить алгоритмы.
                                                                        0
                                                                        Кросс-валидация позволяет оценить ошибку полученного результата. Она состоит из неустранимой ошибки (принципиальной не возможности определить дерево по геному) и ошибки алгоритма относительно идеального алгоритма.

                                                                        Отделить одно от другого очень трудно.

                                                                        Ваш же мысленный эксперимент не позволяет определить вообще ничего.
                                                                          0
                                                                          Мой мысленный алгоритм как раз показывает выделяет эти две части «ошибки». Вы их как то странно называете правда: первое это не ошибка — а стабильность сигнала при определенной мощности выборки, второе действительно можно назвать ошибка алгоритма относительно идеального алгоритма.

                                                                          Так вот у меня и есть этот самый идеальный алгоритм (правда в рамках той информации, которую с помощью него можно получить). В то время как классически — выравнивание мешает «идеальности».

                                                                          Чтобы увидеть «идеальность» моего алгоритма — нужно всего лишь предположить, что мы правильно нашли гены в геноме. А для классического алгоритма этого мало.
                                                                            0
                                                                            И да, теперь мне остается определить для своего алгоритма — какая вашими словами величина «неустранимой ошибки», а именно влияние доступной для алгоритма выборки. Т.к. мой метод и классический по 16S — отличается кроме прочего — разными выборками которые анализируют.
                                                                              0
                                                                              Для проверки в моем алгоритме «неустранимой ошибки» у меня будет полная выборка вида: Кусок ДНК такой-то принадлежит такому то геному. И таких записей порядка 900 тыс. я собираюсь взять и разделить эту выборку на две случайным образом по 450 тыс. каждая… и построить деревья отдельно по каждой, и сравнить затем.
                                                                              0
                                                                              Вам мысленный эксперимент никак не выделяет эти две части ошибки. И потому ваш алгоритм не является идеальным (как и любой другой).
                                                                                0
                                                                                У вас голословное утверждение, а в статье все написано и написано почему!
                                                                                  0
                                                                                  Все ваши «объяснения» и «обоснования» в статье абсолютно голословны. Метод же с разрезанием генома на две части имеет твердые обоснования.

                                                                                  0
                                                                                  Я так понимаю, вы возражаете против следующего утверждения в статье:

                                                                                  «если последовательности тРНК разделить на две части и построить два разных дерева — они совпадут или нет? Ответ: они совпадут на 100%.»?

                                                                                  Тогда потрудитесь объяснить — почему это деревья не совпадут?
                                                                                    0
                                                                                    Я возвражаю против того, что это говорит о нулевой ошибке алгоритма.
                                                                                      0
                                                                                      Постойте ка — если деревья идентичные, то о какой ошибке речь? Или что «это»?
                                                                                        0
                                                                                        Или вам кажется, что и сравнение по разрезанному надвое гену 16S — будет без ошибочное?
                                                        +1
                                                        > Я удивлен, но специалисты этой альтернативы не предлагают и не видят.

                                                        А вы проверяли? Может, у вас специалисты были недостаточно специальные? Даже очень беглый поиск показывает, что видят, предлагают, но, судя по всему, не все так просто с этой альтернативой. Навскидку парочка статей (если не откроется — пишите в личку, пришлю тексты):

                                                        www.ncbi.nlm.nih.gov/pmc/articles/PMC2905747/
                                                        www.ploscompbiol.org/article/info%3Adoi%2F10.1371%2Fjournal.pcbi.1000018

                                                        И вот еще какой-то простой алгоритм упоминается — работают люди в этом направлении. Полный текст могу попробовать найти.

                                                        link.springer.com/article/10.1007/BF01808277?no-access=true
                                                          –1
                                                          Ну, так замечательно :) Значит есть на кого сослаться, так что я тоже в тренде :) Но результатов то у меня все равно больше :)
                                                            0
                                                            Больше? Я вам привел первые попавшиеся статьи. Поищите — думаю, там этих результатов на десятерых хватит. Я просто показал, что ваше утверждение о том, что этого подхода специалисты не видят, мягко говоря, неверно. Видят. Но почему-то не очень используют. Наверное, не все там так радужно.
                                                              –1
                                                              Вы ничего не показали, называйте все своими именами. Кинули первые попавшиеся статьи, которые немного близки. А уже про «радужно» — вообще не серьезно обсуждать на таком уровне.
                                                                0
                                                                Ок, продолжайте верить, что вы самый умный и никто кроме вас не догадался использовать тРНК, хотя это решает все проблемы современной биологии.
                                                                  –1
                                                                  Разговор ни о чем. Мне ни сколько не жалко, что кто то до чего то догадался. Но речь то совсем о другом, а не о тРНК. Читать статью пробовали?
                                                                –1
                                                                Где написано, что «не очень используют»? Что именно «не очень используют»? Как это соотносится с моей статьей?

                                                                Ни одного ответа на это, а чтобы говорить хоть на грамм серьезнее — вам надо начать было с этого.
                                                                  0
                                                                  Они по прежнему не видят! Точнее видят в другом свете…
                                                                    –1
                                                                    И да больше! Они анализируют очень мало 175 genomes, по отдельным тРНК (а не по всем) — короче все того объема как я делал в самой первой/второй статье на эту тему. И главное — как анализируют — снова же статистически! А что они получают? И потом статьи — это не результат, а отчет. В статьях результатов нет… вот в проекте The All-Species Living Tree есть результат — готовые построенные деревья, которые можно анализировать. Собственно что я и сделал для этого проекта, а те статьи которые вы дали уступают даже этому проекту The All-Species Living Tree — в десятки раз… так о чем разговор?
                                                                      0
                                                                      Я вам уже сказал — это первые попавшиеся статьи, которые просто демонстрируют, что специалисты прекрасно знают о возможности использования тРНК для филогенетического анализа и пользуются ей. Дальше читайте, разбирайтесь, ищите сами. Возможно, где-то делают что-то похожее на ASLT. Возможно, никто так не делает, но причину тогда надо искать не в глупости специалистов — как мы видим, они в курсе, а в недостатках тРНК — вы могли чего-то не учесть.
                                                                        –1
                                                                        А собственно зачем мне это надо? Разбираться в чужих глупостях… кто-то из умных докрутил, что можно использовать тРНК, но как видим далеко не все. А те кто докрутил, не докрутил до другого… чего мне там еще учитывать… пишу продолжение этой статьи, так сказать финально демонстрирую преимущество моего детерминированного подхода — и все, пусть остальные сверяются со мной, что они делают не так… не у них, а у меня результаты :)
                                                                          –1
                                                                          Ну, это правда — при условии, что у меня результаты (согласно графику ошибок (см. последний рис. в статье)) будут лучше… я просто еще не закончил… но уверен в лучшем, хоть могу и ошибаться.
                                                                          –1
                                                                          И да предвосхищая следующую статью, скажу, что аргумент основанный на «недостатках тРНК» (что вообще-то глупость) — я и этот слабый аргумент выбью у вас из под ног. Анализировать мы там будем ДНК в целом — поэтому сможете жаловаться только на «недостатки ДНК» :)
                                                                    –1
                                                                    Но увы, радость моя была не долгой, прочтение аннотаций показывает, что они не далеко ушли от статистических методов — хоть и используют тРНК. Хоть, конечно, статьи заслуживают внимания — как наиболее близкие по сути.
                                                                    0
                                                                    Вы мне напоминаете Фоменко, уж извените за такое сравнение. Взять однобокую методологию и упорно делать из нее далеко идущие выводы.

                                                                    Имхо, вы все таки зря упираетесь в редакторское расстояние — это вероятностный подход и не стоит считать его детерминированым. За изменениями генов стоит выживание популяции и путь от одного вида до другого может быть извилистым — какие-то мутации летальны, какие-то близкие к этому, но все же возможны хоть какое-то время, но в целом разнообразие генома имеет какую-то квантованность — определенное сочетания более живучи и следовательно более вероятны. В таком поле эволюционные расстояния скорее всего будут отличаться от простого редакторского расстояния между геномами, более того вполне возможны множественные пути для отдельных генов и циклы. И чем меньше и разнообразнее вы берете последовательность тем сложнее для нее будет выглядеть эволюция, просто в силу того что близкие ( а мелкие и разнообразные последовательности будут ближе в смысле редакторского расстояния ) гены будут иметь большую вероятность переходит одна в другую. Следовательно «шум» будет больше, а измерить его мы не можем — сколько было циклов в цепочке близких генов?

                                                                    Биологи же, в силу образования, имеют другие способы оценить шум для данного сигнала — в конце концов древо строилось на фенотипе и теория эволюции не пустой звук и имеет ряд фактов для подтверждения и «шумный» геном не может в этих условиях отодвинуть все остальные критерии. Берите все более длинные последовательности в которых ожидаемая вероятность шума ниже и стройте общую картину, в которой граф связей для шумных и коротких будет натягиваться на более редкий граф длинных.

                                                                    Хотя все равно статистический метод ненадежен.

                                                                      0
                                                                      Удивительная способно игнорировать факты наличия высокого шума, пустые разговоры о «все остальные критерии», при этом не называя не одного и не видя, что биологи вообще не измеряют этот шум… Смешно, и я еще потом Фоменко :) Бред да и только…
                                                                        –1
                                                                        Удивительно то, что вы называете дисперсию «мутным индексом», а потом всегда говорите о соотношении сигнал-шум, притом что эта величина измеряется как раз через мутные индексы:
                                                                        1. надо взять сигнал (случайный процесс-- только для них задается соотношение сигнал-шум. ваши деревья, кстати, тоже можно считать случайным процессом)
                                                                        2. посчитать спектральную плотность мощности (напр, посчитать автокорреляционную функцию, посчитать от нее преобразование Фурье)
                                                                        3. мощность полезных гармоник разделить (сигнал) поделить на мощность шума.

                                                                        А в частном случае соотношение сигнал-шум как раз считается через дисперсию сигнала.
                                                                          0
                                                                          Вы же за мат. терминами не видите сути происходящего — поэтому все что вы написали муть, и она такой и останется. Начнете говорить словами, какой смысл это имеет в реальности (для сравнения дивергенции видов, построенных по двум разным наборам признаков и как эти признаки коррелируют между собой) — тогда и поговорим.
                                                                            0
                                                                            Тут нет случайной величины — чтобы применять теорию вероятности — это можно понять?
                                                                          0
                                                                          А дальше у вас полное не понимание прочитанного — я как раз РУГАЮ использование редакторского расстояния, его повсеместно используют биологии, я же делаю другое — и как раз не вероятностное, а детерминированное. Блин, ну, хотя бы прочитали бы… прежде чем… а то отругали всех биологов, а хотели видимо меня ;)
                                                                            0
                                                                            То что вы называете детерменировано, таковым не является. Вы строите деревья на базе все того же расстояния и потом занимаетесь с ними шаманскими плясками. Если нельзя подсчитать вероятности, то нет понятия о том какое распределение, следовательно нельзя померять или хотя бы оценить дисперсию и любые известные приемы работы с ошибками суть профанация. Грубо говоря вы усредняете, считая что сумма разностей и будет коррелировать с величиной ошибки, но это верно для случайных ошибок с одинаковом распределением определенного рода. Но очевидно что для каждого гена буду свои особенности, возможно что каждое дерево будет иметь разный порядок ошибок и нельзя будет просто так сравнивать вообще — прежде чем считать что-то надо понимать что считаем — я этого у вас не вижу.

                                                                            Я никого не ругаю. Все делают ошибки, а биологи… вспоминается история о количестве хромосом. Но вы… тщательно упаковываете свои ошибки.
                                                                              0
                                                                              Нет, я не строю деревья на базе редакторского расстояния! А что считаю понимаю, чего не скажешь о вас.
                                                                                0
                                                                                Откуда тогда эти деревья?
                                                                                И каков характер распределения для ошибок?
                                                                                  0
                                                                                  О каких именно деревьях Вы говорите? В данной статье я не описывал построение деревьев моим методом, тогда о чем Вы?

                                                                                  О каких ошибках идет речь? Ошибках чего?
                                                                                0
                                                                                + У меня просто негде возникнуть понятию «вероятность» — ответы «да или нет»… впрочем о чем тут с вами говорить, когда даже в «началах» не хотите разбираться и делаете абсурдные заявления.
                                                                                  0
                                                                                  По моему это вы не хотите разбираться в основах.
                                                                                  Последний человек, кому общественность прощала пренебрежение к тщательному разбору основ для своих выкладок был Ландау, но он был гением в этом плане — он никогда не делал ошибок в области применения закономерностей, по крайней мере не был в этом уличен :)
                                                                                    0
                                                                                    Вы по сути говорить будите, или будите выкриками тратить мое время?
                                                                            0
                                                                            Рад сообщить, что мы таки открыли сайт.

                                                                            Поэтому приглашаю зайти по адресу biogenom.eu и поучаствовать в развитии. Я опубликовал две статьи в разделе «Эволюционные деревья» — они расширяют эту статью, одна дает теоретический минимум, а вторая стремится описать, дать код на C# — так, чтобы можно было воспроизвести результаты моего сравнения. (правда вторая еще не закончена). В общем не стесняемся комментируем,

                                                                            Only users with full accounts can post comments. Log in, please.