Pull to refresh

Comments 110

Честное слово, несмотря на незаконченное медицинское, после нескольких абзацев появляется стойкое желание «scroll-scroll-scroll».

Искать программистов, а потом писать кучу узкоспециализированного текста, причем без научнопопулярного введения — это плохая идея.
Т.е. вы хотите сказать, что написанный тут текст непонятен программисту? (на мой то взгляд — это и есть научпоп, в чем я ошибаюсь?)
Мне термины понятны. Многим программистам текст вполне может быть непонятен.

Вы пытаетесь объяснить идею и привлечь людей, но не описываете в начале простым языком цели проекта, практический смысл, да даже не даете краткую постановку задачи для компьютерного моделирования.
Цели проекта элементарны — изучить геном прокариот, построить дерево происхождения видов, сделать выводы о ходе эволюции. Тут то и описывать нечего, поэтому я и сосредоточился на деталях. Практический смысл — это указать как нужно исследовать данный вопрос, а пока тут дано лишь то какие результаты есть у специалистов, и так сказать показано, что может быть в альтернативе.
Ну вот написали же кратко, а говорили, что нельзя.
Не, ну если об этом речь — то ок. Но вряд ли это что-то дает…
Это как нисходящее проектирование: вы начинаете с более высокого уровня абстракции, потом переходите к низкому. Так легче воспринимать статью--сразу знаешь, куда автор ведет, чего ожидать; сразу видишь за лесом деревья; легче выделять структурные блоки, выделять важное в статье, можно сразу понять, что статья неинтересна, и т.п.

В научных статьях обычно 3 уровня абстракции: abstract, introduction, сама статья.
Нет, дает, я вот все проскролил, но из этого все стало ясно.
Несколько замечаний:

1. цели неизмеримы. Лучше если б это было «написать 2 статьи за 2 года/привлечь 100500 млн инвестиций за 2 года»

2. цели нереальны. «изучить геном прокариот, построить дерево происхождения видов»--это то, чем занимаются тысячи ученых по всему миру много лет. Вы можете быть даже умнее их, но у вас нет столько времени (даже если взять всю вашу жизнь, без сна и еды). И у вас нет экспертизы и опыта. И, скорее всего, вы не умнее их большей части. И если вам кажется, что они просто дурачки, и не замечают каких-то очевидных подходов, то, скорее всего, это не так.
Вот именно «занимаются тысячи ученых по всему миру много лет», поэтому то я это написал лишь как уровень до abstract. Потом надо немного отличать научную статью, от статьи на хабре :) — цели разные.

В introduction же говорится о детерминированном подходе применительно к «целям». Это то, что отличает меня от «тысячи ученных». Ну, и зачем «дурачки» я такого нигде не говорил. Но детерминированный подход они не используют.

А вот в самой статье начиная с раздела «Собственно эксперимент» — я начал говорить, что им детерминированный подход есть для чего использовать, и далее собственно то что я собираюсь написать в следующей статье покажет на сколько…

а можно кратко описать суть статьи?
Я считаю, что вам надо проконсультироваться со специалистами в этой области, притом обязательно с теми, у которых есть публикации в рецензируемых международных журналах по этой теме. Вероятно, вы услышите немало критики. Еще лучше попробовать опубликовать статью в рецензируемом международном журнале--вы тоже, вероятно, услышите немало критики. Я считаю, это может очень помочь в расстановке приоритетов, оценке собственных ресурсов и качества результатов. Так вы сэкономите свое время и время людей, которых хотите привлечь к проекту.

Кроме того, мне кажется, вашей основной задачей должна быть публикация статей в международных профильных журналах--иначе никто из отрасли о ваших результатах не узнает, а те, кто узнает--не поверят (потому что результаты не прошли peer review).
А я вот как раз считаю, что это вторично. Писать статьи в международных журналах — опыт я имею. Там часто критика не касается сути статей. Разговаривать со специалистами — тоже было. Да, они могут критиковать — но «что слова» — а анализ результатов действительно специалистов — я тут вам и показал (последний раздел, это то что делает проект The All-Species Living Tree, у которых множество статей — только вот результат слабоват). Поверьте такое они не напишут не в одной статье, там все прилизано и если «что-то не так» внимание читателя отвлечено другим.
1. опыт, видимо, неудачный. Для этого статьи и рецензирование и нужны--чтобы отсеивать неподходящий материал. Вместо того, чтоб продолжать писать статьи на хабр в свободное время, лучше вам подумать, что именно не так в вашем подходе. И если уж совсем интересно, найти профессора в Европе/США (по вашей теме, computational biology, computational genetics), подать заявку на PhD и поработать full-time 4 года над этой темой.

2. Критика иногда не касается сути, но в основном касается. Рецензенты, конечно, тоже разные бывают. Ну и характер замечаний разный--major, minor, critical.

3. Ваш анализ результатов меня, даже как дилетанта, не устраивает:
серьезные замечания:
а. детерминистический подход в принципе не может работать--во всех генах присутствуют случайные мутации, это одна из основ эволюции. Поэтому стохастический подход явно лучше детерминистического.
б. Сравнение двух деревьев--это стандартная задача. Вы их сравниваете явно кустарным способом. Потрудитесь поискать хоть что-нибудь об этой теме.
мелочи:
в. «распределениями вероятности, оценками смещения, дисперсии и т.п. мутными индексами и ничего не говорящими коэффициентами» Если вам, как программисту, не читали основы теории вероятности--то это ваши проблемы. Почитайте курс лекций какой на досуге (курсера, напр), и научитесь разбираться в мутных индексах.
г. у вас нет ни одной (!) ссылки на научные статьи. Это не вызывает доверия--может, вы вообще в теме не разбирались.

4. если результат The All-Species Living Tree слабоват, то обычно появляются статьи с критикой--это же выгодно критикующим (к ним сразу пристальное внимание). Она вполне может быть очень жесткой (пример из физики, правда).

В общем, я считаю, что вы напрасно тратите свое время и время людей, которых привлекаете. И даже если ваши результаты будут чего-то достойны, о них никто не узнает и на них никто не обратит внимания. Кроме того, глупо думать, что если вы хороший программист, то легко войдете в генетику и расскажете тысячам пацанов, что они 30 лет были неправы, и вообще все разложите по полочкам (так называемый «синдром программиста»).
Ну, считайте как хотите… опыт у меня разный, правда несколько по другой теме… и статей 10 я опубликовал, а «крестиком вышивать» в PhD нет никакой необходимости…

Короче потрудитесь разобраться и понять, и написать хоть что-то по сути, а такая поверхностная без претензии на содержательность критика меня волнует мало.
А в этой теме — я намерено думаю продвигаться неформальным способом — думаю он более оправдан.
Вот еще немного критики, раз старая не понравилась вам:
1.
Да, метод «собственный» сравнения деревьев, но он простой и ясно показывает, что нужно. Мне не нужно для элементарных вещей изучать что-то еще, что не дает такого же четкого результата.


Пример: мы хотим сравнить две строки--посчитать расстояние между ними (это могут быть как раз последовательности нуклеотидов). Строки «ABCA» и «ACBA». Вы придумаете кустарный способ, и будете считать число удалений и число вставок букв в певрую строку, чтоб получить вторую. Получите расстояние 2 (удалить B слева от C, вставить B справа от C). А есть нормальный алгоритм сравнения--расстояние Левенштайна. Он даст расстояние, равное 1 (поменять местами B и C) (в ДВА раза меньше, чем ваше кустарное). Алгоритм надо выбирать в зависимости от задачи, и для сравнения генов используется как раз расстояние Левенштайна. То есть ваш кустарный способ будет давать систематическую ошибку вплоть до 2 раз.

Так же и с деревьями--ваш кустарный способ может давать систематическую ошибку в несколько раз, и ваш график в конце статьи сейчас можно смело выбрасывать.

2. Важное замечание. Ваш график ошибок не показывает, что ваш метод работает правильно, а TASLT--неправильно. Он показывает, что два метода дают разные результаты. И, поскольку TASLT--код проверенный, свободный, результаты опубликованы во многих журналах, прошли peer review, я, как непредвзятый читатель, скорее подумаю, что это ВАШ метод неправильный и ошибочный. Может, у вас просто баги в коде. То есть вы делаете принципиально неправильный вывод из этого графика.
1. Смешная критика — сами придумали что-то, приписали мне, покритиковали то, что сами придумали приписав мне… смешно, оригинально.
2. Еще смешнее, мои результаты я еще даже не озвучивал — а уже мой метод работает неправильно :) А далее, «поклоны погонам» — раболепие в крови… понятно когда сами ничего посчитать не можем даже элементарное как здесь — надо рассчитывать на peer review… не это же проблема в самом деле, опубликовать мой метод не проблема.

Мой график ошибок показывает однозначно, то что деревья построенные TASLT по разным генам 16S и 23S совпадают лишь на 50%, еще в 30% ошибка не большая, а в 5-15% ошибка существенна.

Поэтому в целом этим деревьям можно доверять как 50 на 50 (ну немного больше).
Я постарался привести простой доступный пример, когда кустарный метод дает систематическую ошибку, хотя выглядит очень даже ничего. Вам я ничего не приписывал. И систематическая ошибка может присутствовать в вашем кустарном методе сравнения деревьяв. Пока вы не докажете обратное, графику верить нельзя.
Берите проверяйте — как можно доказывать человеку, который ничего не читает и не проверяет?
Это ваша задача доказать мне, что ваш метод работает. В научном методе и других областях знания (судебная система, напр) есть специальный термин для этого--burden of proof, бремя доказательства. А вы делаете типичную ошибку--перекладываете это бремя на меня (читателя).
Это не так, я все доказал уже. А Вы хотите убедится. Я предоставляю вам для этого все что нужно (начнем хотя бы с малого, см. пример ниже). Но вы ничего не делаете, чтобы убедится (не пошли и не проверили, отличаются ли расположение этих видов). Тут не нужны мат. выкладки — нужно всего лишь посмотреть «есть стул под столом, или нет».
И еще — вы уверены, что есть метод сравнения деревьев:
1. назовите мне название
2. назовите его отличия от моего метода

(в силу элементарности — даже если такой метод есть, то или он будет чего-то не учитывать, или он будет такой же как у меня)
Простите, я вам ничего не должен. Хотите--читайте, не хотите--не читайте. Но не удивляйтесь, что вашим результатам никто не поверит.
А в таком случае — перестаньте писать ерунду, т.к. вы не понимаете о чем говорите.
Вы даже не понимаете о каком сравнении деревьев идет речь!
+ это все мимо! Вы не понимаете о чем говорите, точнее подсовываете мне, не утруждая себя обдумыванием, всякую ерунду не относящуюся к делу.
А по поводу багов — так в чем проблема, возьмите деревья из TASLT и сравните / проверьте сами… и тогда поговорим.
Вот вам для примера откройте одно дерево и второе, посмотрите как далеко расположены два вида
Caldicellulosiruptor saccharolyticus и Dictyoglomus thermophilum, в одном дереве они будут близко, в другом далеко! Чтобы это значило?… Могу таких примеров дать целую кучу — сверять будите? Нет, тогда оставьте свои домыслы при себе!
Ну, отвечу только на серьезное заблуждение:

«во всех генах присутствуют случайные мутации» — это не так, и именно поэтому возможен детерминированный подход.
Перепроверить проект The All-Species Living Tree — можно любому за несколько дней — нет доверия моим результатам — дайте свои, а огульно плести чушь — может каждый!

Да, метод «собственный» сравнения деревьев, но он простой и ясно показывает, что нужно. Мне не нужно для элементарных вещей изучать что-то еще, что не дает такого же четкого результата.
Автор тут не первый месяц. Специалистов он не любит, т.к. они его регулярно тыкают носом в школьные ляпы. Эдакий Петрик от генетики.
Настоящих специалистов я люблю, особенно когда они говорят по сути, а не «хватаются за погоны». А вот «специалистам», хватающимся за погоны — их логику жизни — я действительно игнорирую. И еще раз я же просил — критиковать результаты, а не меня.
Ага, «а судьи кто»?
Вы хотели критику? Вот вам и критика, все чётко и по пунктам. Нужно следовать определенным правилам, если хотите, чтобы серьезные люди воспринимали Вас всерьез.
Эволюция не идет по Дарвину, т.е. попросту у организмов нет общего предка и никогда его не было.

Теория Дарвина объясняет не происхождение жизни, а её разнообразие
О каких пунктах речь?

«Теория Дарвина объясняет не происхождение жизни» — да ну? («курите» — Дарвин Ч., Происхождение видов путем естественного отбора)

И не отвлекайте серьезных людей своими глупыми придирками, а не обсуждением сути статьи.
«Дарвин Ч., Происхождение видов путем естественного отбора» — где именно тут упоминается происхождение жизни? И где Дарвин утверждает что все организмы происходят от общего предка?
Горизонтальный перенос, в свою очередь, это такая же теория разнообразия видов, которая скорее дополняет теорию Дарвина, объясняя причины возникновения мутаций, а не замещает её.
ну, основы дарвинизма нужно знать — и тут не место вас учить… тем паче при таком отношении. Давай, до свидания :)
А вообще я несколько в замешательстве. А давайте всем кто пишет на хабр — будем говорить «пишите в рецензируемые журналы», иначе «никто ничему не поверит». Может автор лучше знает куда и с какой цель он пишет, об этом не задумывались?
Прочитал 1 раз. Как программисту из всего текста мне пока понятна идея сравнения деревьев. тРНК, рРНК, необходимость выравнивания пока ни о чем мне не говорит — видимо надо что-то вводное читать.
Ну, вы поняли самое главное — уже хорошо. Действительно на хабре я написал почти десяток статей на эту тему — если есть желание разобраться посмотрите мои статьи в хабе Биоинформатика. Ну, и всегда можно меня спросить :)
Так как статья для «обычных» людей просьба писать в начале краткое содержание человеческим языком, а то ничего не понятно — да есть выкладки, ошибки, метрики, но в чем изначальная проблема? Явно же в этих сложных изысканиях сокрыт какой-то простой «обычночеловеческий» вопрос, ради которого все это и исследуется
Всем хочется кратко, и лень читать/разбираться я понимаю.

Можно начать так (для программистов читать задом на перед статью):

1. Надо открыть ссылки на построенные эволюционные деревья
«Итак нам надо сравнить между собой два дерева построенному по гену 23S рРНК и построенному по гену 23S рРНК являющиеся последним результатом проекта The All-Species Living Tree
2. Дальше в статье описано как можно сравнить эти деревья (понять общие принципы).
3. Дальше почитать про филогенетический сигнал, который есть результат сравнения этих деревьев
4. Подумать вместе с автором статьи — почему это филогенетический сигнал не столь четкий и как его можно улучшить.

А если уж совсем «легковесно» — то задача проста как некогда — понять как эволюционировали бактерии и как последовательно изменялась их ДНК.
Текст сложен не в научном плане, он просто сложно написан, начиная с самого первого «Этот проект был задуман давно.» которое можно спокойно выкинуть, учитывая что дальше идет «Лет 5 назад я считал, что многие результаты в геномике ...».
Ну, думаю эти строки все хорошо поняли :) а если дальше «выкидывать» — то станет совершенно не ясно… Ну, и потом — давайте обсуждать, что именно сложно/неясно т.д. — в дискуссии я готов пояснять, другое дело, что должно быть желание разобраться… и тогда все будет легко, ведь я ровно такой же программист как многие тут… и ничего кроме желания у меня 5 лет назад не было…
Вы не поверите, но мне даже этот комментарий сложно читать…
Ну, тогда может «Курочка ряба» будет в самый раз :)
Вы б вначале написали, какой «этот» проект задумывался :(
я ж уже даже вставил

[Впрочем пару слов вставлю, т.к. ниже многие жалуются, что я начал «с места в карьер». Основная идея/задача проекта понять как эволюционировали бактерии и как последовательно изменялась их ДНК. Для этого строим дерево дивергенции видов и анализируем их.]

Тогда вопрос заключается в следующим: если последовательности тРНК разделить на две части и построить два разных дерева — они совпадут или нет? Ответ: они совпадут на 100%.

Что вам мешает разрезать геном на две части и получить точно такую же кроссвалидацию?
Нечто подобное я и собираюсь сделать (придется подождать следующую статью, уже скоро)… Но в цитате говорится немного о другом. Там было важно понять, влияет величина и состав выборки или же это ошибки метода. Так вот в детерменированном подходе возможно влияние только величины и состава выборки, в то время как в статистическом обеих факторов.
Если разрезать геном (а не набор подстрок) на две части и провести кроссвалидацию, то получатся разные деревья и вылезет ошибка метода. «Ошибка метода» присутствует всегда, какой бы метод ни был.
Если разрезать геном — то будет разный состав выборки, а не «ошибка метода»
Если разрезать ген 16S — то будет разный состав выборки, а не ошибка метода.
нет, состав будет тот же! Последовательность нуклеотидов с одинаковым ID — правая и левая часть.
Состав выборки (для организма) = (по определению) отрезки нуклеотидов взятые из генома. Разные отрезки — разные выборки.
Не понятно — что непонятно?

Имеем 10 геномов g1, g2… g10. Судить о их близости можно по некоторым последовательностям нуклеотидов скажем n1, n2… n100. Эти последовательности могут быть по разному входить в геном. В g1 есть n1, n5, n23, в других другой набор… может частично пересекаться.

Теперь предположим, что мы однозначно идентифицировали какой набор последовательностей входит в геномы. Далее разрежим последовательности n на две части nl и nr.

В случае статистического подхода далее нужно будет сделать выравнивание — оно даст ошибку, т.е. деревья будут разные построенные на основании частей nl и nr.

В детерминированном подходе никакое выравнивание не нужно — деревья построенные на основании частей nl и nr — будут идентичны.

И да выборка — это набор (полное перечисление) n1, n2… n100 — оно в этом мысленном эксперименте одно и то же, но результат для разных подходов разный.
Резать на две части нужно gX. В случае одного гена для статистического алгоритма получится то же самое что и при разрезании nX (если пренебречь отличиями в выравнивании около разреза). В случае вашего алгоритма — получится правильная кроссвалидация вашего алгоритма.
Если мы будем резать gX, то в правой части будут одни nX, а в другой другие — и получим разно мощную выборку. Вы пытаетесь сравнить методы по разному, ставя их в разные условия.
В обоих случаях разрезаем gX, значит по определению мы ставим алгоритмы в одинаковые условия. Это называется кросс-валидацией. Она позволяет грубо оценить качество алгоритма. Если ваш алгоритм ее не проходит — значит его результат не имеет ничего общего с реальностью.

Возможно, имеет смысл разрезать gX хитрее, если есть существенные статистические отличия между началом и концом генома. К примеру, разбить на 2N частей и четные поместить в одну половину, а нечетные — в другую. Но N нельзя делать слишком большим (большинство генов должно попадать в одну и ту же половину).
Вы понимаете, что gX никто не разрезает? Ни я, ни биологи.

Далее вы мешаете в одну кучу мой мысленный эксперимент и реальный эксперимент — а это разные вещи.
Биологи берут просто два разных гена, что тоже самое nX, из одного организма (генома) — и проводят кросс-валидацию на одно и втором гене (это если проводят, и собственно за них я это в этой статье и сделал).
Это и есть разрезание gX состоящей из двух генов на две части. Один ген — в одной части, другой ген — в другой части.
Это какое-то искусственное изложение. В геноме как минимум могут быть дубликаты — тогда это разрезание gX — на число имеющихся генов 16S и 23S… хотя нас интересует только один. Могут быть еще разные последовательности 16S и 23S в одном геноме — отличающиеся мутациями. В итоге мы точно не знаем на сколько разрезан геном — а это то и неважно… так как сравниваем всего несколько 16S и 23S, а как они находились в геноме — совершенно не важно.
Кросс-валидация позволяет определить не качество алгоритма!!! А влияние выборки на результат, так сказать представимость выборки.

А качество алгоритма можно оценить тогда, когда выборка одинакова. В реальности этого быть не может, именно поэтому я говорил о мысленном эксперименте, где легко установить идеальные условия, чтобы сравнить алгоритмы.
Кросс-валидация позволяет оценить ошибку полученного результата. Она состоит из неустранимой ошибки (принципиальной не возможности определить дерево по геному) и ошибки алгоритма относительно идеального алгоритма.

Отделить одно от другого очень трудно.

Ваш же мысленный эксперимент не позволяет определить вообще ничего.
Мой мысленный алгоритм как раз показывает выделяет эти две части «ошибки». Вы их как то странно называете правда: первое это не ошибка — а стабильность сигнала при определенной мощности выборки, второе действительно можно назвать ошибка алгоритма относительно идеального алгоритма.

Так вот у меня и есть этот самый идеальный алгоритм (правда в рамках той информации, которую с помощью него можно получить). В то время как классически — выравнивание мешает «идеальности».

Чтобы увидеть «идеальность» моего алгоритма — нужно всего лишь предположить, что мы правильно нашли гены в геноме. А для классического алгоритма этого мало.
И да, теперь мне остается определить для своего алгоритма — какая вашими словами величина «неустранимой ошибки», а именно влияние доступной для алгоритма выборки. Т.к. мой метод и классический по 16S — отличается кроме прочего — разными выборками которые анализируют.
Для проверки в моем алгоритме «неустранимой ошибки» у меня будет полная выборка вида: Кусок ДНК такой-то принадлежит такому то геному. И таких записей порядка 900 тыс. я собираюсь взять и разделить эту выборку на две случайным образом по 450 тыс. каждая… и построить деревья отдельно по каждой, и сравнить затем.
Вам мысленный эксперимент никак не выделяет эти две части ошибки. И потому ваш алгоритм не является идеальным (как и любой другой).
У вас голословное утверждение, а в статье все написано и написано почему!
Все ваши «объяснения» и «обоснования» в статье абсолютно голословны. Метод же с разрезанием генома на две части имеет твердые обоснования.

Я так понимаю, вы возражаете против следующего утверждения в статье:

«если последовательности тРНК разделить на две части и построить два разных дерева — они совпадут или нет? Ответ: они совпадут на 100%.»?

Тогда потрудитесь объяснить — почему это деревья не совпадут?
Я возвражаю против того, что это говорит о нулевой ошибке алгоритма.
Постойте ка — если деревья идентичные, то о какой ошибке речь? Или что «это»?
Или вам кажется, что и сравнение по разрезанному надвое гену 16S — будет без ошибочное?
> Я удивлен, но специалисты этой альтернативы не предлагают и не видят.

А вы проверяли? Может, у вас специалисты были недостаточно специальные? Даже очень беглый поиск показывает, что видят, предлагают, но, судя по всему, не все так просто с этой альтернативой. Навскидку парочка статей (если не откроется — пишите в личку, пришлю тексты):

www.ncbi.nlm.nih.gov/pmc/articles/PMC2905747/
www.ploscompbiol.org/article/info%3Adoi%2F10.1371%2Fjournal.pcbi.1000018

И вот еще какой-то простой алгоритм упоминается — работают люди в этом направлении. Полный текст могу попробовать найти.

link.springer.com/article/10.1007/BF01808277?no-access=true
Ну, так замечательно :) Значит есть на кого сослаться, так что я тоже в тренде :) Но результатов то у меня все равно больше :)
Больше? Я вам привел первые попавшиеся статьи. Поищите — думаю, там этих результатов на десятерых хватит. Я просто показал, что ваше утверждение о том, что этого подхода специалисты не видят, мягко говоря, неверно. Видят. Но почему-то не очень используют. Наверное, не все там так радужно.
Вы ничего не показали, называйте все своими именами. Кинули первые попавшиеся статьи, которые немного близки. А уже про «радужно» — вообще не серьезно обсуждать на таком уровне.
Ок, продолжайте верить, что вы самый умный и никто кроме вас не догадался использовать тРНК, хотя это решает все проблемы современной биологии.
Разговор ни о чем. Мне ни сколько не жалко, что кто то до чего то догадался. Но речь то совсем о другом, а не о тРНК. Читать статью пробовали?
Где написано, что «не очень используют»? Что именно «не очень используют»? Как это соотносится с моей статьей?

Ни одного ответа на это, а чтобы говорить хоть на грамм серьезнее — вам надо начать было с этого.
Они по прежнему не видят! Точнее видят в другом свете…
И да больше! Они анализируют очень мало 175 genomes, по отдельным тРНК (а не по всем) — короче все того объема как я делал в самой первой/второй статье на эту тему. И главное — как анализируют — снова же статистически! А что они получают? И потом статьи — это не результат, а отчет. В статьях результатов нет… вот в проекте The All-Species Living Tree есть результат — готовые построенные деревья, которые можно анализировать. Собственно что я и сделал для этого проекта, а те статьи которые вы дали уступают даже этому проекту The All-Species Living Tree — в десятки раз… так о чем разговор?
Я вам уже сказал — это первые попавшиеся статьи, которые просто демонстрируют, что специалисты прекрасно знают о возможности использования тРНК для филогенетического анализа и пользуются ей. Дальше читайте, разбирайтесь, ищите сами. Возможно, где-то делают что-то похожее на ASLT. Возможно, никто так не делает, но причину тогда надо искать не в глупости специалистов — как мы видим, они в курсе, а в недостатках тРНК — вы могли чего-то не учесть.
А собственно зачем мне это надо? Разбираться в чужих глупостях… кто-то из умных докрутил, что можно использовать тРНК, но как видим далеко не все. А те кто докрутил, не докрутил до другого… чего мне там еще учитывать… пишу продолжение этой статьи, так сказать финально демонстрирую преимущество моего детерминированного подхода — и все, пусть остальные сверяются со мной, что они делают не так… не у них, а у меня результаты :)
Ну, это правда — при условии, что у меня результаты (согласно графику ошибок (см. последний рис. в статье)) будут лучше… я просто еще не закончил… но уверен в лучшем, хоть могу и ошибаться.
И да предвосхищая следующую статью, скажу, что аргумент основанный на «недостатках тРНК» (что вообще-то глупость) — я и этот слабый аргумент выбью у вас из под ног. Анализировать мы там будем ДНК в целом — поэтому сможете жаловаться только на «недостатки ДНК» :)
Но увы, радость моя была не долгой, прочтение аннотаций показывает, что они не далеко ушли от статистических методов — хоть и используют тРНК. Хоть, конечно, статьи заслуживают внимания — как наиболее близкие по сути.
Вы мне напоминаете Фоменко, уж извените за такое сравнение. Взять однобокую методологию и упорно делать из нее далеко идущие выводы.

Имхо, вы все таки зря упираетесь в редакторское расстояние — это вероятностный подход и не стоит считать его детерминированым. За изменениями генов стоит выживание популяции и путь от одного вида до другого может быть извилистым — какие-то мутации летальны, какие-то близкие к этому, но все же возможны хоть какое-то время, но в целом разнообразие генома имеет какую-то квантованность — определенное сочетания более живучи и следовательно более вероятны. В таком поле эволюционные расстояния скорее всего будут отличаться от простого редакторского расстояния между геномами, более того вполне возможны множественные пути для отдельных генов и циклы. И чем меньше и разнообразнее вы берете последовательность тем сложнее для нее будет выглядеть эволюция, просто в силу того что близкие ( а мелкие и разнообразные последовательности будут ближе в смысле редакторского расстояния ) гены будут иметь большую вероятность переходит одна в другую. Следовательно «шум» будет больше, а измерить его мы не можем — сколько было циклов в цепочке близких генов?

Биологи же, в силу образования, имеют другие способы оценить шум для данного сигнала — в конце концов древо строилось на фенотипе и теория эволюции не пустой звук и имеет ряд фактов для подтверждения и «шумный» геном не может в этих условиях отодвинуть все остальные критерии. Берите все более длинные последовательности в которых ожидаемая вероятность шума ниже и стройте общую картину, в которой граф связей для шумных и коротких будет натягиваться на более редкий граф длинных.

Хотя все равно статистический метод ненадежен.

Удивительная способно игнорировать факты наличия высокого шума, пустые разговоры о «все остальные критерии», при этом не называя не одного и не видя, что биологи вообще не измеряют этот шум… Смешно, и я еще потом Фоменко :) Бред да и только…
Удивительно то, что вы называете дисперсию «мутным индексом», а потом всегда говорите о соотношении сигнал-шум, притом что эта величина измеряется как раз через мутные индексы:
1. надо взять сигнал (случайный процесс-- только для них задается соотношение сигнал-шум. ваши деревья, кстати, тоже можно считать случайным процессом)
2. посчитать спектральную плотность мощности (напр, посчитать автокорреляционную функцию, посчитать от нее преобразование Фурье)
3. мощность полезных гармоник разделить (сигнал) поделить на мощность шума.

А в частном случае соотношение сигнал-шум как раз считается через дисперсию сигнала.
Вы же за мат. терминами не видите сути происходящего — поэтому все что вы написали муть, и она такой и останется. Начнете говорить словами, какой смысл это имеет в реальности (для сравнения дивергенции видов, построенных по двум разным наборам признаков и как эти признаки коррелируют между собой) — тогда и поговорим.
Тут нет случайной величины — чтобы применять теорию вероятности — это можно понять?
А дальше у вас полное не понимание прочитанного — я как раз РУГАЮ использование редакторского расстояния, его повсеместно используют биологии, я же делаю другое — и как раз не вероятностное, а детерминированное. Блин, ну, хотя бы прочитали бы… прежде чем… а то отругали всех биологов, а хотели видимо меня ;)
То что вы называете детерменировано, таковым не является. Вы строите деревья на базе все того же расстояния и потом занимаетесь с ними шаманскими плясками. Если нельзя подсчитать вероятности, то нет понятия о том какое распределение, следовательно нельзя померять или хотя бы оценить дисперсию и любые известные приемы работы с ошибками суть профанация. Грубо говоря вы усредняете, считая что сумма разностей и будет коррелировать с величиной ошибки, но это верно для случайных ошибок с одинаковом распределением определенного рода. Но очевидно что для каждого гена буду свои особенности, возможно что каждое дерево будет иметь разный порядок ошибок и нельзя будет просто так сравнивать вообще — прежде чем считать что-то надо понимать что считаем — я этого у вас не вижу.

Я никого не ругаю. Все делают ошибки, а биологи… вспоминается история о количестве хромосом. Но вы… тщательно упаковываете свои ошибки.
Нет, я не строю деревья на базе редакторского расстояния! А что считаю понимаю, чего не скажешь о вас.
Откуда тогда эти деревья?
И каков характер распределения для ошибок?
О каких именно деревьях Вы говорите? В данной статье я не описывал построение деревьев моим методом, тогда о чем Вы?

О каких ошибках идет речь? Ошибках чего?
+ У меня просто негде возникнуть понятию «вероятность» — ответы «да или нет»… впрочем о чем тут с вами говорить, когда даже в «началах» не хотите разбираться и делаете абсурдные заявления.
По моему это вы не хотите разбираться в основах.
Последний человек, кому общественность прощала пренебрежение к тщательному разбору основ для своих выкладок был Ландау, но он был гением в этом плане — он никогда не делал ошибок в области применения закономерностей, по крайней мере не был в этом уличен :)
Вы по сути говорить будите, или будите выкриками тратить мое время?
Рад сообщить, что мы таки открыли сайт.

Поэтому приглашаю зайти по адресу biogenom.eu и поучаствовать в развитии. Я опубликовал две статьи в разделе «Эволюционные деревья» — они расширяют эту статью, одна дает теоретический минимум, а вторая стремится описать, дать код на C# — так, чтобы можно было воспроизвести результаты моего сравнения. (правда вторая еще не закончена). В общем не стесняемся комментируем,
Sign up to leave a comment.

Articles