tac Feb 7 2013 at 11:44

Проект «Геном прокариот» — научный стартап

11 min

13K

Self Promo

110

Comments 110

kaimi_ru Feb 7 2013 at 12:10

Честное слово, несмотря на незаконченное медицинское, после нескольких абзацев появляется стойкое желание «scroll-scroll-scroll».

Искать программистов, а потом писать кучу узкоспециализированного текста, причем без научнопопулярного введения — это плохая идея.

+13

tac Feb 7 2013 at 12:12

Т.е. вы хотите сказать, что написанный тут текст непонятен программисту? (на мой то взгляд — это и есть научпоп, в чем я ошибаюсь?)

kaimi_ru Feb 7 2013 at 12:29

Мне термины понятны. Многим программистам текст вполне может быть непонятен.

Вы пытаетесь объяснить идею и привлечь людей, но не описываете в начале простым языком цели проекта, практический смысл, да даже не даете краткую постановку задачи для компьютерного моделирования.

tac Feb 7 2013 at 12:38

Цели проекта элементарны — изучить геном прокариот, построить дерево происхождения видов, сделать выводы о ходе эволюции. Тут то и описывать нечего, поэтому я и сосредоточился на деталях. Практический смысл — это указать как нужно исследовать данный вопрос, а пока тут дано лишь то какие результаты есть у специалистов, и так сказать показано, что может быть в альтернативе.

gureedo Feb 7 2013 at 14:06

Ну вот написали же кратко, а говорили, что нельзя.

tac Feb 7 2013 at 14:14

Не, ну если об этом речь — то ок. Но вряд ли это что-то дает…

Bas1l Feb 7 2013 at 16:01

Это как нисходящее проектирование: вы начинаете с более высокого уровня абстракции, потом переходите к низкому. Так легче воспринимать статью--сразу знаешь, куда автор ведет, чего ожидать; сразу видишь за лесом деревья; легче выделять структурные блоки, выделять важное в статье, можно сразу понять, что статья неинтересна, и т.п.

В научных статьях обычно 3 уровня абстракции: abstract, introduction, сама статья.

dima_mendeleev Feb 7 2013 at 17:23

Нет, дает, я вот все проскролил, но из этого все стало ясно.

Bas1l Feb 7 2013 at 16:31

Несколько замечаний:

1. цели неизмеримы. Лучше если б это было «написать 2 статьи за 2 года/привлечь 100500 млн инвестиций за 2 года»

2. цели нереальны. «изучить геном прокариот, построить дерево происхождения видов»--это то, чем занимаются тысячи ученых по всему миру много лет. Вы можете быть даже умнее их, но у вас нет столько времени (даже если взять всю вашу жизнь, без сна и еды). И у вас нет экспертизы и опыта. И, скорее всего, вы не умнее их большей части. И если вам кажется, что они просто дурачки, и не замечают каких-то очевидных подходов, то, скорее всего, это не так.

tac Feb 7 2013 at 16:42

Вот именно «занимаются тысячи ученых по всему миру много лет», поэтому то я это написал лишь как уровень до abstract. Потом надо немного отличать научную статью, от статьи на хабре :) — цели разные.

В introduction же говорится о детерминированном подходе применительно к «целям». Это то, что отличает меня от «тысячи ученных». Ну, и зачем «дурачки» я такого нигде не говорил. Но детерминированный подход они не используют.

А вот в самой статье начиная с раздела «Собственно эксперимент» — я начал говорить, что им детерминированный подход есть для чего использовать, и далее собственно то что я собираюсь написать в следующей статье покажет на сколько…

gureedo Feb 7 2013 at 12:28

а можно кратко описать суть статьи?

tac Feb 7 2013 at 13:28

Еще короче? Нет, нельзя.

-5

Bas1l Feb 7 2013 at 12:34

Я считаю, что вам надо проконсультироваться со специалистами в этой области, притом обязательно с теми, у которых есть публикации в рецензируемых международных журналах по этой теме. Вероятно, вы услышите немало критики. Еще лучше попробовать опубликовать статью в рецензируемом международном журнале--вы тоже, вероятно, услышите немало критики. Я считаю, это может очень помочь в расстановке приоритетов, оценке собственных ресурсов и качества результатов. Так вы сэкономите свое время и время людей, которых хотите привлечь к проекту.

Кроме того, мне кажется, вашей основной задачей должна быть публикация статей в международных профильных журналах--иначе никто из отрасли о ваших результатах не узнает, а те, кто узнает--не поверят (потому что результаты не прошли peer review).

tac Feb 7 2013 at 12:46

А я вот как раз считаю, что это вторично. Писать статьи в международных журналах — опыт я имею. Там часто критика не касается сути статей. Разговаривать со специалистами — тоже было. Да, они могут критиковать — но «что слова» — а анализ результатов действительно специалистов — я тут вам и показал (последний раздел, это то что делает проект The All-Species Living Tree, у которых множество статей — только вот результат слабоват). Поверьте такое они не напишут не в одной статье, там все прилизано и если «что-то не так» внимание читателя отвлечено другим.

Bas1l Feb 7 2013 at 16:58

1. опыт, видимо, неудачный. Для этого статьи и рецензирование и нужны--чтобы отсеивать неподходящий материал. Вместо того, чтоб продолжать писать статьи на хабр в свободное время, лучше вам подумать, что именно не так в вашем подходе. И если уж совсем интересно, найти профессора в Европе/США (по вашей теме, computational biology, computational genetics), подать заявку на PhD и поработать full-time 4 года над этой темой.

2. Критика иногда не касается сути, но в основном касается. Рецензенты, конечно, тоже разные бывают. Ну и характер замечаний разный--major, minor, critical.

3. Ваш анализ результатов меня, даже как дилетанта, не устраивает:
серьезные замечания:
а. детерминистический подход в принципе не может работать--во всех генах присутствуют случайные мутации, это одна из основ эволюции. Поэтому стохастический подход явно лучше детерминистического.
б. Сравнение двух деревьев--это стандартная задача. Вы их сравниваете явно кустарным способом. Потрудитесь поискать хоть что-нибудь об этой теме.
мелочи:
в. «распределениями вероятности, оценками смещения, дисперсии и т.п. мутными индексами и ничего не говорящими коэффициентами» Если вам, как программисту, не читали основы теории вероятности--то это ваши проблемы. Почитайте курс лекций какой на досуге (курсера, напр), и научитесь разбираться в мутных индексах.
г. у вас нет ни одной (!) ссылки на научные статьи. Это не вызывает доверия--может, вы вообще в теме не разбирались.

4. если результат The All-Species Living Tree слабоват, то обычно появляются статьи с критикой--это же выгодно критикующим (к ним сразу пристальное внимание). Она вполне может быть очень жесткой (пример из физики, правда).

В общем, я считаю, что вы напрасно тратите свое время и время людей, которых привлекаете. И даже если ваши результаты будут чего-то достойны, о них никто не узнает и на них никто не обратит внимания. Кроме того, глупо думать, что если вы хороший программист, то легко войдете в генетику и расскажете тысячам пацанов, что они 30 лет были неправы, и вообще все разложите по полочкам (так называемый «синдром программиста»).

tac Feb 7 2013 at 17:16

Ну, считайте как хотите… опыт у меня разный, правда несколько по другой теме… и статей 10 я опубликовал, а «крестиком вышивать» в PhD нет никакой необходимости…

Короче потрудитесь разобраться и понять, и написать хоть что-то по сути, а такая поверхностная без претензии на содержательность критика меня волнует мало.

-3

tac Feb 7 2013 at 17:20

А в этой теме — я намерено думаю продвигаться неформальным способом — думаю он более оправдан.

-3

Bas1l Feb 10 2013 at 01:51

Вот еще немного критики, раз старая не понравилась вам:
1.

Да, метод «собственный» сравнения деревьев, но он простой и ясно показывает, что нужно. Мне не нужно для элементарных вещей изучать что-то еще, что не дает такого же четкого результата.

Пример: мы хотим сравнить две строки--посчитать расстояние между ними (это могут быть как раз последовательности нуклеотидов). Строки «ABCA» и «ACBA». Вы придумаете кустарный способ, и будете считать число удалений и число вставок букв в певрую строку, чтоб получить вторую. Получите расстояние 2 (удалить B слева от C, вставить B справа от C). А есть нормальный алгоритм сравнения--расстояние Левенштайна. Он даст расстояние, равное 1 (поменять местами B и C) (в ДВА раза меньше, чем ваше кустарное). Алгоритм надо выбирать в зависимости от задачи, и для сравнения генов используется как раз расстояние Левенштайна. То есть ваш кустарный способ будет давать систематическую ошибку вплоть до 2 раз.

Так же и с деревьями--ваш кустарный способ может давать систематическую ошибку в несколько раз, и ваш график в конце статьи сейчас можно смело выбрасывать.

2. Важное замечание. Ваш график ошибок не показывает, что ваш метод работает правильно, а TASLT--неправильно. Он показывает, что два метода дают разные результаты. И, поскольку TASLT--код проверенный, свободный, результаты опубликованы во многих журналах, прошли peer review, я, как непредвзятый читатель, скорее подумаю, что это ВАШ метод неправильный и ошибочный. Может, у вас просто баги в коде. То есть вы делаете принципиально неправильный вывод из этого графика.

tac Feb 10 2013 at 02:03

1. Смешная критика — сами придумали что-то, приписали мне, покритиковали то, что сами придумали приписав мне… смешно, оригинально.
2. Еще смешнее, мои результаты я еще даже не озвучивал — а уже мой метод работает неправильно :) А далее, «поклоны погонам» — раболепие в крови… понятно когда сами ничего посчитать не можем даже элементарное как здесь — надо рассчитывать на peer review… не это же проблема в самом деле, опубликовать мой метод не проблема.

Мой график ошибок показывает однозначно, то что деревья построенные TASLT по разным генам 16S и 23S совпадают лишь на 50%, еще в 30% ошибка не большая, а в 5-15% ошибка существенна.

Поэтому в целом этим деревьям можно доверять как 50 на 50 (ну немного больше).

Bas1l Feb 10 2013 at 02:20

Я постарался привести простой доступный пример, когда кустарный метод дает систематическую ошибку, хотя выглядит очень даже ничего. Вам я ничего не приписывал. И систематическая ошибка может присутствовать в вашем кустарном методе сравнения деревьяв. Пока вы не докажете обратное, графику верить нельзя.

-1

tac Feb 10 2013 at 02:30

Берите проверяйте — как можно доказывать человеку, который ничего не читает и не проверяет?

Bas1l Feb 10 2013 at 03:02

Это ваша задача доказать мне, что ваш метод работает. В научном методе и других областях знания (судебная система, напр) есть специальный термин для этого--burden of proof, бремя доказательства. А вы делаете типичную ошибку--перекладываете это бремя на меня (читателя).

-1

tac Feb 10 2013 at 03:05

Это не так, я все доказал уже. А Вы хотите убедится. Я предоставляю вам для этого все что нужно (начнем хотя бы с малого, см. пример ниже). Но вы ничего не делаете, чтобы убедится (не пошли и не проверили, отличаются ли расположение этих видов). Тут не нужны мат. выкладки — нужно всего лишь посмотреть «есть стул под столом, или нет».

tac Feb 10 2013 at 03:10

вот сюда habrahabr.ru/post/166361/#comment_5849471

tac Feb 10 2013 at 02:08

И еще — вы уверены, что есть метод сравнения деревьев:
1. назовите мне название
2. назовите его отличия от моего метода

(в силу элементарности — даже если такой метод есть, то или он будет чего-то не учитывать, или он будет такой же как у меня)

Bas1l Feb 10 2013 at 02:18

Гугл

Первый из обзоров

tac Feb 10 2013 at 02:20

Словами!

Bas1l Feb 10 2013 at 02:24

Простите, я вам ничего не должен. Хотите--читайте, не хотите--не читайте. Но не удивляйтесь, что вашим результатам никто не поверит.

-1

tac Feb 10 2013 at 02:28

А в таком случае — перестаньте писать ерунду, т.к. вы не понимаете о чем говорите.

tac Feb 10 2013 at 02:31

Вы даже не понимаете о каком сравнении деревьев идет речь!

tac Feb 10 2013 at 02:26

+ это все мимо! Вы не понимаете о чем говорите, точнее подсовываете мне, не утруждая себя обдумыванием, всякую ерунду не относящуюся к делу.

tac Feb 10 2013 at 02:11

А по поводу багов — так в чем проблема, возьмите деревья из TASLT и сравните / проверьте сами… и тогда поговорим.

tac Feb 10 2013 at 02:22

Вот вам для примера откройте одно дерево и второе, посмотрите как далеко расположены два вида
Caldicellulosiruptor saccharolyticus и Dictyoglomus thermophilum, в одном дереве они будут близко, в другом далеко! Чтобы это значило?… Могу таких примеров дать целую кучу — сверять будите? Нет, тогда оставьте свои домыслы при себе!

tac Feb 7 2013 at 17:18

Ну, отвечу только на серьезное заблуждение:

«во всех генах присутствуют случайные мутации» — это не так, и именно поэтому возможен детерминированный подход.

-3

tac Feb 7 2013 at 17:25

Перепроверить проект The All-Species Living Tree — можно любому за несколько дней — нет доверия моим результатам — дайте свои, а огульно плести чушь — может каждый!

Да, метод «собственный» сравнения деревьев, но он простой и ясно показывает, что нужно. Мне не нужно для элементарных вещей изучать что-то еще, что не дает такого же четкого результата.

-2

gleb_kudr Feb 7 2013 at 13:16

Автор тут не первый месяц. Специалистов он не любит, т.к. они его регулярно тыкают носом в школьные ляпы. Эдакий Петрик от генетики.

tac Feb 7 2013 at 13:24

Настоящих специалистов я люблю, особенно когда они говорят по сути, а не «хватаются за погоны». А вот «специалистам», хватающимся за погоны — их логику жизни — я действительно игнорирую. И еще раз я же просил — критиковать результаты, а не меня.

-1

AdvanTiSS Feb 7 2013 at 14:47

Статья получила наивысшую оценку по критериям псевдонаучности

tac Feb 7 2013 at 15:21

Ага, «а судьи кто»?

-4

AdvanTiSS Feb 8 2013 at 12:23

Вы хотели критику? Вот вам и критика, все чётко и по пунктам. Нужно следовать определенным правилам, если хотите, чтобы серьезные люди воспринимали Вас всерьез.

Эволюция не идет по Дарвину, т.е. попросту у организмов нет общего предка и никогда его не было.

Теория Дарвина объясняет не происхождение жизни, а её разнообразие

tac Feb 8 2013 at 12:34

О каких пунктах речь?

«Теория Дарвина объясняет не происхождение жизни» — да ну? («курите» — Дарвин Ч., Происхождение видов путем естественного отбора)

И не отвлекайте серьезных людей своими глупыми придирками, а не обсуждением сути статьи.

-3

AdvanTiSS Feb 8 2013 at 13:28

«Дарвин Ч., Происхождение видов путем естественного отбора» — где именно тут упоминается происхождение жизни? И где Дарвин утверждает что все организмы происходят от общего предка?
Горизонтальный перенос, в свою очередь, это такая же теория разнообразия видов, которая скорее дополняет теорию Дарвина, объясняя причины возникновения мутаций, а не замещает её.

tac Feb 8 2013 at 13:32

ну, основы дарвинизма нужно знать — и тут не место вас учить… тем паче при таком отношении. Давай, до свидания :)

-2

tac Feb 7 2013 at 18:16

А вообще я несколько в замешательстве. А давайте всем кто пишет на хабр — будем говорить «пишите в рецензируемые журналы», иначе «никто ничему не поверит». Может автор лучше знает куда и с какой цель он пишет, об этом не задумывались?

-2

PaulIsh Feb 7 2013 at 12:47

Прочитал 1 раз. Как программисту из всего текста мне пока понятна идея сравнения деревьев. тРНК, рРНК, необходимость выравнивания пока ни о чем мне не говорит — видимо надо что-то вводное читать.

tac Feb 7 2013 at 12:52

Ну, вы поняли самое главное — уже хорошо. Действительно на хабре я написал почти десяток статей на эту тему — если есть желание разобраться посмотрите мои статьи в хабе Биоинформатика. Ну, и всегда можно меня спросить :)

rusevgen Feb 7 2013 at 13:05

Так как статья для «обычных» людей просьба писать в начале краткое содержание человеческим языком, а то ничего не понятно — да есть выкладки, ошибки, метрики, но в чем изначальная проблема? Явно же в этих сложных изысканиях сокрыт какой-то простой «обычночеловеческий» вопрос, ради которого все это и исследуется

tac Feb 7 2013 at 13:15

Всем хочется кратко, и лень читать/разбираться я понимаю.

Можно начать так (для программистов читать задом на перед статью):

1. Надо открыть ссылки на построенные эволюционные деревья
«Итак нам надо сравнить между собой два дерева построенному по гену 23S рРНК и построенному по гену 23S рРНК являющиеся последним результатом проекта The All-Species Living Tree.»
2. Дальше в статье описано как можно сравнить эти деревья (понять общие принципы).
3. Дальше почитать про филогенетический сигнал, который есть результат сравнения этих деревьев
4. Подумать вместе с автором статьи — почему это филогенетический сигнал не столь четкий и как его можно улучшить.

А если уж совсем «легковесно» — то задача проста как некогда — понять как эволюционировали бактерии и как последовательно изменялась их ДНК.

-1

borsh Feb 7 2013 at 13:09

Текст сложен не в научном плане, он просто сложно написан, начиная с самого первого «Этот проект был задуман давно.» которое можно спокойно выкинуть, учитывая что дальше идет «Лет 5 назад я считал, что многие результаты в геномике ...».

tac Feb 7 2013 at 13:21

Ну, думаю эти строки все хорошо поняли :) а если дальше «выкидывать» — то станет совершенно не ясно… Ну, и потом — давайте обсуждать, что именно сложно/неясно т.д. — в дискуссии я готов пояснять, другое дело, что должно быть желание разобраться… и тогда все будет легко, ведь я ровно такой же программист как многие тут… и ничего кроме желания у меня 5 лет назад не было…

-1

borsh Feb 7 2013 at 13:43

Вы не поверите, но мне даже этот комментарий сложно читать…

tac Feb 7 2013 at 13:48

Ну, тогда может «Курочка ряба» будет в самый раз :)

-5

gigimon Feb 7 2013 at 15:35

Вы б вначале написали, какой «этот» проект задумывался :(

tac Feb 7 2013 at 15:46

я ж уже даже вставил

[Впрочем пару слов вставлю, т.к. ниже многие жалуются, что я начал «с места в карьер». Основная идея/задача проекта понять как эволюционировали бактерии и как последовательно изменялась их ДНК. Для этого строим дерево дивергенции видов и анализируем их.]

halyavin Feb 7 2013 at 19:09

Тогда вопрос заключается в следующим: если последовательности тРНК разделить на две части и построить два разных дерева — они совпадут или нет? Ответ: они совпадут на 100%.

Что вам мешает разрезать геном на две части и получить точно такую же кроссвалидацию?

tac Feb 7 2013 at 19:16

Нечто подобное я и собираюсь сделать (придется подождать следующую статью, уже скоро)… Но в цитате говорится немного о другом. Там было важно понять, влияет величина и состав выборки или же это ошибки метода. Так вот в детерменированном подходе возможно влияние только величины и состава выборки, в то время как в статистическом обеих факторов.

halyavin Feb 7 2013 at 22:56

Если разрезать геном (а не набор подстрок) на две части и провести кроссвалидацию, то получатся разные деревья и вылезет ошибка метода. «Ошибка метода» присутствует всегда, какой бы метод ни был.

tac Feb 7 2013 at 23:23

Если разрезать геном — то будет разный состав выборки, а не «ошибка метода»

halyavin Feb 8 2013 at 10:48

Если разрезать ген 16S — то будет разный состав выборки, а не ошибка метода.

tac Feb 8 2013 at 11:13

нет, состав будет тот же! Последовательность нуклеотидов с одинаковым ID — правая и левая часть.

halyavin Feb 8 2013 at 11:47

Состав выборки (для организма) = (по определению) отрезки нуклеотидов взятые из генома. Разные отрезки — разные выборки.

tac Feb 8 2013 at 12:05

Не понятно — что непонятно?

Имеем 10 геномов g1, g2… g10. Судить о их близости можно по некоторым последовательностям нуклеотидов скажем n1, n2… n100. Эти последовательности могут быть по разному входить в геном. В g1 есть n1, n5, n23, в других другой набор… может частично пересекаться.

Теперь предположим, что мы однозначно идентифицировали какой набор последовательностей входит в геномы. Далее разрежим последовательности n на две части nl и nr.

В случае статистического подхода далее нужно будет сделать выравнивание — оно даст ошибку, т.е. деревья будут разные построенные на основании частей nl и nr.

В детерминированном подходе никакое выравнивание не нужно — деревья построенные на основании частей nl и nr — будут идентичны.

tac Feb 8 2013 at 12:10

И да выборка — это набор (полное перечисление) n1, n2… n100 — оно в этом мысленном эксперименте одно и то же, но результат для разных подходов разный.

halyavin Feb 8 2013 at 16:46

Резать на две части нужно gX. В случае одного гена для статистического алгоритма получится то же самое что и при разрезании nX (если пренебречь отличиями в выравнивании около разреза). В случае вашего алгоритма — получится правильная кроссвалидация вашего алгоритма.

tac Feb 8 2013 at 17:00

Если мы будем резать gX, то в правой части будут одни nX, а в другой другие — и получим разно мощную выборку. Вы пытаетесь сравнить методы по разному, ставя их в разные условия.

-1

halyavin Feb 10 2013 at 00:30

В обоих случаях разрезаем gX, значит по определению мы ставим алгоритмы в одинаковые условия. Это называется кросс-валидацией. Она позволяет грубо оценить качество алгоритма. Если ваш алгоритм ее не проходит — значит его результат не имеет ничего общего с реальностью.

Возможно, имеет смысл разрезать gX хитрее, если есть существенные статистические отличия между началом и концом генома. К примеру, разбить на 2N частей и четные поместить в одну половину, а нечетные — в другую. Но N нельзя делать слишком большим (большинство генов должно попадать в одну и ту же половину).

tac Feb 10 2013 at 00:52

Вы понимаете, что gX никто не разрезает? Ни я, ни биологи.

Далее вы мешаете в одну кучу мой мысленный эксперимент и реальный эксперимент — а это разные вещи.

-1

tac Feb 10 2013 at 01:06

Биологи берут просто два разных гена, что тоже самое nX, из одного организма (генома) — и проводят кросс-валидацию на одно и втором гене (это если проводят, и собственно за них я это в этой статье и сделал).

halyavin Feb 10 2013 at 09:41

Это и есть разрезание gX состоящей из двух генов на две части. Один ген — в одной части, другой ген — в другой части.

tac Feb 10 2013 at 12:52

Это какое-то искусственное изложение. В геноме как минимум могут быть дубликаты — тогда это разрезание gX — на число имеющихся генов 16S и 23S… хотя нас интересует только один. Могут быть еще разные последовательности 16S и 23S в одном геноме — отличающиеся мутациями. В итоге мы точно не знаем на сколько разрезан геном — а это то и неважно… так как сравниваем всего несколько 16S и 23S, а как они находились в геноме — совершенно не важно.

tac Feb 10 2013 at 01:12

Кросс-валидация позволяет определить не качество алгоритма!!! А влияние выборки на результат, так сказать представимость выборки.

А качество алгоритма можно оценить тогда, когда выборка одинакова. В реальности этого быть не может, именно поэтому я говорил о мысленном эксперименте, где легко установить идеальные условия, чтобы сравнить алгоритмы.

-1

halyavin Feb 10 2013 at 10:18

Кросс-валидация позволяет оценить ошибку полученного результата. Она состоит из неустранимой ошибки (принципиальной не возможности определить дерево по геному) и ошибки алгоритма относительно идеального алгоритма.

Отделить одно от другого очень трудно.

Ваш же мысленный эксперимент не позволяет определить вообще ничего.

tac Feb 10 2013 at 12:58

Мой мысленный алгоритм как раз показывает выделяет эти две части «ошибки». Вы их как то странно называете правда: первое это не ошибка — а стабильность сигнала при определенной мощности выборки, второе действительно можно назвать ошибка алгоритма относительно идеального алгоритма.

Так вот у меня и есть этот самый идеальный алгоритм (правда в рамках той информации, которую с помощью него можно получить). В то время как классически — выравнивание мешает «идеальности».

Чтобы увидеть «идеальность» моего алгоритма — нужно всего лишь предположить, что мы правильно нашли гены в геноме. А для классического алгоритма этого мало.

tac Feb 10 2013 at 13:06

И да, теперь мне остается определить для своего алгоритма — какая вашими словами величина «неустранимой ошибки», а именно влияние доступной для алгоритма выборки. Т.к. мой метод и классический по 16S — отличается кроме прочего — разными выборками которые анализируют.

tac Feb 10 2013 at 13:10

Для проверки в моем алгоритме «неустранимой ошибки» у меня будет полная выборка вида: Кусок ДНК такой-то принадлежит такому то геному. И таких записей порядка 900 тыс. я собираюсь взять и разделить эту выборку на две случайным образом по 450 тыс. каждая… и построить деревья отдельно по каждой, и сравнить затем.

halyavin Feb 10 2013 at 13:41

Вам мысленный эксперимент никак не выделяет эти две части ошибки. И потому ваш алгоритм не является идеальным (как и любой другой).

tac Feb 10 2013 at 13:46

У вас голословное утверждение, а в статье все написано и написано почему!

halyavin Feb 10 2013 at 14:18

Все ваши «объяснения» и «обоснования» в статье абсолютно голословны. Метод же с разрезанием генома на две части имеет твердые обоснования.

tac Feb 10 2013 at 13:51

Я так понимаю, вы возражаете против следующего утверждения в статье:

«если последовательности тРНК разделить на две части и построить два разных дерева — они совпадут или нет? Ответ: они совпадут на 100%.»?

Тогда потрудитесь объяснить — почему это деревья не совпадут?

halyavin Feb 10 2013 at 14:26

Я возвражаю против того, что это говорит о нулевой ошибке алгоритма.

tac Feb 10 2013 at 15:10

Постойте ка — если деревья идентичные, то о какой ошибке речь? Или что «это»?

tac Feb 10 2013 at 15:16

Или вам кажется, что и сравнение по разрезанному надвое гену 16S — будет без ошибочное?

Kalobok Feb 7 2013 at 19:57

> Я удивлен, но специалисты этой альтернативы не предлагают и не видят.

А вы проверяли? Может, у вас специалисты были недостаточно специальные? Даже очень беглый поиск показывает, что видят, предлагают, но, судя по всему, не все так просто с этой альтернативой. Навскидку парочка статей (если не откроется — пишите в личку, пришлю тексты):

www.ncbi.nlm.nih.gov/pmc/articles/PMC2905747/
www.ploscompbiol.org/article/info%3Adoi%2F10.1371%2Fjournal.pcbi.1000018

И вот еще какой-то простой алгоритм упоминается — работают люди в этом направлении. Полный текст могу попробовать найти.

link.springer.com/article/10.1007/BF01808277?no-access=true

tac Feb 7 2013 at 20:08

Ну, так замечательно :) Значит есть на кого сослаться, так что я тоже в тренде :) Но результатов то у меня все равно больше :)

-1

Kalobok Feb 7 2013 at 20:30

Больше? Я вам привел первые попавшиеся статьи. Поищите — думаю, там этих результатов на десятерых хватит. Я просто показал, что ваше утверждение о том, что этого подхода специалисты не видят, мягко говоря, неверно. Видят. Но почему-то не очень используют. Наверное, не все там так радужно.

tac Feb 7 2013 at 20:42

Вы ничего не показали, называйте все своими именами. Кинули первые попавшиеся статьи, которые немного близки. А уже про «радужно» — вообще не серьезно обсуждать на таком уровне.

-1

Kalobok Feb 7 2013 at 20:45

Ок, продолжайте верить, что вы самый умный и никто кроме вас не догадался использовать тРНК, хотя это решает все проблемы современной биологии.

tac Feb 7 2013 at 20:52

Разговор ни о чем. Мне ни сколько не жалко, что кто то до чего то догадался. Но речь то совсем о другом, а не о тРНК. Читать статью пробовали?

-1

tac Feb 7 2013 at 20:44

Где написано, что «не очень используют»? Что именно «не очень используют»? Как это соотносится с моей статьей?

Ни одного ответа на это, а чтобы говорить хоть на грамм серьезнее — вам надо начать было с этого.

-1

tac Feb 7 2013 at 20:45

Они по прежнему не видят! Точнее видят в другом свете…

tac Feb 7 2013 at 20:51

И да больше! Они анализируют очень мало 175 genomes, по отдельным тРНК (а не по всем) — короче все того объема как я делал в самой первой/второй статье на эту тему. И главное — как анализируют — снова же статистически! А что они получают? И потом статьи — это не результат, а отчет. В статьях результатов нет… вот в проекте The All-Species Living Tree есть результат — готовые построенные деревья, которые можно анализировать. Собственно что я и сделал для этого проекта, а те статьи которые вы дали уступают даже этому проекту The All-Species Living Tree — в десятки раз… так о чем разговор?

-1

Kalobok Feb 7 2013 at 21:05

Я вам уже сказал — это первые попавшиеся статьи, которые просто демонстрируют, что специалисты прекрасно знают о возможности использования тРНК для филогенетического анализа и пользуются ей. Дальше читайте, разбирайтесь, ищите сами. Возможно, где-то делают что-то похожее на ASLT. Возможно, никто так не делает, но причину тогда надо искать не в глупости специалистов — как мы видим, они в курсе, а в недостатках тРНК — вы могли чего-то не учесть.

tac Feb 7 2013 at 21:10

А собственно зачем мне это надо? Разбираться в чужих глупостях… кто-то из умных докрутил, что можно использовать тРНК, но как видим далеко не все. А те кто докрутил, не докрутил до другого… чего мне там еще учитывать… пишу продолжение этой статьи, так сказать финально демонстрирую преимущество моего детерминированного подхода — и все, пусть остальные сверяются со мной, что они делают не так… не у них, а у меня результаты :)

-1

tac Feb 7 2013 at 21:13

Ну, это правда — при условии, что у меня результаты (согласно графику ошибок (см. последний рис. в статье)) будут лучше… я просто еще не закончил… но уверен в лучшем, хоть могу и ошибаться.

-1

tac Feb 7 2013 at 21:28

И да предвосхищая следующую статью, скажу, что аргумент основанный на «недостатках тРНК» (что вообще-то глупость) — я и этот слабый аргумент выбью у вас из под ног. Анализировать мы там будем ДНК в целом — поэтому сможете жаловаться только на «недостатки ДНК» :)

-1

tac Feb 7 2013 at 20:15

Но увы, радость моя была не долгой, прочтение аннотаций показывает, что они не далеко ушли от статистических методов — хоть и используют тРНК. Хоть, конечно, статьи заслуживают внимания — как наиболее близкие по сути.

-1

Wott Feb 9 2013 at 00:14

Вы мне напоминаете Фоменко, уж извените за такое сравнение. Взять однобокую методологию и упорно делать из нее далеко идущие выводы.

Имхо, вы все таки зря упираетесь в редакторское расстояние — это вероятностный подход и не стоит считать его детерминированым. За изменениями генов стоит выживание популяции и путь от одного вида до другого может быть извилистым — какие-то мутации летальны, какие-то близкие к этому, но все же возможны хоть какое-то время, но в целом разнообразие генома имеет какую-то квантованность — определенное сочетания более живучи и следовательно более вероятны. В таком поле эволюционные расстояния скорее всего будут отличаться от простого редакторского расстояния между геномами, более того вполне возможны множественные пути для отдельных генов и циклы. И чем меньше и разнообразнее вы берете последовательность тем сложнее для нее будет выглядеть эволюция, просто в силу того что близкие ( а мелкие и разнообразные последовательности будут ближе в смысле редакторского расстояния ) гены будут иметь большую вероятность переходит одна в другую. Следовательно «шум» будет больше, а измерить его мы не можем — сколько было циклов в цепочке близких генов?

Биологи же, в силу образования, имеют другие способы оценить шум для данного сигнала — в конце концов древо строилось на фенотипе и теория эволюции не пустой звук и имеет ряд фактов для подтверждения и «шумный» геном не может в этих условиях отодвинуть все остальные критерии. Берите все более длинные последовательности в которых ожидаемая вероятность шума ниже и стройте общую картину, в которой граф связей для шумных и коротких будет натягиваться на более редкий граф длинных.

Хотя все равно статистический метод ненадежен.

tac Feb 9 2013 at 07:56

Удивительная способно игнорировать факты наличия высокого шума, пустые разговоры о «все остальные критерии», при этом не называя не одного и не видя, что биологи вообще не измеряют этот шум… Смешно, и я еще потом Фоменко :) Бред да и только…

Bas1l Feb 10 2013 at 01:37

Удивительно то, что вы называете дисперсию «мутным индексом», а потом всегда говорите о соотношении сигнал-шум, притом что эта величина измеряется как раз через мутные индексы:
1. надо взять сигнал (случайный процесс-- только для них задается соотношение сигнал-шум. ваши деревья, кстати, тоже можно считать случайным процессом)
2. посчитать спектральную плотность мощности (напр, посчитать автокорреляционную функцию, посчитать от нее преобразование Фурье)
3. мощность полезных гармоник разделить (сигнал) поделить на мощность шума.

А в частном случае соотношение сигнал-шум как раз считается через дисперсию сигнала.

-1

tac Feb 10 2013 at 01:45

Вы же за мат. терминами не видите сути происходящего — поэтому все что вы написали муть, и она такой и останется. Начнете говорить словами, какой смысл это имеет в реальности (для сравнения дивергенции видов, построенных по двум разным наборам признаков и как эти признаки коррелируют между собой) — тогда и поговорим.

tac Feb 10 2013 at 01:50

Тут нет случайной величины — чтобы применять теорию вероятности — это можно понять?

tac Feb 9 2013 at 08:04

А дальше у вас полное не понимание прочитанного — я как раз РУГАЮ использование редакторского расстояния, его повсеместно используют биологии, я же делаю другое — и как раз не вероятностное, а детерминированное. Блин, ну, хотя бы прочитали бы… прежде чем… а то отругали всех биологов, а хотели видимо меня ;)

Wott Feb 9 2013 at 10:34

То что вы называете детерменировано, таковым не является. Вы строите деревья на базе все того же расстояния и потом занимаетесь с ними шаманскими плясками. Если нельзя подсчитать вероятности, то нет понятия о том какое распределение, следовательно нельзя померять или хотя бы оценить дисперсию и любые известные приемы работы с ошибками суть профанация. Грубо говоря вы усредняете, считая что сумма разностей и будет коррелировать с величиной ошибки, но это верно для случайных ошибок с одинаковом распределением определенного рода. Но очевидно что для каждого гена буду свои особенности, возможно что каждое дерево будет иметь разный порядок ошибок и нельзя будет просто так сравнивать вообще — прежде чем считать что-то надо понимать что считаем — я этого у вас не вижу.

Я никого не ругаю. Все делают ошибки, а биологи… вспоминается история о количестве хромосом. Но вы… тщательно упаковываете свои ошибки.

tac Feb 9 2013 at 10:47

Нет, я не строю деревья на базе редакторского расстояния! А что считаю понимаю, чего не скажешь о вас.

Wott Feb 9 2013 at 10:54

Откуда тогда эти деревья?
И каков характер распределения для ошибок?

tac Feb 9 2013 at 10:56

О каких именно деревьях Вы говорите? В данной статье я не описывал построение деревьев моим методом, тогда о чем Вы?

О каких ошибках идет речь? Ошибках чего?

tac Feb 9 2013 at 10:55

+ У меня просто негде возникнуть понятию «вероятность» — ответы «да или нет»… впрочем о чем тут с вами говорить, когда даже в «началах» не хотите разбираться и делаете абсурдные заявления.

Wott Feb 9 2013 at 11:02

По моему это вы не хотите разбираться в основах.
Последний человек, кому общественность прощала пренебрежение к тщательному разбору основ для своих выкладок был Ландау, но он был гением в этом плане — он никогда не делал ошибок в области применения закономерностей, по крайней мере не был в этом уличен :)

tac Feb 9 2013 at 11:04

Вы по сути говорить будите, или будите выкриками тратить мое время?

tac Feb 11 2013 at 22:38

Рад сообщить, что мы таки открыли сайт.

Поэтому приглашаю зайти по адресу biogenom.eu и поучаствовать в развитии. Я опубликовал две статьи в разделе «Эволюционные деревья» — они расширяют эту статью, одна дает теоретический минимум, а вторая стремится описать, дать код на C# — так, чтобы можно было воспроизвести результаты моего сравнения. (правда вторая еще не закончена). В общем не стесняемся комментируем,

Show the best of all time