tac Jul 4 2012 at 02:23

Использование UML для эксперимента по эволюционной систематике прокариот, и косвенно о психологии ученых

7 min

2.2K

Comments 14

Kalobok Jul 4 2012 at 05:02

Маленькое замечание не по делу:

Но увы, такие нынешние нравы людей, которые получили диплом биолога (биофизика, биохимика ...) и немного начали разбираться в программировании и теперь работают в солидном месте.

Не «диплом биолога», а кфмн (да, по биофизике, но с уклоном в мат. моделирование). Опыт в программировании у меня к моменту получения работы в NCBI был больше 10 лет. Теперь, стало быть, больше 20. :)

Ну и не могу не придраться к мелочи, сказанной матерым программистом:

Уже после длины > 10 случайность совпадения приближается к нулю

Давайте посчитаем вместе. В каждой позиции у нас 4 варианта. 10 позиций подряд — 4^10 = 1 мегавариант. Длина бактериального генома вполне сопоставима. Так что вероятность случайного совпадения отнюдь не приближается к нулю. Скорее, к единице.

Удачи.

tac Jul 4 2012 at 05:16

> Давайте посчитаем вместе.

Сделайте проще. Возьмите строку из 10 случайных нуклеотидов и проверьте сколько совпадений вы получите в геноме. Число будет крайне малым.

Kalobok Jul 4 2012 at 05:47

А теорвер и не говорит, что совпадений должно быть много. Но вероятность найти хотя бы одно случайное совпадение в двух произвольных геномах достаточно высока.

Я вот взял первую попавшуюся бактерию, поискал несколько случайных последовательностей из 10 баз. Из 5-6 проб не нашлась только одна (возможно, она тоже нашлась бы, если бы файл не был порезан на строки). Некоторые нашлись по 2-3 раза. Увы.

tac Jul 4 2012 at 05:57

Ну, так вы просто слишком буквально трактуете мою фразу, не замечая знака больше десяти и слова «приближается».

То что вы нашли по 2-3 раза — это мало. И заметьте, что это не случайно — посмотрите, что это за участки ДНК — наверняка речь идет о дубликате одного и того же белка или РНК. А одно совпадение — это уже отсутствие случайности совпадения.

Kalobok Jul 4 2012 at 06:17

Давайте вернемся к вашему начальному утверждению. Вы говорили, что вероятность совпадение даже 10 баз между разными геномами близка к 0. Не очень понятно, имелось ли в виду совпадение между двумя геномами, или присутствие одинаковой строки во всех 2000, но это не принципиально.

Я взял первые попавшиеся последовательности из 10 баз (руками набрал белиберду) и нашел практически все в конкретном геноме. А все потому, что при размере генома в несколько мегабаз там с достаточно большой вероятностью найдется любая строка из 10 букв.

Даже если вы возьмете 2000 геномов, вероятность, что они все пересекутся хотя бы по одной 10-символьной строке достаточно велика и уж точно не стремится к 0.

С более длинными строками, конечно, будет получше. Но тоже без гарантии.

Кстати, не забудьте, что, строго говоря, надо проверять и комплементарные строки. Это еще повышает вероятность «успеха».

tac Jul 4 2012 at 06:33

Ладно, с 10-ю убедили. Но с 70 там гарантии 100% :) Иначе бы ошибался сам генный аппарат. Да, и не натыкался я никогда на такой случай, чтобы искал тРНК, а получил бы кусок какого-то белка.

Но, я говорил, все-таки немного другое, вероятность того, что последовательности, большие 10 баз является частью другого гена достаточно мала. Т.е. встретится она может в геноме, но того, что это будут участки разных генов — это редкость.

Возможно оценки 10, которая конечна взята с потолка, мало — при желании можно задаться цель и выяснить сколько же 20 или 30… но не суть.

Kalobok Jul 4 2012 at 06:38

100% гарантии нет нигде. :) И генный аппарат вполне может ошибаться. Просто эти ошибки попадают в мусор и никому не видны. Хотя, вероятность, конечно, не так велика, как для 10-11 баз.

И я, все-таки, думаю, что 10 — маловато. Лучше брать побольше — там вероятность ошибки падает достаточно быстро.

tac Jul 4 2012 at 06:45

Согласен. Но на практике я и взял побольше — от 70.

Kalobok Jul 4 2012 at 06:18

А, да, 2-3 раза в одном геноме, в разном окружении (проверил, ага) — нет, это точно не копии одного гена. Это именно случайность.

tagir_valeev Jul 4 2012 at 08:51

Я правильно понял, что UML по сути только для визуализации графа? Почему бы не воспользоваться более абстрактными средствами (тот же Graphviz) и рассуждать в терминах вершин и рёбер графа? Сравнение с классами кажется несколько натянутым…

tac Jul 4 2012 at 15:03

Можно и так, возможно так даже проще будет, но не столь выразительно как на UML.

tac Jul 4 2012 at 15:21

Впрочем отобразить то можно. Но тут главное начать группировать, а в Graphviz вершины не Drag&Drop, поэтому тягать не представляется возможным :(

stalkerg Aug 14 2012 at 17:55

Мир учёных жесток… но это не значит, что нужно быть «борзым». ИМХО наилучшая стратегия пробивания в этот мир — занудство и результаты.

tac Dec 16 2012 at 02:36

Следующая статья Систематика прокариот — дальние родственики

Show the best of all time