Comments 14
Маленькое замечание не по делу:
Но увы, такие нынешние нравы людей, которые получили диплом биолога (биофизика, биохимика ...) и немного начали разбираться в программировании и теперь работают в солидном месте.
Не «диплом биолога», а кфмн (да, по биофизике, но с уклоном в мат. моделирование). Опыт в программировании у меня к моменту получения работы в NCBI был больше 10 лет. Теперь, стало быть, больше 20. :)
Ну и не могу не придраться к мелочи, сказанной матерым программистом:
Уже после длины > 10 случайность совпадения приближается к нулю
Давайте посчитаем вместе. В каждой позиции у нас 4 варианта. 10 позиций подряд — 4^10 = 1 мегавариант. Длина бактериального генома вполне сопоставима. Так что вероятность случайного совпадения отнюдь не приближается к нулю. Скорее, к единице.
Удачи.
Но увы, такие нынешние нравы людей, которые получили диплом биолога (биофизика, биохимика ...) и немного начали разбираться в программировании и теперь работают в солидном месте.
Не «диплом биолога», а кфмн (да, по биофизике, но с уклоном в мат. моделирование). Опыт в программировании у меня к моменту получения работы в NCBI был больше 10 лет. Теперь, стало быть, больше 20. :)
Ну и не могу не придраться к мелочи, сказанной матерым программистом:
Уже после длины > 10 случайность совпадения приближается к нулю
Давайте посчитаем вместе. В каждой позиции у нас 4 варианта. 10 позиций подряд — 4^10 = 1 мегавариант. Длина бактериального генома вполне сопоставима. Так что вероятность случайного совпадения отнюдь не приближается к нулю. Скорее, к единице.
Удачи.
0
> Давайте посчитаем вместе.
Сделайте проще. Возьмите строку из 10 случайных нуклеотидов и проверьте сколько совпадений вы получите в геноме. Число будет крайне малым.
Сделайте проще. Возьмите строку из 10 случайных нуклеотидов и проверьте сколько совпадений вы получите в геноме. Число будет крайне малым.
0
А теорвер и не говорит, что совпадений должно быть много. Но вероятность найти хотя бы одно случайное совпадение в двух произвольных геномах достаточно высока.
Я вот взял первую попавшуюся бактерию, поискал несколько случайных последовательностей из 10 баз. Из 5-6 проб не нашлась только одна (возможно, она тоже нашлась бы, если бы файл не был порезан на строки). Некоторые нашлись по 2-3 раза. Увы.
Я вот взял первую попавшуюся бактерию, поискал несколько случайных последовательностей из 10 баз. Из 5-6 проб не нашлась только одна (возможно, она тоже нашлась бы, если бы файл не был порезан на строки). Некоторые нашлись по 2-3 раза. Увы.
0
Ну, так вы просто слишком буквально трактуете мою фразу, не замечая знака больше десяти и слова «приближается».
То что вы нашли по 2-3 раза — это мало. И заметьте, что это не случайно — посмотрите, что это за участки ДНК — наверняка речь идет о дубликате одного и того же белка или РНК. А одно совпадение — это уже отсутствие случайности совпадения.
То что вы нашли по 2-3 раза — это мало. И заметьте, что это не случайно — посмотрите, что это за участки ДНК — наверняка речь идет о дубликате одного и того же белка или РНК. А одно совпадение — это уже отсутствие случайности совпадения.
0
Давайте вернемся к вашему начальному утверждению. Вы говорили, что вероятность совпадение даже 10 баз между разными геномами близка к 0. Не очень понятно, имелось ли в виду совпадение между двумя геномами, или присутствие одинаковой строки во всех 2000, но это не принципиально.
Я взял первые попавшиеся последовательности из 10 баз (руками набрал белиберду) и нашел практически все в конкретном геноме. А все потому, что при размере генома в несколько мегабаз там с достаточно большой вероятностью найдется любая строка из 10 букв.
Даже если вы возьмете 2000 геномов, вероятность, что они все пересекутся хотя бы по одной 10-символьной строке достаточно велика и уж точно не стремится к 0.
С более длинными строками, конечно, будет получше. Но тоже без гарантии.
Кстати, не забудьте, что, строго говоря, надо проверять и комплементарные строки. Это еще повышает вероятность «успеха».
Я взял первые попавшиеся последовательности из 10 баз (руками набрал белиберду) и нашел практически все в конкретном геноме. А все потому, что при размере генома в несколько мегабаз там с достаточно большой вероятностью найдется любая строка из 10 букв.
Даже если вы возьмете 2000 геномов, вероятность, что они все пересекутся хотя бы по одной 10-символьной строке достаточно велика и уж точно не стремится к 0.
С более длинными строками, конечно, будет получше. Но тоже без гарантии.
Кстати, не забудьте, что, строго говоря, надо проверять и комплементарные строки. Это еще повышает вероятность «успеха».
0
Ладно, с 10-ю убедили. Но с 70 там гарантии 100% :) Иначе бы ошибался сам генный аппарат. Да, и не натыкался я никогда на такой случай, чтобы искал тРНК, а получил бы кусок какого-то белка.
Но, я говорил, все-таки немного другое, вероятность того, что последовательности, большие 10 баз является частью другого гена достаточно мала. Т.е. встретится она может в геноме, но того, что это будут участки разных генов — это редкость.
Возможно оценки 10, которая конечна взята с потолка, мало — при желании можно задаться цель и выяснить сколько же 20 или 30… но не суть.
Но, я говорил, все-таки немного другое, вероятность того, что последовательности, большие 10 баз является частью другого гена достаточно мала. Т.е. встретится она может в геноме, но того, что это будут участки разных генов — это редкость.
Возможно оценки 10, которая конечна взята с потолка, мало — при желании можно задаться цель и выяснить сколько же 20 или 30… но не суть.
0
100% гарантии нет нигде. :) И генный аппарат вполне может ошибаться. Просто эти ошибки попадают в мусор и никому не видны. Хотя, вероятность, конечно, не так велика, как для 10-11 баз.
И я, все-таки, думаю, что 10 — маловато. Лучше брать побольше — там вероятность ошибки падает достаточно быстро.
И я, все-таки, думаю, что 10 — маловато. Лучше брать побольше — там вероятность ошибки падает достаточно быстро.
+1
А, да, 2-3 раза в одном геноме, в разном окружении (проверил, ага) — нет, это точно не копии одного гена. Это именно случайность.
0
Я правильно понял, что UML по сути только для визуализации графа? Почему бы не воспользоваться более абстрактными средствами (тот же Graphviz) и рассуждать в терминах вершин и рёбер графа? Сравнение с классами кажется несколько натянутым…
+2
Мир учёных жесток… но это не значит, что нужно быть «борзым». ИМХО наилучшая стратегия пробивания в этот мир — занудство и результаты.
0
Следующая статья Систематика прокариот — дальние родственики
0
Sign up to leave a comment.
Использование UML для эксперимента по эволюционной систематике прокариот, и косвенно о психологии ученых