Вы знаете, очень удобно ссылаться на теорию заговора (хотя уверяю вас, я как раз пример человека, который в «генетику» пришел сбоку). Но просто исходя из вашего комментария получается, что критиковать вообще никого нельзя. А если его критикуют, то он точно прав, так что ли?
Ну это такой технический вопрос, обычно этим занимаются на курсовых студенты. На хабре этому точно не место. Попробуйте воспроизвести то, что по ссылке на геномах протеобактерий, думаю вы будете приятно удивлены.
P.S. Если серьезно, я подумываю о том, чтобы написать на хабре про наши исследования (через месяц выходит статья).
Ох, приношу свои извинения, перепутал пакет. Правильное название igraph. Причем пришлось откатиться на старую версию (igraph0 для R), т.к. новая на больших графах тормозила.
Раскладку я делал в другой программе, она биологическая, использует кинетическое отталкивание. Я думаю, что часть layout'ов в igraph должна быть быстрой, например circle :)
1. Из генома (аннотация для E.coli довольно приличная). Если сомневаетесь, проверьте по PDB. Или вы не верите в существование рибосомы тоже? :)
2. Да, я так думаю. Более того, я проводил ряд опытов, которые это подтвердили. Почему найдет? Потому что у нас длинная область, с несколькими консервативными участками. Найденное можно безболезненно расширить. А потом «обрезать» по краям референсной последовательности. Плюс, помните, что 16S, как правило, присутствует в геноме в нескольких, практически, идентичных копиях. На основе этого легко можно вычистить 99% псевдогенов.
Значит во-первых, я бы посоветовал делать это на локальной базе геномов, а не через веб сервис.
Во-вторых, если вы не умеете пользоваться BLAST, я могу посоветовать вам учебник.
И это очень странная просьба, честное слово.
Все же я вам посоветую книги: раз, два, три, четыре (последняя — это не шутка, действительно приличная книга).
Волшебной кнопки «найти 16S», действительно нет. Поэтому вам придется самому найти последовательность для поиска.
Ошибок будет существенно меньше. И «выстроить» дерево можно. И оно будет согласовываться с множеством других деревьев, чего не было бы, если бы шума было так много, как вы говорите.
Почему фиктивного? Вы теперь и статистику отвергаете? Понятие близости построено на строгих статистических концепциях. И я даже как-то сравнивал различные меры и убедился, что они все очень неплохо и согласовано работают.
www.sciencedirect.com/science/article/pii/S0168952501025227
Вот статья, там в выводах есть про схожесть деревьев, полученных разными способами. Если вы потратите чуть больше времени, то найдете статью со сравнением различных молекул в качестве источника филогенетической информации.
Если вы в тот раз не прочитали, то видимо не прочитаете и в этот. Зачем тратить на это время?
Да, и вот вам три причины, почему tRNA плохи для филогении:
— Они находятся под сильным влиянием аппарата трансляции [1]
— Подвержены особенно сильному горизонтальному переносу [2]
— Часто находятся вблизи мобильных элементов генома [3]
1. Saks ME, Conery JS. 2007. Anticodon-dependent conservation of bacterial tRNA gene sequences. RNA 13: 651–660.
2. Canchaya C, Fournous G, Brussow H. 2004. The impact of prophages on bacterial chromosomes. Mol Microbiol 53: 9–18.
3. Williams KP. 2002. Integration sites for genetic elements in prokaryotic tRNA and tmRNA genes: Sublocation preference of integrase subfamilies. Nucleic Acids Res 30: 866–875.
Но вы же и это не прочитаете.
P.S. Посмотрю сейчас хорошую ссылку про доказательство.
В консервативных областях ошибки выравнивания минимальны, в силу особенностей 16S, о которых выше. 16S в геноме в нескольких копиях, поэтому псевдогены легко выкинуть. Секвенирование не так существенно влияет, т.к. мы не требуем полного совпадения и используем bootstrap, ошибки аннотации вообще не волнуют, т.к. мы ищем blastом.
P.S. Если серьезно, я подумываю о том, чтобы написать на хабре про наши исследования (через месяц выходит статья).
Раскладку я делал в другой программе, она биологическая, использует кинетическое отталкивание. Я думаю, что часть layout'ов в igraph должна быть быстрой, например circle :)
2. Да, я так думаю. Более того, я проводил ряд опытов, которые это подтвердили. Почему найдет? Потому что у нас длинная область, с несколькими консервативными участками. Найденное можно безболезненно расширить. А потом «обрезать» по краям референсной последовательности. Плюс, помните, что 16S, как правило, присутствует в геноме в нескольких, практически, идентичных копиях. На основе этого легко можно вычистить 99% псевдогенов.
Во-вторых, если вы не умеете пользоваться BLAST, я могу посоветовать вам учебник.
И это очень странная просьба, честное слово.
Все же я вам посоветую книги:
раз, два, три, четыре (последняя — это не шутка, действительно приличная книга).
Волшебной кнопки «найти 16S», действительно нет. Поэтому вам придется самому найти последовательность для поиска.
Почему фиктивного? Вы теперь и статистику отвергаете? Понятие близости построено на строгих статистических концепциях. И я даже как-то сравнивал различные меры и убедился, что они все очень неплохо и согласовано работают.
А вот основной (геномный) сигнал вы уже почти потеряли.
б) Неправильно аннотированный
Лишние найденные отбросить тоже довольно легко. Хотя и требует работы.
Вот статья, там в выводах есть про схожесть деревьев, полученных разными способами. Если вы потратите чуть больше времени, то найдете статью со сравнением различных молекул в качестве источника филогенетической информации.
Да, и вот вам три причины, почему tRNA плохи для филогении:
— Они находятся под сильным влиянием аппарата трансляции [1]
— Подвержены особенно сильному горизонтальному переносу [2]
— Часто находятся вблизи мобильных элементов генома [3]
1. Saks ME, Conery JS. 2007. Anticodon-dependent conservation of bacterial tRNA gene sequences. RNA 13: 651–660.
2. Canchaya C, Fournous G, Brussow H. 2004. The impact of prophages on bacterial chromosomes. Mol Microbiol 53: 9–18.
3. Williams KP. 2002. Integration sites for genetic elements in prokaryotic tRNA and tmRNA genes: Sublocation preference of integrase subfamilies. Nucleic Acids Res 30: 866–875.
Но вы же и это не прочитаете.
P.S. Посмотрю сейчас хорошую ссылку про доказательство.