tagir_valeev Feb 23 2013 at 13:49

Браузеры генома

5 min

61K

BiotechnologiesSoftware

+89

Comments 81

eafanasov Feb 23 2013 at 14:37

Можно подумать, что A, C, G, T — это просто четыре равноправные состояния двухбитовой ячейки, кодирующей генетическую информацию, и доля G и C ни о чём интересном не говорит. Однако пары оснований G-C образуют три водородные связи, а A-T только две. То есть G-C крепче, их труднее разорвать и обогащённость G-C или A-T связями влияет на химические процессы в данном регионе ДНК.

ничто на свете не заставит меня так подумать

+13

gleb_kudr Feb 23 2013 at 17:06

Не знаю ни одного удобного браузера/редактора на уровне 10-100000 п.н., который бы подходил для типичных генноинженерных работ по конструированию. Т.е. что-то типа Vector NTI, только в виде свободного js компонента.
Если кто-то из присутствующих серьезно интересуется темой — вот это реальная ниша для собственной разработки. Если нормально реализовать, то и продавать можно.

sllh Feb 24 2013 at 01:53

На самом деле, основная проблема в интерпретации массива данных. Косвенно сталкивался, вроде и формат открытый и все известно, но вот заставить работать навигацию за вменяемое время сложно. Есть пару хороших утилит на джаве написанных, но тоже со своими особенностями.

Alexey2005 Feb 23 2013 at 17:18

Насколько я понял, с точки зрения программирования ген — это своего рода print(). Т.е. просто вывод на «внешнее устройство». Есть матрица, и по ней собирается белок.
А вот как и где определяется, какой именно из закодированных белков и в каком количестве должен быть собран? Т.е. должны же где-то в ДНК быть условные операторы, счётчики собранных молекул, инструкции перехода? Иначе как получается, что на разных этапах развития клетки синтезируются разные белки в разных количествах, да ещё и в ответ на воздействия окружающей среды?

exIV Feb 23 2013 at 17:40

Мне кажется, что правильней воспринимать ДНК как архив со всей информацией об организме. В этой БД находятся данные и алгоритмические стурктуры… Но это только «архив», именно поэтому человеки не вылупляются из ДНК :) В этом архиве конечно есть информация о том, как сделать человека… Но для того чтобы сделать человека ~~нужны баба и мужик~~ нужен человек, причем половозрелый ;)

Весь организм можно рассматривать как уже функционирующую биологическую машину, которая умеет испольнять программы завернутые в архивы ДНК. В том числе некоторые представители из этих «машин» способны создавать «с нуля» новые машины… :)

-1

exIV Feb 23 2013 at 17:48

И как программист, я с довольно большой долей скепсиса отношусь к генетикам… которые официально считают 95% информации в ДНК «мусором».

После успешного клонирования кошки оказывается что «клон» имеет другую окраску потому как окрас оказался закодирован в «мусорной» части ДНК :D

Ну и учитывая объем данного «архивчика»… скорый его «разбор» и полноценный анализ весьма и весьма сомнителен…

-3

gleb_kudr Feb 23 2013 at 17:55

>я с довольно большой долей скепсиса отношусь к генетикам… которые официально считают 95% информации в ДНК «мусором».

Это устаревшие представления. Скажем, моя дипломная работа была посвящена исследованию одного из таких «мусорных участков», который по всей видимости был нужен для регуляции, в не просто так занимал место.

При этом, в геноме действительно много мусора, в частности, остатков вирусных геномов или транспозонов. Но не 90%.

gleb_kudr Feb 23 2013 at 17:41

>ген — это своего рода print(). Т.е. просто вывод на «внешнее устройство». Есть матрица, и по ней собирается белок.

Неправильное понимание. Скорее ген — это делегат метода. Он имеет строгий интерфейс, но варьирующуюся реализацию. От простейшей подстановки по хэш-таблице до всяких навороченных переключателей внутри. В зависимости от начальных аргументов (разные стадии развития etc) он отрабатывает разные пути исполнения с неизменным форматом результата (считанной молекулой РНК).
Это если очень грубо.

И да, это именно архив, текст программы. Как файл статической разметки. Чтобы его исполнить, нужно соответствующее окружение.

Barash Feb 23 2013 at 20:22

с неизменным форматом результата (считанной молекулой РНК)

Здесь можно говорить лишь, об определенной консервативности. Тем более, что даже при этом, путем альтернативного сплайсинга, а в человеческом геноме ему подвержено до 94% генов, из транскрибированных пре-мРНК получается множество вариантов белка.

moonlighter Feb 23 2013 at 21:56

Поэтому если у кого-то найдётся желание этим заняться, есть все шансы побороть конкурентов.

Люди, у которых нашлось желание заняться, у нас в стране уже есть — это разработчики Unipro UGENE. Этот опен-сорсный проект (родом, кстати, из Новосибирска) представляет из себя что-то очень похожее на IDE, только для биоинформатики: такой комбайн, объединяющий множество функций и алгоритмов, а также сторонних тулзов в одной среде. То, что он написан на C++/Qt, позволяет некоторые опен-сорсные тулзы даже встраивать на уровне исходного кода (так поступили, например, с samtools).

К сожалению, до того, чтобы побороть всех конкурентов по набору фич, ему, наверное, ещё далеко. Но я имел удовольствие попрактиковаться в этом проекте в магистратуре, поэтому могу немного рассказать о его нутрях. Вот выше сравнили ДНК с базой данных. Разработчики UGENE придерживаются того же мнения, поэтому базу данных и используют для хранения (либо кэширования, если открываешь обычную fasta или bam), что позволяет работать довольно быстро без необходимости держать гигабайты в оперативной памяти. Например, открыть полный геном человека на нетбуке.

Особенно интересным это становится в случае Next Generation Sequencing. Вот автор называет геномный браузер одномерной картой. Но это не всегда так. На выходе секвенаторов типа SOLiD/Illumina получается куча маленьких обрывков, которые потом выравниваются, в результате чего получается двумерная картина: каждый отрезок ДНК покрыт множеством выровненных на него кусочков, в итоге объём таких данных вырастает уже до десятков гигабайт. На самом деле, потом мы смотрим, какие основания чаще всего встречаются на каждой вертикали, и сворачиваем картинку в одномерную (consensus sequence). Но иногда хочется посмотреть и на «сырые» результаты выравнивания, называемые DNA assembly, что можно делать, например в Tablet или IGV. В UGENE также есть свой Assembly Browser, и вот над его ускорением я преимущественно и работал в своё время. Естественно, он тоже использует базу данных, а ещё кэширует рассчитанный coverage, и т. д. UGENE для меня сейчас — это самый интересный проект, над которым мне приходилось трудиться, так что если есть интерес к этой теме, у меня есть что рассказать о нём и вообще об обработке биоинформатических данных с позиции разработчика.

В заключение хотел бы прокомментировать фразу о том, что «идеального браузера геномов не существует». Я не думаю, что он может существовать. Существует слишком много различных задач, связанных с анализом геномной информации, и поэтому существует множество различных браузеров. Представить себе такой, который был бы хорош во всём, сложно. Поэтому разработчик очередного браузера должен понимать, что будет его «киллер-фичей». В Assembly Browser мы делали ставку на скорость за счёт базы данных и многоуровневых кэшей, но зато там пока очень мало функций: нельзя даже несколько треков смотреть одновременно (в других модулях UGENE — можно). К сожалению, я бы не сказал, что эта ставка сыграла. Так что к вашему призыву побороть конкурентов я бы добавил уточнение: хорошенько подумать, в чём конкретно их побеждать, и не распыляться на многое. Если же сил/смелости на поднятие нового проекта не хватает, можно поконтрибутить в какой-нибудь развивающийся, как, например, UGENE. Команда у него хорошая, с ней будет интересно пообщаться.

PapaBubaDiop Feb 24 2013 at 00:13

То есть геномного Менделеева не ждать?

moonlighter Feb 24 2013 at 11:36

Ну, знать это — уже не в моей компетенции :) Я думаю, что ждать (и стремиться) стоит, но если таковой появится, его заслуга будет явно не в том, что он напишет очередной просмотрщик, а в том, что какую-то новую теорию родит. Хотя, конечно, в отличие от учёных века Менделеева, в наш век мощные инструменты тоже играют важную роль на пути к открытию.

noldo32 Feb 24 2013 at 16:51

Зато будет геномный Мичурин

tagir_valeev Feb 24 2013 at 09:02

Ага, помню про Юнипро, даже общался с вашими на BGRS :-)

tac Feb 24 2013 at 23:41

А исходный код UGENE доступен?

tagir_valeev Feb 25 2013 at 05:18

Да, конечно.
ugene.unipro.ru/downloads/ugene_get_latest_source.html

moonlighter Feb 25 2013 at 11:01

Дополню ваш ответ:

SVN-репозиторий: https://ugene.unipro.ru/svn/ugene. Отсюда можно получить последнюю (нестабильную) trunk-версию.
Кроме SVN, нестабильные сборки, равно как и их исходный код, также доступны со страницы снэпшотов в архивах.
Ходить по репозиторию из браузера (если нужно только посмотреть) удобно с помощью Fisheye.
Там же можно смотреть что-то вроде новостной сводки: последние коммиты, ишью, ревью: вкладка Activity.

noldo32 Feb 24 2013 at 00:04

Пора уже запускать проект "Elven Genome" (исследование феномена меньшего возраста на вид, острых ушей, особых способностей и прочих эльфийских фич), писать патч и накатывать его на человечество!

BlessMaster Feb 24 2013 at 00:05

Орки протестуют! ))

Nashev Feb 24 2013 at 01:48

Да уж… с визуализацией в этой области ещё всё плохо… :(

hioma Feb 24 2013 at 09:42

При взгляде на картинки возникло желание запустить процесс дефрагментации

chupvl Feb 24 2013 at 09:44

вы совсем не упомянули интересные разработки, как
Genome Projector — к примеру

или GenomeView, или MizBee, у Genious эта тема неплохо раскрыта.

Плюс за обзор (ибо я из смежной области), но тема нераскрыта

tagir_valeev Feb 24 2013 at 09:53

И так длинно получилось. Всё в один пост не впихнёшь. С бактериальными геномами к тому же я редко сталкиваюсь, вы вполне можете написать про них отдельную статью :-)

imater Feb 24 2013 at 12:01

Этот пост войдёт в историю, как первый намёк на то, что части программистов придётся ответвиться в сторону программирования живых существ при помощи будущего IDE-генома.

Nashev Feb 24 2013 at 12:26

Во-во, IDE надо строить, с редактором кода, дизайнером форм (что бы это не значило в данном контексте), отладчиком и профилировщиком!

noldo32 Feb 24 2013 at 16:35

IDE — это как раз то, что нужно и что является логическим продолжением. Но. Насколько я понимаю, для моделирования развития из ДНК нужно полностью понимать ~~мультимедийную~~ так называемую «мусорную» часть ~~исполняемого файла~~ ДНК. Вот когда у нас будет браузер генома, который в одном из режимов покажет четырехмерную модель (объемно + слайдер для перемещения во времени) результирующего организма (как IDE для оконных ресурсов) можно сразу приступать к обратному процессу — превращать подправленный визуальном редакторе фенотип обратно в генотип.

tagir_valeev Feb 24 2013 at 16:48

Необязательно понимать абсолютно всё, чтобы вносить изменения. Чтобы написать патч к ядру Линукс (или даже новый модуль), необязательно понимать все строчки ядра целиком. С генами то же самое. Можно просто внедрять новые гены, обеспечивающие определённые функции. Собственно, и технологии для некоторых изменений уже есть (делают же, например, светящихся рыбок). Тут больше этических проблем.

noldo32 Feb 24 2013 at 17:12

Да, знать иногда не обязательно. Но свечение как раз легко реализовать на уровне кодирования белков, где знания достаточно хорошие. А вот сделать из исходного генома рыбу с заранее заданными очертаниями тела и расцветкой, вплоть до отдельных пятен и линий силами манипуляции одними белками ИМХО нельзя.
Относительно легко поменять белок, из которого строится чешуя у рыбы. В некоторых случаях можно нарушив что-то добиться тем самым другой формы чешуи или ее отсутствия. Но написать на чешуе рыбе название брэнда рыбозаводческой мегакорпорации или своё имя :-) или — устроить ароморфоз и сделать из чешуи перья, насколько я понимаю — задача на уровне мышления «ДНК<->белок» нерешаемая.

Nashev Feb 24 2013 at 12:57

Слушайте, а я вот пока никак не пойму: отдельно пишут про разные смотрелки, иногда пишут про отдельные онлайн-базы данных с кучей генной информации, доступной для скачивания в виде непонятных файлов. И вроде бы проект «геном» был один, а баз вроде бы не одна…

А вот связь у смотрелок с базами какая есть? И вообще, в каких форматах нынче геномы и их части/обобщения водятся? Как часто их берут из общих открытых или закрытых источников, и как часто делают исключительно своими силами?

Насколько смотрелки можно использовать в школе/институте/дома для какого-либо обучения/самообучения/развлечения?

Насколько все эти смотрелки — лишь смотрелки, и насколько они ещё и редакторы? Что там можно редактировать?

Насколько далеко можно в них уйти от разглядывания самой цепочки ДНК? Я имею ввиду, можно ли там хоть где смотреть как ДНК сворачивается в хромосомы, как разворачивается для декодирования при развитии клетки/организма? Можно ли имитировать формирование РНК и исследовать её фолдинг? Можно ли имитировать создание белка и исследовать его фолдинг? Есть вроде бы где-то мощный проект моделирования клетки на физическом уровне — насколько он открыт, и насколько связан с теми базами, которые доступны для смотрелок?

tagir_valeev Feb 24 2013 at 14:40

Проект Human Genome один, и референсный геном человека тоже один. По мере уточнения информации к нему выходят новые патчи и версии. Например, этим летом ждут GRCh38. Сейчас большинство работает на 37-й версии, а некоторые — на 36-й. Плюс бывают альтернативные, нереференсные геномы (в конце концов, все люди разные), но большинство использует референсный.

Но надо понимать, что референсный геном — это просто последовательность буковок ACGT для каждой хромосомы. А вот что они значат — тут исследований ещё на десятки, если не сотни лет хватит. И в разных базах разная информация на эту тему лежит. Расположение генов, альтернативный сплайсинг, функции генов, экспрессия в разных типах клеток, участие в биологических процессах, связь с определёнными болезнями, известные вариации (аллели) генов, их фенотип и связь с болезнями, регуляторные районы генома, нуклеосомные сайты и прочие точки разметки высокоуровневой структуры ДНК — вот лишь некоторые вещи, которые лежат в разных базах. Некоторые базы объединяют другие (тот же Ensembl, например).

«Смотрелки» практически всегда связаны с базами, иначе от них не так много пользы. Например, Ensembl Genome Browser использует информацию из базы Ensembl. Геномы водятся в разных форматах, как в простых типа FASTA (где по сути может быть просто номер хромосомы и миллионы букв ACGT после него), так и в более продвинутых типа GenBank (где добавляется какая-то аннотация к определённым районам). Могут и в SQL-базе лежать (как в том же Ensembl).

Множество геномов сейчас общедоступно. Вот на Ensembl почти сотня видов, причём у них в основном позвоночные. Есть отдельные проекты для растений, бактерий и т. д. Есть, конечно, и закрытые. Своими силами с нуля делают для новых видов. Если уже есть какая-то сборка генома, можно на неё опираться (например, чтобы получить геном не какого-то человека, а себя любимого), это значительно проще. Работают как с персональными геномами конкретных людей, так и с геномами из определённых клеток (к примеру, у одного человека секвенировали фрагменты генома в раковой опухоли и обычных клетках и сравнивают между собой).

Редактировать обычно не очень надо. Вместо этого надо анализировать — фильтровать какие-то фичи по каким-нибудь признакам, например. Если вы про генную инженерию, то там свой инструментарий, с ним я знаком крайне поверхностно. Вот в TinkerCell когда-то тыкался. Там можно конструировать всякие вирус-векторы и прочие генно-инженерные штуки. Как раз своего рода IDE, про которую выше пишут.

Для исследования фолдинга РНК обычно используют отдельные средства. Конечно, ничто не мешает браузеру генома и анализатору структуры РНК быть встроенными в одно приложение, но всё же это разные вещи.

Nashev Feb 24 2013 at 14:58

Спасибо, что-то прояснилось

tac Feb 24 2013 at 23:31

Не удержусь, дам ссылку на свои попытки исследовать фолдинг РНК.

Nashev May 14 2013 at 21:18

Слушайте, а не проще мутить фолдинг не для свободно болтающейся молекулы, а на выходе из сборщика? Белок — на выходе из рибосомы, РНК — на выходе из другой штуки, которая её собирает… Как в природе, в общем. Свободно загибаться там будет лишь выпускаемое очередное звено, а все ранее выпущенные элементы цепи будут практически окончательно свёрнуты уже к этому времени, и на их перерасчётах можно, кажется, некисло сэкономить. Почему никто так не делает?

tac May 15 2013 at 06:54

Это не правильно, ни в природе это не имеет значения, ни в моделировании, т.е. вот это «ранее выпущенные элементы цепи будут практически окончательно свёрнуты уже к этому времени» — глубокое заблуждение.

Nashev May 15 2013 at 09:32

А можно чуть подробнее про обоснования такого утверждения?

tac May 15 2013 at 09:49

Здесь можно почитать более подробно о некоторых моих экспериментах in sillico biogenom.eu/category/folding/advance/ (обратите внимание там на то, какие нуклеотиды должны вначале образовать водородные связи, чтобы потом было возможно образовать последующие водородные связи без разрыва уже образованных — и заметите, что они идут не по порядку)

Основная же причина в том, что нуклеотиды сворачиваются далеко не по порядку их нахождения в вытянутой цепи. Иначе бы сворачивание одной цепи препятствовало бы сворачиванию другой.

Если вас это интересует жду на форуме forum.biogenom.eu/index.php?board=2.0 (там кстати, обратите внимание на forum.biogenom.eu/index.php?topic=5.0 — описано то как должно идти сворачивание, при необходимости это можно обосновать достаточно детально)

Nashev May 15 2013 at 10:38

Там скорее forum.biogenom.eu/index.php?topic=7.0 в эту тему. Ща почитаю…

tac May 15 2013 at 09:56

Что же касается природы, то сборка на рибосоме белков совсем не влияет, да для некоторых сложных белков помогают т.н. шапероны — но никто еще такие сложные комплексы не моделировал. И то, что моделируется как правило до 100 оснований — установлено, что могут денатурировать и потом заново свернуться без рибосомы или помощи чего бы то не было.

Nashev May 15 2013 at 10:31

Но как же она может совсем не влиять?.. То, что конструкция может получиться не окончательной (требующей доработки шаперонами, ферментами и прочими инструментами клеточной среды) и не устойчивой, чтобы перебраться, как только хвост из сборщика освободится и прочие условия позволят — это вполне допускаю. И всякие дополнительные вставки, типа железа в гемоглобине, тоже наверняка приходят позже. Но всё же мне кажется, что имитация всех промежуточных положений должна сделать расчёт фолдинга в целом эффективнее и определённее, однозначнее.

tac May 15 2013 at 11:24

Ну, подумайте логически. Вот есть такая структура как тут forum.biogenom.eu/index.php?topic=5.0. По вашему появляется 1,2… 7 нуклеотид и сразу ищет с кем бы ему образовать связь — не находит, нет еще в природе конца цепи (нуклеотидов 66-72), значит так или иначе гипотеза о «ранее выпущенные элементы цепи будут практически окончательно свёрнуты уже к этому времени» тут не играет, этот участок так или иначе будет сворачиваться только пока не появится конец цепи.

Хорошо скажите вы это относится только к началу-концу. Идем дальше — по вашему вначале образуется спираль 10,11,12,13 — 22, 23,24,25. Хорошо. Ну тут не новость и без вашей гипотезы вначале образуются спирали согласно самой старейшей гипотезе hierarchical model (только там не установлен порядок, что даже значительно лучше). Теперь дальше как будет по вашему — будет ли образовываться некононические связи — 8-14, 9-23? Все нуклеотиды уже есть ведь. И главное в каком порядке? 8-14, как только появится 14 нуклеотид? Но, это помешает (сильно замедлит и уменьшит вероятность образования) спирали 10,11,12,13 — 22, 23,24,25. Если же после образования спирали — то ваша гипотеза уже хромает — становится не понятно, когда согласно ей что-то происходит, а когда нет. Кроме того образование 8-14, практически запретит образование пары 9-23… и далее и далее — вариантов, когда последовательное образование запрещает дальнейшее сворачивание — много. Поэтому пользы от такой гипотезы мало, а строгое ей следование вред и дает невозможность сворачивания.

tac May 15 2013 at 11:38

Ну и продолжение примера. Если даже исходить из варианта — вначале спираль T, потом 9-23, потом 8-14 (уж не знаю, как он согласуется с вашей гипотезой, но только так логично), потом спираль А, потом неканонические связи 44-10, 46-22, 48-15… а потом пробовать стэковать со спиралью D — то такой вариант я проверял.

Без взаимодействия (т.е. если сворачивание начнется до образования спирали D) со спиралью D, спираль Т сворачивается совсем по другом, у неё тогда с большей вероятностью как 90 из 100 нуклеотид 18 смотрит в другую сторону. И когда придет время образовать 18-55 это станет физически, геометрически (как хотите) не возможно, единственный выход все заново размотать. Поэтому вначале образуется спираль D (хоть она и находится в конечных номерах нуклеотидов), только потом ориентируется 18 нуклеотид, и при легком «притяжении» к 55 нуклеотиду, образуется спираль T. Т.е. ровно наоборот к вашей гипотезе.

Nashev May 15 2013 at 11:44

Но в природе-то оно всё же сворачивается так, как должно?

tac May 15 2013 at 11:49

В природе мы не видим последовательность сворачивания (это происходит так быстро, что текущая наука не может зафиксировать). Поэтому тут и есть куча гипотез как на самом деле? Собственно мой подход позволяет хотя бы отсечь совсем не логичные пути сворачивания.

Nashev May 15 2013 at 12:47

Ну, текущая наука и с тем, что получилось, разбирается не на месте, а лишь убив и разобрав. На месте не то, что быструю сборку, но и готовый свёрток рассмотреть не умеем…

Но Ваш подход — он как рак на безрыбье. Полноценного результата дать не может принципиально, но пока более прямых методов нет — позволяет получать результаты, которые можно проверить сравнением с природными. Предсказательная сила Вашего подхода почти нулевая, потому что первичная структура цепи не может однозначно говорить о следующих уровнях, там всегда будет большой выбор вариантов компоновки, и однозначных критериев без природной модели здесь найти нереально. Один набор суррогатных критериев будет угадывать природную компоновку одной цепи и не подходить ко всем остальным. Смоделировав на нём цепь, которая свернувшись должна дать один результат, на опыте почти стопроцентно получите другой. Под этот другой можно будет подобрать свой набор критериев, чтобы расчетным путем получать данный природный результат, но предсказательная сила этого набора вряд ли будет выше. А дополняя условиями природную модель, предсказательную силу модели можно увеличить.

tac May 15 2013 at 12:58

Ну не совсем так, в действительности первичная структура ПОЛНОСТЬЮ предопределяет третичную. Вторичную структуру из первичной достаточно не плохо прогнозируют. Они лишь не прогнозируют неканонические связи. Далее можно посмотреть полученные рентгеноспектроскопией определенный класс белков/РНК и найти недостающие связи путем сравнения с требуемой неизвестной.

Далее комбинация водородных связей и стэкинг — тоже достаточно неплохо предопределяет третичную структуру. Другое дело это сложно автоматически рассчитать, практически не возможно (при нынешнем уровне развития кибернетики). Но никаких принципиальных запретов, нехватки информации — нет. Более того, есть строгий критерий — если я предположу не верный путь сворачивания — то я никогда не сверну. Поэтому не может просто случится такого, что у меня РНК свернулась не так как в природе.

Nashev May 15 2013 at 13:04

хм… А кстати, каков нынче критерий свёрнутости? Я знаю лишь банальный — дальше не вертится. И если при этом оно свернулось так, как в природе сворачивалось при перепроверке на практике — то всё ок.

tac May 15 2013 at 13:08

Да, именно так классически и есть. Но что значит дальше не вертится — тут скрываются как раз ошибки моделирования. Никак мы не можем рассчитывать, что если у НАС в моделировании не вертится значит все вот оно и готово. (в деталях там сложнее — исходят из гипотезы наименьшей энергии или наибольшей скорости сворачивания, второе реже — но это как раз и есть «больше не вертится»)

У меня критерий такой — что должны образоваться все требуемые водородные связи. И пока этого хватало. Другое дело, что иногда, чтобы образовались водородные связи — не всегда получается из случайного начального положения, тогда я смотрю какой стэкинг еще необходим, чтобы стало возможно образовать водородные связи.

Nashev May 15 2013 at 13:18

все требуемые — это какие?

tac May 15 2013 at 13:56

я выше писал — те которые прогнозируются и есть в данном классе белков/рнк

Nashev May 15 2013 at 14:29

Какие прогнозируются — это ряд конкретных прогнозирующих критериев.
«какие есть» — это не вариант прогноза, это база для построения тех самых прогнозирующих критериев и их проверки на опыте.

Самих критериев Вы не приводили. Вы уверены, что они однозначны, достаточны и адекватны для всех природных РНК?.. Думаю, вряд ли.

Nashev May 15 2013 at 13:17

А как же те же право- и левозакрученные формы? Из первичной структуры одинаково следуют как левые, так и правые формы, а на практике заворачивает свёртку в нужную сторону что-то вспомогательное в процессе и среде. Не может она её полностью определять. Нужна информация из среды. Я пока по-прежнему уверен, что нехватка информации в первичной структуре большинства белков/РНК/ДНК не то чтобы есть, она просто катастрофическая. И потому Ваш путь — тупиковый. Игра в песочнице, не имеющая отношения к движению вперёд.

В общем, я к тому, что парадокс Левинталя может послужить рассчётам на руку, и лучше заняться моделированием критериев постепенного роста белка/РНК, чем бесперспективным подбором критериев свободного сворачивания.

tac May 15 2013 at 13:54

Ну, тут я с вами не согласен. И пока Вы не привели ни одного аргумента, чтобы я даже начал задумываться. А право-лево — тут вообще не в тему.

Nashev May 15 2013 at 14:26

Ваше право. Я понимаю.
С одной стороны, трудно себе признать, что занимался столько времени сложнейшей, но бесперспективной фигнёй. С другой — я действительно привёл лишь взгляд со стороны, и неконкретные невнятные доводы о потенциальной неоднозначности первичной структуры, в то время как Вы уже имеете десятки частных способов её преодоления…

Я не знаю, как в таких ситуациях поменять мнение заблуждающегося, на мой взгляд, оппонента. Единственный известный мне способ — сделать предлагаемое самому и продемонстрировать оппоненту большую результативность — во многих ситуациях невозможен по объективным причинам. Да и он, как известно из истории, далеко не всегда переубеждает.

А право-лево — это различные альтернативные формы, получающиеся в результате свёртки одной и той же первичной цепи. Это элементарный пример имеющейся неоднозначности первичной цепи, а более сложных неоднозначностей у меня под рукой нет, кроме как понимания, что их там не может не быть.

-1

tac May 15 2013 at 14:54

Выбирайте пожалуйста выражения. Фигней я занимался, и в таком контексте я не имею желания продолжать дискуссию с человеком, который в этом ничего не смыслит.

Nashev May 15 2013 at 15:04

Прошу прощения, не было цели обидеть.

tac May 15 2013 at 15:07

Вас этот вопрос реально интересует или как? Давайте все же перейдем тогда на мой форум, и не будем тут оффтопить.

Nashev May 15 2013 at 16:24

Ок, перенёс этот диалог в Ваш форум, вторым сообщением в тему forum.biogenom.eu/index.php?topic=7.0

tac May 15 2013 at 14:59

Вам надо не сделать что-то самому — а хотя бы разобраться в том, что делает оппонент. Сейчас уровень беседы такой — что «а вот я думаю, что фигня, а вот так будет не фигня». К сожалению оппонент проверил все эти «а вот так будет, и уже знает, что это фигня».

tac May 15 2013 at 15:06

Более того, вам убедительно выше объяснил почему ваша гипотеза несостоятельна.

Nashev May 15 2013 at 15:07

Кажется, я этого не заметил. Где именно посмотреть?

Nashev May 15 2013 at 15:09

Вы про habrahabr.ru/post/170429/?reply_to=6240957#comment_6239703?

tac May 15 2013 at 15:10

да.

tac May 15 2013 at 15:04

Еще раз — право-лево — это аминокислоты! Это во-первых в белках, во вторых, сами аминокислоты при сворачивании не моделируются, они уже берутся как есть — левые.

Аналогия какая то может быть. Скажем при сворачивании рибозима, пока я не нашел нужный критерий (водородную связь которую не учел) — сворачивание шло то «левое», то «правое». Но когда эта водородная связь была найдена и промоделирована, то ход сворачивания пошел ровно так как в природе.

Nashev May 15 2013 at 15:06

Спасибо за пояснения. Мне пока остаётся лишь пожелать Вам успехов и радоваться им, когда Вы их опубликуете.

tac May 15 2013 at 15:10

Спасибо, что интересуетесь. Вы можете принять участие ;)

tac May 15 2013 at 11:51

А как должно? :) Мы видим лишь конечное состояние…

Nashev May 15 2013 at 12:14

В том-то и дело, что должно ровно так, как само по себе, по пути наименьшего сопротивления, получается в природе.

tac May 15 2013 at 13:04

Тут в экспериментах получается очень интересно. Путь наименьшего сопротивления — это не сворачиваться вообще :) (шучу)… Но действительно есть локальные места (участки нуклеотидов), которые должны установится в положение НАИМЕНЕЕ ВЕРОЯТНОЕ, причем к этому должен подталкивать этот хаотически динамический путь сворачивания… Т.е. важно понимать, что путь наименьшего сопротивления — это не самый простой путь в нашем понимании, это такой путь, который как говорят «путем прохождения урагана на свалке соберет автомобиль».

Nashev May 15 2013 at 13:24

Фишка в том, что этот ураган успешно собирает неимоверное количество моделей автомобилей по всему миру в неимоверных количествах экземпляров каждый в течении уже миллионов лет. Это действительно путь наименьшего сопротивления в условиях той свалки. И видимо, не сворачиваться у цепей просто не получается.

tac Feb 24 2013 at 23:29

Как то мимолетом говорили о экзон-интронной структуре гена. Есть ли алгоритм определения этой структуры? Если да, то какой?

tagir_valeev Feb 25 2013 at 05:20

Я могу ошибаться, но думаю, что метод чисто экспериментальный: проводится секвенирование РНК, присутствующих в клетке, а потом они выравниваются каким-нибудь бластом на ДНК. Если я правильно понимаю, чисто из нуклеотидной последовательности определять экзон-интронную структуру не научились.

tac Feb 25 2013 at 06:10

увы, у меня такие же сведения… я просто подумал, раз такие данные есть в браузерах — то они откуда то берутся. Так получается это просто дополнительные данные из биоэкспериментов… интересно где хранятся первоисточники таких данных, которыми пользуются подобные браузеры геномов… и кстати как у них обстоит дело с обновлением баз геномов? Или они представляют собой просто «чистый» интерфейс, и закинуть в них ДНК — это дело пользователя?

tagir_valeev Feb 25 2013 at 06:29

Я выше писал, что обычно браузеры геномов пользуются какой-то базой. В вебовских проблемы обновления вроде как не стоит. Десктопные многие умеют выкачивать информацию из сети. Иначе смысла мало. Одна сборка генома человека почти гигабайт будет весить, а если вы с разными видами и разными сборками работаете? Дистриб будет десятки гигабайт занимать.

tac Feb 25 2013 at 06:31

:) написали вместе, см. ниже

tac Feb 25 2013 at 06:36

К объемам мы привычные :) Подумаешь сотню гигов скачать :) Сериалы примерно так же весят :)

tagir_valeev Feb 25 2013 at 07:08

Но смысл, если, к примеру, вы никогда не анализируете кроликов или мух? Как подтребуется, так докачаете самую свежую сборку.

tac Feb 25 2013 at 06:30

Часть ответа прочитал выше:
"«Смотрелки» практически всегда связаны с базами, иначе от них не так много пользы. Например, Ensembl Genome Browser использует информацию из базы Ensembl. Геномы водятся в разных форматах, как в простых типа FASTA (где по сути может быть просто номер хромосомы и миллионы букв ACGT после него), так и в более продвинутых типа GenBank (где добавляется какая-то аннотация к определённым районам). Могут и в SQL-базе лежать (как в том же Ensembl)."

Но это означает, что браузеры заточены под геномные проекты? и стандартизации тут практически нет… соответственно, и форматы разных баз не так легко просматривать любым из браузеров. Конечно, фасту просмотрит любой, но что-то посложнее — ту же интрон-экзонную структуру уже будут проблемы… Поэтому прежде чем тут что-то кодировать — нужен консорциум по стандартизации :)

tagir_valeev Feb 25 2013 at 07:11

Стандарты есть. Один из примеров — тот же DAS protocol, который я упоминал выше. По нему можно подключать треки из других баз. Вообще для треков используют форматы файлов типа BED (тысячи их). В BED можно задать блочную разметку фич, так что в принципе экзон-интронная структура туда легко укладывается.

tac Feb 25 2013 at 07:25

Ну, об этом было бы неплохо почитать в вашей будущей статье ;)

tac Feb 25 2013 at 07:30

Впрочем, у меня впечатление — сколько проектов столько и форматов… это не тот уровень стандартизации.

tagir_valeev Feb 25 2013 at 07:41

Да, форматов куча и многие дурацкие. Вот довольно неплохой список:
genome.ucsc.edu/FAQ/FAQformat.html

Show the best of all time