Pull to refresh

Comments 8

Этот метод производит самые точные измерения, которые только можно представить, записывая изменения тока у различных участков ДНК.

парадокс в том, что возможно этот метод и производит самые точные измерения токов в природе, но по сути своей применимости , является самым не точным)) Увы, нанопоровое секвенирование не может пока похвастаться точностью, 12-15% средний процент ошибок. Несомненно , метод был бы хорош на длинных геномах, где за счет перекрытия ридов можно было бы привести %% ошибок к близкому в NGS, но реальная ДНК это не просто цепочка нуклеотидов , а еще и всякое г.... , типа метил, аденил и тп групп пристающих к ДНК из-за чего длинные цепочки просто иногда застревают в поре.

Хотя конечно метод, где отсутствует длинный химический цикл, очень обещающий для повсеместного применения, можно сказать- домашнего , секвенаторов и прочих анализирующих устройств.

Что делают когда ДНК застревает в нанопоре? Как в неё вообще попадают — это же не нитку в игольное ушко продеть.

В идеале - ДНК не должна застревать. И обычно пролетает со скоростью около 400 нуклеотидов в секунду. Но если происходит загрязнение нанопоры, то управляющий софт автоматически начинает освобождение нанопоры. Как точно это происходит - информации не находил, может быть производитель об этом и не расскажет. Поскольку нанопоры живые, то в процессе секвенирования они умирают и секвенирование через них не идёт. Могу предположить, что заблокированная нанопора, которая не смогла очиститься также помечается софтом как мёртвая и сигнал с неё не учитывается.

Чтобы молекула ДНК попала в нанопору используется несколько механизмов. 1 - поскольку молекула ДНК имеет заряд, то в электрическом поле движется от катода к аноду. 2. На концы молекул в процессе пробоподготовки пришивают дополнительные элементы, такие как баркоды (последовательности нуклеотидов, которые потом позволяют отличить молекулы одного образца от молекул из другого образца). Дополнительно еще присоединяется специальный моторный белок, который затем прикрепляется к нанопоре и проталкивает молекулу ДНК. Плюс в растворе вокруг плавает фермент хеликаза, который обеспечивает расплетение двуцепочечной молекулы ДНК. Поэтому через нанопору проходит только одна из цепей молекулы. А поскольку таких молекул не одна, а миллионы или миллиарды (зависит от длины молекул), то попадают в нанопору они без проблем.

Нанопора это рекомбинантный белок, один из бактериальных трансмембранных белков, одним концом прилепленый к CMOS пластине , а другим к типа ДНК полимеразе, хотя скорее это хеликаза, которая называется в их технологии моторный белок. Она крепится к этому альфа-порину и запускает внутрь поры одноцепочечную ДНК. У мотора и поры высокая афинность - липнут друг к другу.

Мы ещё не достигли такого уровня, но недавние достижения в нанопоровом секвенировании, обусловленные разработками программного обеспечения с открытым исходным кодом, позволили существенно сократить время декодирования генома с 15 дней до трёх или даже меньше. Не так давно расшифровка занимала годы!

Автор, позвольте с вами не согласиться. Так называемая "расшифровка" действительно долгий процесс и никакое нанопоровое секвенирование не способно значительно ускорить этот процесс. Подход, описанный в статье является рутинным выравниванием ридов (последовательностей буковок, полученных на приборе) на референсную последовательность генома человека. Что же касается именно "расшифровки", то в данном случае процесс растягивается на многие годы. Дело в том, что для организмов, не имеющих готовой сборки референсного генома необходимо не только провести полногеномное секвенирование (это не так долго, сложно, да и не очень дорого), но и помучиться со сборкой этого генома. И не важно, длинные ли используются прочтения (Oxford Nanopore или PacBio), короткие ли (Illumina или IonTorrent), сборка генома занимает не один месяц, а нередко и не один год. А после сборки нужно еще провести аннотирование этого генома, чтобы было понятно где какие гены, за что они отвечают. Аннотирование можно проводить in silico, но все обнаруженные гены подтверждаются по протеому. И вот тут процесс затягивается на многие годы.

Поэтому выравнивание на референс - это быстро (данные секвенирования полного генома человека можно выровнять на референс за пол часа с помощью Illumina Dragen), а вот "расшифровка" генома - это годы.

По остальным спорным пунктам в статье можно еще очень много написать, но это уже будет отдельная статья, а не комментарий.

Напишите, пожалуйста, особенно интересны детали почему после полногеномного секвенирования сборка неизвестного днк занимает до сих пор "не один месяц". Там есть принципиальные технические трудности или это просто не настолько коммерчески востребованная задача в сравнении с секвенированием отдельных участков днк?

В процессе есть как технические трудности, так и определенные проблемы с финансированием. Дело в том, что задача по сборке генома какого-нибудь недавно открытого червячка не настолько коммерчески интересна, как работа с геномом человека или модельных организмов (животных, активно используемых в лабораторной практике для проведения различного рода экспериментов; это, например, мыши, крысы, макак-резус и другие). Хотя даже у модельных организмов не всё так хорошо исследовано и хватает белых пятен. Поэтому для большинства проектов по сборке генома нужно умудриться выбить достаточное финансирование, нипример гранты.

Если рассматривать техническую сторону сборки, то тут тоже много нюансов. В первую очередь нужно использовать прочтения хорошего качества, то есть данные, которым можно доверять. Если кратко, то независимо от используемой технологии секвенирования необходимо перевести "сырые" сигналы, полученные прибором, в так называемый FASTQ-файл (не буду углубляться и расписывать про uBAM). Данный процесс называется Basecalling. FASTQ-файл представляет собой обычный текстовый файл, каждому прочтению соответствует 4 строки этого файла:

@a5d527eb-93d5-456e-95f0-d44b567ab7ce runid=c6bc4820444e313180cdaf567fd11c9b79d03635 read=24 ch=230 start_time=2021-10-20T01:11:25Z flow_cell_id=FAQ14567 barcode=barcode01 barcode_alias=barcode01
GGTATGCACTTCGTTCCAGTTGTATTGCTAAAGGTTAAACTTGCAGACACCGACAACTTTCTTCAACACCTAGACAAGGCAGCAGCACAGGAGGAGCAGGGCGAAGTCCCAGAACCCCAAGTGCTGGCTCTCGGGGTCTCCAGGCCCCGAAGGCGGTGTATGGATTGGGGCCAGCGTTGGGAGGATTCATCTCACCGGTTCTCTTCTTACTGACAGCTGGTGGTGTCCTTCTTCGAAATACTCACGACGCGGGACCCGTTCTCTCCCATTGGGTGTCGGGTTTCTAGAGTCGCCAATCAGCGTCGCCGGGGTCCCGGTTCTAAAGTCCCCACTCACCAACCGGACAAGGTCTCCGCAGACGCCGAGGATGGCAATCATGGCGCTGAGCCCTCCTGGTGCTCTCAGGGGTCCTGGCCTGACCCAGACCCGGGCGGGTGAGTGCGGGGTCGCGAGGAAACGGCCTCTGCCGGAGCAGCGAGGGGCCCGCCCGGCGGGGCGCAGGACCGGGGGAGCCGCGCGGGGAGGAGGGTCGGGCGGGTCTCAGCCTCTCCTCGCCCCCGAGCGCCTCCACTCCATGAGGTATTTCTACACCCGCCGTGTCCCGGCCCGGCCGCTGGGGCCCCGCTTCATCGCCGTGGGCTACGTGGACGACACGCAGTTCGTGCGGTTCGACAGCGACGCCGAGGAGTCCGAGGATGG
+
'&&&'&(%%%'$#%(2()..0*$%&)*)((&&')&.,++*(%$$$&(&'/)(,&),,,742=AA0(({;36.+/*%'()')''%%%2{47<?{.2,,))674+&%%$,.-/,(&&(537+,+10/.,,.;{:''+146;{'(*,-241/.32;:58;{=6159:66%$&%%%)''*55)&,1,-(&&'$%&,*%&&$$&+2'{{=;3,+*+34)'$%%%$%'()()+))+*((&#&21..---((*+216*).7422*'(*3+(;:<<<<>=86{@;+'()1495,,3{27;=<=777535876334525>:5620+002'))24336:<948=...1++++*/,#%&)%54{+'''-00'((..049/'&&%%$%#"#%&&(%$%(&+30/&)2.0186{1>+,:>@76/-.088;=<663:;<;-(**/9412229:667403;88190-.11975-./:::422,-%'%'*-/*(+41.*7/616.(()-+17,{<10<<851''45/++:A?{{0*,*.0017<>;6149:10A>;;<...8<?{{7578C?=74'&)$')&)'+-,,//0////3$#$'''/673{35<<<>?{:D=865781:68>+++327,'.--076/;:>A@@=B{BA:8<777::8:7455255;9;;>?=:;B8:;?=0+*+-01101;:;66),/./((32::41-

Привёл пример одного рида (прочтения) из данных нанопорового секвенирования. В первой строке записывается ID прочтения и дополнительная информация, которая может быть полезна в дальнейшей работе. Во второй строке записаны обнаруженные буковки. В третьей строке записывается направление прочтения знаками "+" или "-", в случае нанопора увидим только "+". А четвертая строка самая интересная. Тут записано качество секвенирования, уверенность прибора в качестве распознавания каждого отдельного нуклеотида. Это так называемый phred quality score, закодированный с помощью одного из символов ASCII, потому что необходимо чтобы одно- или двузначное значение качества соответствовало одному нуклеотиду.

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHI  Символ ASCII
|    |    |    |    |    |    |    |    | 
0....5...10...15...20...25...30...35...40  Phred score (Q)
|    |    |    |    |    |    |    |    |
хуже................................лучше

Так вот, возвращаясь к качеству ридов, то у нанопора всё довольно печально, зачастую риды имеют качество Q10, или одна ошибка на на 10 нуклеотидов (10%). Это очень низкое качество. Хотя сейчас у компании Oxford Nanopore Technologies вышло обновление химии и нанопор, которое позволяет получать риды с качеством Q20 (1 ошибка на 100 нуклеотидов), что уже значительно лучше для работы. Огромное преимущество нанопорового секвенирования - возможность получать очень длинные прочтения, больше миллиона нуклеотидов. Есть секвенатор, позволяющий получать длинные прочтения высокого качества - PacBio, но у него есть один недостаток: цена на прибор начинается от миллиона долларов, при этом затраты на химию для секвенирования тоже довольно ощутимые. Поэтому далеко не все коллективы могут себе позволить использовать PacBio. Приборы компании Illumina позволяют получать прочтения с качеством Q30+ (одна ошибка на 1000 нуклеотидов), точность секвенирования 99,9%. Но есть одно "но" - риды короткие, в среднем 150-300 букв, зависит от используемой химии.

Тенденции по сборке геномов таковы, что сейчас зачастую используют так называемые гибридные сборки, используя как длинные, но не очень точные прочтения, так и короткие, но точные. Длинные прочтения позволяют получать длинные контиги (по сути, перекрывающиеся риды объединяются в более длинную последовательность), затем, на следующем этапе контиги объединяются в скаффолды, всё это дополнительно полируется короткими точными прочтениями. И вот на руках у биоинформатика есть несколько скаффолдов, которые имеют пропуски внутри (серия из N, означает, что на данный момент не удалось определить какие здесь нуклеотиды, только примерное их количество) К какой хромосоме принадлежат данные скаффолды? Нужны дополнительные эксперименты. Полностью ли покрыта хромосома? Какие там гены? Верно, опять нужны дополнительные эксперименты. Это тянет за собой очень много работы как для "мокрых" биологов, которые проводят эксперименты в лаборатории, так и биоинформатиков, так и значительные денежные вливания, потому что это банально дорого. Плюс ко всему для больших геномов нужны серьезные вычислительные мощности, связано это с приличными объемами данных (.gz архив генома человека со средним покрытием 30х (в среднем, каждая буква генома прочитана 30 раз) весит около 100 ГБ), при этом во время работы промежуточных файлов может быть много больше, в моей практике был один случай, когда дополнительных файлов набралось больше чем на 6 ТБ. Далее, если даже более простые операции с полногеномными данными, например, на сервере с 96 ядрами, 1 ТБ оперативной памяти, и данные лежат на SSD, занимают десятки часов, а иногда и сутки. А сборка генома с нуля (de novo) очень требовательна к ресурсам и идёт днями. При этом легко может быть такая ситуация, что после того, как прошла сборка результаты получились так себе, надо подбирать и оптимизировать параметры, и запускать сборку снова, и снова.

Если кому-то получится создать дешевый и быстрый метод для сборки и расшифровки генома, то биологи вздохнут с облегчением, но до этого пока очень далеко. Как человек, который варится во всей этой кухне, могу сказать, что очень много всего делается "на коленке". Да, для большинства вещей есть вполне себе конкретные процедуры: бери это, добавь то, перемешай, проинкубируй и получишь результат. Или возьми эти данные, прогони по такому-то пайплайну и будет тебе счастье. Но шаг влево-вправо и всё, многие стандартные процедуры не работают, что-то можно адаптировать и оптимизировать, а многое приходится изобретать с нуля.

Есть секвенатор, позволяющий получать длинные прочтения высокого качества - PacBio, но у него есть один недостаток: цена на прибор начинается от миллиона долларов, при этом затраты на химию для секвенирования тоже довольно ощутимые.

Я бы сказал не химия дорогая , там все копейки стоит, а желание производителя ее продавать , делает стоимость реактивов действительной ощутимой))

Sign up to leave a comment.

Articles