Comments 110
1 — фермент режет ДНК по конкретным маркерам, к которым он подходит, как ключ к замку;
2 — получается характерный для данного человека набор кусков разной длины и массы, зависящей от числа и расположения маркеров на хромосоме (у его родственников куски будут почти такими же, так как маркеры сидят в пределах мутационной погрешности на тех же местах);
3 — фрагменты заряжены и «сепарируются» в геле при помощи электрического поля, получаем набор полос, насыщенных кусками определённой массы в определённом количестве;
4 — полученный профиль будет характерен для данного человека (у его родственников с ним совпадёт определённый процент полос);
5 — производится сравнение профилей, полученных из разных образцов.
PS статья мне давно попадалась, про погрешность не помню.
[UPD] Кажется, под это описание подходит метод ПДРФ, но есть и другие методы.
Нет, в криминалистике (в базах) ныне используется "Short Tandem Repeat (STR)" из 13-20 локаций (CODIS в США, а другие страны выбрали сходные наборы локаций для совместимости).
Сравнительно высокую (кроме ~11-12 миллионов живущих на планете монозиготных близнецов), пока не начинают искать совпадения по базам на основе образца, в котором смешались днк от нескольких людей (особенно 3 и более). Особенно сложно — если в доли материалов от разных людей в смеси близки. В таких случаях начинается "Интерпретация", в ходе которой исследователь-криминалист может выбирать подозреваемых исходя из собственных мнений (и доп.информации, полученной от обвинителей), а не фактов. У проприетарного софта, авторы которого заявляют о работе со смешанными образцами, нет мнений, но нет и исходников…
https://www.theatlantic.com/magazine/archive/2016/06/a-reasonable-doubt/480747/
https://royalsociety.org/~/media/about-us/programmes/science-and-law/royal-society-forensic-dna-analysis-primer-for-courts.pdf#page=28 "When mixed samples are obtained then the number of peaks at each STR locus can become difficult to determine" "A 2.4 Interpreting ..."
https://www.wired.com/story/trueallele-software-transforming-how-courts-treat-dna-evidence/ "DNA analysis of complex mixtures… are particularly error-prone"
При этом в подобных базах днк используется всего лишь 13-20 локаций некодирующей ДНК (STR) — https://en.wikipedia.org/wiki/Combined_DNA_Index_System#Loci "CODIS required… a set of 13 loci called the "CODIS core"… requirement has expanded to include seven additional loci"
return usersDNA[random.Range(0, len(usersDNA))]
тётя её
Marketplace host Charlsie Agro, left, and her identical twin sister, Carly, check out some DNA ancestry results. (CBC)
Да ну?
Да, в статье про однояйцевых близнецов.
Marketplace host Charlsie Agro, left, and her identical twin sister, Carly, check out some DNA ancestry results. (CBC)
Это подпись под первой фотографией.
Под второй написано, что там Charlsie со своей тётей.
Близнецы != двойняшки.
«Двойняшки, но не близнецы» — это как? Не однояйцевые близнецы, в смысле? Но разнояйцевые близнецы, любой «n-няшности» — всё равно ведь близнецы, по определению (как минимум, из Википедии)...
В разговорном обиходе, да, бродит представление, что для внешне одинаковых и внешне разных близнецов должны быть отдельные слова, ну ещё созвучие «двойняшек» и «двойника» может добавлять путаницу. Но по определению всё же любые «n-няшки» — частные случаи общего понятия «близнецы», разве нет?
Но в массовом сознание чаще всего под близнецами подразумевается однояйцевые близнецы, а под двойняшками (N-няшками) — близнецы разнояйцевые. Так или иначе, надо смотреть на контекст.
В данном случае под близнецами я имел ввиду однояйцевый случай, а под двойняшками — многояйцевый.
Однояйцевые близнецы рождаются из одной зиготы (яйцеклетки оплодотворённой сперматозоидом) соответственно генотип у них общий.
Но так или иначе, чтоб точно ответить на этот вопрос надо проводить соцопрос, без этого все утверждения — пальцем в небо.
Многие люди испытывают… когнитивный диссонанс что ли, когда два человека разного пола совершенно разной внешности, говорят, что они двойняшки.Я не сомневаюсь. Вопрос в том, кого больше, людей которые под двойняшками понимают только однояйцевых, или людей, которые подразумевают и тех и тех.
два человека разного пола совершенно разной внешности, говорят, что они двойняшки
Интересно, что они скажут про этот пример близняшек-двойняшек:
По моим наблюдениям, оба лагеря более-менее сравнимы по численности. Ещё нередки «перебежчики» из одного лагеря в другой, по принципу «ладно, в прошлый раз перепутали — значит, теперь-то точно правильно» :)
Вот и стало интересно, откуда дровишки)
да, и часть науки стремится к 0%
Пол Майер, главный генетик из FamilyTreeDNAДо этого тихо собирали убитых енотов. Даже я желал услугу купить, но не произведение искусства.
В третий раз повторю вопрос: где генетически-изменённые китайцы, которых лечили от рака?
Был только один случай рождения ГМ детей, но медецинская тайна не даст их «обнародавать» ria.ru/20190122/1549683070.html
«Этносы» и «географические регионы» — больше социально-антропологический конструкт, чем факторы, определяющие генетику. Кто и как эти панели валидировал — не совсем ясно, зато вот когда попытались отреверсить эту цепочку — она стала люто расходиться начиная с момента N. Удивительно, да?
Каждый конкретный человек — это переносчик гена. При этом носимый ген в какой-то степени определяет фенотип человека, описывающий его происхождение. Отсюда приведу очень грубый пример того, что произошло: ученые два раза проткнули большим шприцом тентованный фургон. Попали в пакет с молоком и бензобак, отобрали пробы. Сказали, что фургон выпущен на заводе цистерн, потому что и молоко, и бензин перевозят в цистернах. При этом первый параметр оказался случайным выбросом, а второй неспецифичен для любых бензиновых автомобилей, но на основании двух этих критериев создали панель.
При этом, часть данных нейросеть получила из результата анализа (получив размер машины, пробы бензина, молока, водителя), а часть взяла из статистической выборки (грубо говоря, какой процент грузовиков длиннее 35м произведен в США, сколько негров ВИЧ инфицировано).
Дано — много людей, думающих что есть генетически чётко определяемые, неизменные (!!!) и сильно от соседей отличающиеся немцы-французы-русские-ит.п. Им хочется продать графики с «долями». Как доли добывать? Ну, вот так вот, нечётко.
Так что ничего сверхудивительного в том, что у однояйцевых близнецов есть различия в некодирующих последовательностях, я не вижу. А примеров расхождения по генам нам не привели в статье.
Иначе, они — не однояйцевые.
Потому что однояйцевые — это происходящие из одной яйцеклетки оплодотворённой одним сперматозоидом, и как следствие получившие одинаковый набор ДНК.
ДНК же меняется с возрастом, и у близнецов она меняется неодинаково.
А это не так.
(Вы фактически написали, что мусорная часть при повреждениях не чинится никак.)
ДНК в руке и ДНК в ноге — тоже будет с возрастом сильно разная
Я не писал что сильно, но вполне вероятно, что различия будут. Как пример, участки кожи на свету и скрытые от света подвергаются существенно разному мутагенному влиянию УФ, так что можем ожидать различий.
Вы фактически написали, что мусорная часть при повреждениях не чинится никак. И что вас смущает? Она ничего не кодирует, как ее чинить? Откуда возьмутся специфические хеликазы и экзонуклеазы? Тут гены починить проблема, а вы хотите тратить ресурсы на некодирующие участки. Зачем это вообще клетке?
Я про такой механизм различий — не слышал.
Вообще считать, что клетка работает осмысленно, рационально и целенаправленно — глубокое заблуждение. Это перплетение разнонаправленных процессов, основанных на случайностях, но эволюционно уравновешенных так, чтобы суммарный результат в среднем способствовал выживанию. Чинить всё без разбору оказалось эволюционно выгодно.
Стоит также учесть, что в силу случайности процессов не все ошибки оказываются найдены и не все починки удаются, например, близкие разрезы на двух нитях в процессе репарации могут привести к разрыву всей молекулы. Однако у клетки с ошибками репарации важных участков ДНК больше шансов покончить жизнь
О такой сущности, как «ДНК ноги» или «ДНК кожи» говорить невозможно, так как и повреждения, и ошибки репарации в каждой клетке разные, и между двумя соседними клетками кожи разница в ДНК в итоге может оказаться больше, чем между двумя взятыми из печени и из сердца. Это ни о чём не говорит и при анализе будет выглядеть как небольшой статистический шум: если у 1 клетки из 100 в данном месте сбой, то у 99 одно и то же нормальное состояние.
Выбор точки присоединения ферментного комплекса к ДНК — процесс также стохастический.
Отнюдь. Нобелевка 2015 года как раз за изучение репарационных процессов, и там не все так просто. Вот обзор по теме.
Вообще считать, что клетка работает осмысленно, рационально и целенаправленно — глубокое заблуждение.
Осмысленно нет, рационально — безусловно, просто это локальная рациональность, целенаправленно — ну целеполагать клетка точно не умеет, однако ее деятельность вполне можно считать алгоритмичной.
О такой сущности, как «ДНК ноги» или «ДНК кожи» говорить невозможноСогласен, я и не говорил. Но не потому даже, что разница между соседними клетками есть (для анализа ДНК мы не одну клетку ведь берем, а на порядки больше), а потому что «клетка кожи» или «клетка ноги» это эпигенетическая характеристика, а не генетическая. И при пересадке клетки из кожи в ногу она может спокойно стать «клеткой ноги».
Если хроматин упакован плотно, его называют конденсированным или гетерохроматином, он хорошо видим под микроскопом. ДНК, находящаяся в гетерохроматине не транскрибируется, обычно это состояние характерно для незначащих или молчащих участков., но я собственно не совсем понимаю, почему я должен это доказывать? Это, как вы совершенно верно отметили, процесс стохастический, могут и молчащие участки распаковаться и репарироваться, но согласитесь, что вероятность такого события значительно меньше, чем для кодирующего участка.
доступ не только репарирующих агентов, но и большинства повреждающих факторов к конденсированным участкам затруднён
А вот это интересный момент. Ошибок действительно в конденсированном должно быть меньше, но это если рассматривать одну клетку на ее жизненном пути. Однако вероятность ошибок при митозе будет одинаковой. Так что со сменой поколений кол-во ошибок в некодирующих участках будет нарастать практически без шансов репарации, а ошибки в генах имеют значительно большую вероятность быть исправленными. Мне так представляется.
Каков темп этого «нарастания ошибок практически без шансов реперации» и каково его отношение к накоплению ошибок в генах? Каково относительное количество повреждённого материала к неповреждённому в некодирующей части и в кодирующей и каков процент исправленных и пропущенных ошибок в том и другом случае? Достаточно ли этого для утверждения о том, что починка ДНК за пределами экспрессирующихся генов не производится с целью экономии ресурсов? На основании чего вы утверждаете, что для репарации «молчащих» учестков принципиально не подходят существующие типы белковых комплексов? Без этих данных ваши слова не стоят ничего.
Впрочем, то, что каждое следующее ваше сообщение сформулировано всё менее категорично, обнадёживает.
Без этих данных ваши слова не стоят ничего.
Категоричность ваших утверждений, конечно же, основана на точных количественных данных :). Простите, в таком тоне мне дискуссию продолжать неинтересно. Коль вы считаете, что
Чинить всё без разбору оказалось эволюционно выгодно., вряд ли исследования разницы механизмов репарации конденсированного и некоденсированного хроматина будут вам интересны.
Конденсированный хроматин сам по себе не может свидетельствовать за или против вашей гипотезы, поскольку во-первых, конденсированными могут быть и гены, причём каждый из них будет проводить в этом состоянии разное время, во-вторых, там идёт уравновешивание разнонаправленных процессов (уменьшение интенсивности повреждений и одновременно затруднение репарации), и неясен конкретный вклад каждого из них. Не говоря уж о том, что вся ситуация в целом гораздо многограннее.
Также мне хотелось бы обратить ваше внимание на тот факт, что ошибки в «мусорной» части ДНК точно так же как и в «значимой» могут вести к её разрыву или нарушению не только вторичной, но и третичной структуры, что в свою очередь может нарушить экспрессию генов и/или негативно повлиять на деление клетки. Именно поэтому не чинить некодирующую часть — эволюционно дорого.
Кроме того, есть прямое свидетельство достаточно качественной починки «мусорной» ДНК. Самое частое повреждение ДНК — это потеря аминогруппы (дезаминирование), когда C превращается в U (который в норме характерен для РНК). Если бы удаление урацила из некодирующей части не производилось, он бы встречался в ДНК чуть ли не в большем числе случаев, чем C, так как объём «мусорной» части больше, чем «полезной», состоящей строго из ATGC. Однако это противоречит эмпирическим фактам, значит, это распространённое повреждение тщательно подчищается по всей длине цепи.
И тому есть простая причина: собранные данные по ДНК сестёр практически идентичны. «Они шокирующе похожи», — сказал он.Это какое-то эстрадное выступление. Похожее на мошенничество. По какой причине ДНК однояйцовых близнецов стало разным?
Все эти тесты ДНК за ~100$ не делают полное сканирование ДНК, а лишь быстрое сканирование. Чуть лучше чем «подержите два проводка, получите персональный гороскоп».
Кстати, почему в статье нет данных о том, совпали ли у близняшек риски по генетическим заболеваниям, одинаковы ли ближайшие родственники (ближний генетический поиск).
Объявление по громкой связи: Внимание, внимание! Сообщение для синьора Розарио Агро!
— Это мне! У меня сын родился!..
У вас в Риме родилась девочка!
Хорошее видео на эту тему было у ученых против мифов
https://m.youtube.com/watch?v=GwAx3inUvpk
А поиск предков — это очень расплывчато, там анализ вероятностный, исходя из закономерностей генотипа в определенных регионах, и тут объем анализируемой ДНК и объем статистики в базе крайне важны.
Нельзя взять любую часть ДНК и анализировать дефекты искомого гена, если он в ней не расположен.
Генеалогический анализ — это, допустим, как анализ авторства текста.
По фрагменту текста можно предполагать кто из классиков был его автором, анализируя некие характерные для каждого автора особенности написания текста, длины предложений, использования тех или иных слов и т.п.
Но в зависимости от того какой фрагмент текста мы возьмем и от того, насколько детально у нас тексты автора представлены в нашей базе, какой алгоритм сравнения мы используем для анализа — вероятность правильного определения будет отличаться.
В случае генеалогии еще сложнее, так как «автор» не один — там будут предки из разных регионов, с разной степенью кровосмешения и, соответственно, предсказание еще сложней.
1) Можно ли установить гаплогруппу не ища конкретные фрагменты ДНК / гены?
2) Тот метод что используют MyHeritage, 23andMe, FamilyTreeDNA и иже с ними разве это не определение гаплогруппы? (напр. FamilyTreeDNA в статье на вики пишет о гаплогруппах)
Гаплогруппы по определению группируются через одиночные мутации ("is a group of similar haplotypes that share a common ancestor with a single-nucleotide polymorphism mutation") — см Marker в https://en.wikipedia.org/wiki/Haplogroup#Y-chromosome и Defining mutations в карточках групп, н. https://en.wikipedia.org/wiki/Haplogroup_C-M130 и прочих по спискам https://en.wikipedia.org/wiki/Conversion_table_for_Y_chromosome_haplogroups
https://www.familytreedna.com/mtDNA-Haplogroup-Mutations.aspx
"Click on an mtDNA Haplogroup to view the mutations required for that Haplogroup."
https://www.genofond.ru/genofond.binec.ru/LoadFile708a.pdf?file_id=937#page=2
база маркеров https://isogg.org/tree/ISOGG_YDNA_SNP_Index.html
Там указана позиция и замена. Далее — через http://ybrowse.y-chromosome.org/gb2/gbrowse/chrY/
"Генетические" компании ищут не только маркеры гаплогрупп, но и многие другие snp маркеры, например, ассоциированные с заболеваниями.
Некоторые списки проверяемых маркеров есть по ссылкам в https://www.snpedia.com/index.php/Haplogroups
База SNP — https://en.wikipedia.org/wiki/DbSNP
Представьте, что все население планеты занимается пиратством cd-rom дисков (по 700 МБайт) на спец.приводах с ненадежным копированием. На входе 2 диска с похожим содержимым в 23 каталогах (на самом деле диски двухсторонние по 700 МБ, но в каждом из 23 каталогов обычно есть несколько десятков-сотен позиций, в которых диск переворачивают чаще). На выходе — сколько-то сотен КБ с одного, сколько-то с другого, но по одинаковым смещениям (таблица файлов более-менее общая). При этом один Mt-кусочек, Mt-директория (набор из пачки похожих 4 килобайтных частично самокопирующихся com-файлов для управления "электростанцией") всегда берется с "розовых" дисков, а не с "синих"; а "Y" кусочек (директория на 14 мегабайт, в т.ч. ключи для запуска привода) только с "синей" стороны при создании "синего" диска. При копировании некоторые пары биты перещелкивает, уровень неисправленных ошибок — около 2 битов на каждые 2.5 МБайт (десятки-сотни 2битовых ошибок на копирование), иногда пары битов вставляются или вырезаются. Повторить хотя бы 20-30 тысяч раз, выбрасывая старые диски после нескольких копирований, уничтожая новые диски (если повредились исполняемые файлы, которых там порядка 20 тысяч штук в среднем по 2 килобайта, крупнейший 0.5МБ, т.е. суммарно на ~40 МБайт, или просто так на определенных уровнях типа 1/10 в первый год и далее) и перетасовывая диски между соседними поселениями. После создания диска в нем также образуется некоторое количество ошибок (в Y-файлах чаще раз в 5).
Получить после суммарного числа в 107 млрд копирований набор из 7.5 млрд сохранившихся cd-rom, разница между которыми в среднем составляет 125 МБайтов (в формате текстового diff) — или около 3 миллионов различий примерно по 2 бита каждое.
Новая гаплогруппа — это все диски, в которых Mt- или Y- кусок ("директория") имеет определенную замену, которая произошла где-то на интервале условно от 0,5-1 до 20-25 тысяч копирований тому назад (в те эпохи пиратство было менее распространено и общее число единовременно копируемых дисков было скорее менее 1-15 млн).
(в остальных директориях и файлах творится полный беспорядок, т.к. они перемешиваются в каждом копировании)
Если собрать все известные варианты Mt- и Y- файлов вместе, то "отменив" все ошибки можно найти какой-то условный образ исходной директории, из которого были получены все ныне имеющиеся диски — mt-MRCA + Y-MRCA = https://en.wikipedia.org/wiki/Mitochondrial_Eve + https://en.wikipedia.org/wiki/Y-chromosomal_Adam
(а если раскопать образ cd-rom соседней системы из ущелий германии, точнее 60 кбайт из y-каталога, то можно будет отменить еще несколько ошибок и получить в 2 раза более ранний исходник "Y-T-MRCA")
То есть гаплогруппа описывается списком замен относительно образа, а все они организуются в дерево, каждое ответвление которого — несколько, до пары десятков замен (т.к. часть историй копирования потеряна — git lfs не изобрели еще). Например — https://journals.plos.org/plosone/article/file?type=supplementary&id=info:doi/10.1371/journal.pone.0134129.s002
В целом поиск не отличается, кроме того, что маркеры для гаплогрупп (определенных на данный момент) известны и их сравнительно немного, а "маркеры" для заболеваний найдены и описаны далеко не все; статистику по ним собирать очень тяжело, т.к. у конкретной мутации может быть 10 или 100 известных носителей на планету. Для каких-то есть хорошая статистика и разрешение на "мед.применение". Например — https://www.fda.gov/NewsEvents/Newsroom/PressAnnouncements/ucm599560.htm "Test only reports 3 out of more than 1,000 known BRCA mutations and negative result doesn’t rule out increased cancer risk" "three specific BRCA1/BRCA2 breast cancer gene mutations that are most common in people of Ashkenazi (Eastern European) Jewish descent.… are present in about 2 percent of Ashkenazi Jewish women" — разрешенный FDA тест ловит только 3 из более тысячи мутаций одного из генов; эти мутации есть у 2 % определенной группы.
https://www.snpedia.com/index.php/Testing сообщает, что за ~100 долларов тестируется при помощи чипа порядка 10-25 тысяч различных SNP, что-то около половины из них — на гаплогруппы; несколько тысяч встречаются в базах мед.литературы (т.е. какие-то из мутаций могут дать статистически значимые +5% риска какого-то рака в жизни). На snpedia — 110 тысяч snp. BRCA — https://www.snpedia.com/index.php/BRCA1_and_BRCA2
Компании придумывают какие фрагменты и с какой длиной (напр. мутация +- 10 оснований или +-20 оснований) включать в чип, их чипы могут несколько отличаться в эффективности обнаружения маркеров. И конечно у компаний отличаются наборы маркеров. Есть полногеномные чтения, но они значительно дороже.
https://isogg.org/wiki/Autosomal_DNA_testing_comparison_chart
Извиняюсь, ошибся с количеством — https://isogg.org/wiki/Autosomal_DNA_testing_comparison_chart
все используют чипы корпорации Illumina на +- 700 тысяч маркеров (бывают чипы до 0.9-1 млн snp-маркеров), большая часть маркеров для стандартного чипа общая, компания может добавить 30 тыс или заменить 350 тыс в зависимости от продукта. Ошибка поиска маркеров в образце видимо менее 0.5%. Для поиска болезней это все неважно, т.к. достаточно редко удается найти мутации, для которых известен ассоциированный высокий риск заболевания (а для известных случаев — brca — у них недостаточное разрешенное покрытие, менее 1% возможных мутаций).
https://www.health.com/breast-cancer/23andme-what-to-know
"Your results don’t mean you will (or won’t) get a disease"
https://www.fda.gov/NewsEvents/Newsroom/PressAnnouncements/ucm551185.htm
"presence or absence of some of these variants is associated with an increased risk for developing any one of the following 10 diseases or conditions… Risks associated with… GHR tests include false positive findings,… and false negative findings"
https://www.popsci.com/23andme-is-probably-terrible-idea
«Ошибка поиска маркеров в образце видимо менее 0.5%.»извините я правильно из синопсиса понял что это для одного маркера? И можно умножать эту вероятность на 700K маркеров в чипе/тесте? Цифры получаются какие-то уж большие.
Точность выше 99.5% — сравнение результатов трех разных чипов (Illumina Human OmniExpress, Affymetrix SNP Array 6.0, Illumina Infinium Immunochip на 200к) на одних входных образцах — https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3538340/
Что для вас большие цифры? Это не TCP/IP поверх эзернета, где данные покрыты двумя контрольными суммами и перепосылаются при обнаружении сбоя (и все равно ломаются — https://media.blackhat.com/bh-us-11/Dinaburg/BH_US_11_Dinaburg_Bitsquatting_WP.pdf & https://en.wikipedia.org/wiki/Data_corruption#Silent, https://www.nsc.liu.se/lcsc2007/presentations/LCSC_2007-kelemen.pdf)
Может быть, дело в конкретной теме. У меня общее впечатление, что цитометрия и иммунология состоят из в основном дельных проектов. Еще у меня такое же ощущение про КРИСПР или другие, связанные с изготовлением плазмидов, например, темы. GFP-related stuff пока что тоже вроде сравнительно ок. В секвенировании _геномов_ все сравнительно ок. А вот в РНК-сек все очень плохо. И в куПЦР все очень, очень плохо. Про микроэррэи я вообще молчу, мне даже туда лезть не хочется, так там всё плохо.
Я могу попробовать объяснить. Я же тут последние три кода в Quantitative Biology Center и занимаюсь статистикой и квантификацией. И это очень, очень плохо. РНК-сек — это (во всяком случае пока) такая фигня, что уши сворачиваются в трубочку от ужаса, ЧТО люди выдают за реальные данные. Я для примера приведу две статьи, которые очень хорошо характеризуют состояние дел в этой области.
Вот одна статья. Делала ее никому неизвестная бедная лаба из области агрономии (люди с растениями — это вообще несчастные люди, у них как правило сильно мало денег, и к ним мало кто идет). Статья ПРЕКРАСНАЯ, просто золото. Написана максимально простым, логичным языком, видно, что у людей огромный опыт, что они не только специалисты, не только могут разобраться в данных, но и могут при этом внятно объяснить, как они это сделали, какие недостатки, как их надо воспринимать, и что можно сделать для решения проблем. Однако их прекрасная статья хрен знает где в каком жопо-журнале висит.
onlinelibrary.wiley.com/doi/epdf/10.1111/tpj.13014
Кратко: эти люди взяли и симулировали идеальный датасет, который получился бы при РНК-секе, если бы РНК-сек был сделан в идеальных условиях. Ну то есть «чистые данные», что никогда не бывает в реальных условиях. Далее, они взяли этот идеальный датасет, и прогнали его на доступных софтах для анализа РНК-сек данных. Как если бы они прогоняли реальный, грязный датасет. Так вот. ДАЖЕ ПРИ ИДЕАЛЬНОМ датасете, у них более 25% генов(!!!) «поехали» и дали кривой количественный результат, отклоняющийся на более чем 20% от реальных цифр (реальные цифры были известны, т.к. датасет был симулирован сознательно, и цифры были заложены создателями).
Четверть бля! Четверть всех генов поплыли! На ИДЕАЛЬНОМ датасете! А представьте что там в реале получается, когда люди приносят хрен знает какую грязную РНК, которая потом еще и напэцээрена сверху, потом из нее хрен знает как сделала библиотека хрен знает каким криворуким студентом…
Я щас покажу картинку, сколько критических ступенек в РНК-секе, на которых [количественный] результат может «поплыть»:
Слева РНК-сек ступени, на которых может поплыть. Из 14 ступеней только 13 и 14 — это анализ софтом. Все остальное может и будет вносить шум в количественное измерение. О каком в жопу точном измерении экспрессии можно говорить, простите меня пожалуйста? И это я еще НЕ ВКЛЮЧИЛА пэцээрение туда!!! Которое при single-cell RNA-seq обязательно!!!
Важное уточнение: я не говорю о качестенном прочтении транскриптома, про качественное у меня ощущение, что там есть основания, т.к. секвенирование само по себе работает сравнительно ок, если что-то прочиталось, значит оно там как минимум было. Я говорю про количественное измерение экспрессии генов.
И спасибо большое агрономам с их статьей, с симулированным датасетом, который четко показал, насколько реально можно доверять анализу софтами… и это еще если учесть, что этих софтов понаплодилось — лопатой ешь… и все как один лучше другого, если верить их создателям((((
А теперь смотрите какая говностатья выложена в Нейчер (тут слово «говностатья», к сожалению, употреблено в прямом смысле, меня просто выворачивает на нее смотреть, настолько она страшно, некачественно написана, будто ее курица писала левой лапой):
www.ncbi.nlm.nih.gov/pubmed/19015660
Там ТАКИЕ дифирамбы РНК-секу, что у меня четкое ощущение, что пост проплачен статья проплачена. В буквальном смысле проплачена, компаниями, выполняющими этот самый РНК-сек. Ну страшно читать, ей-богу, особенно после первой агростатьи. Просто страшно.
А она в Нейчер. И на нее ссылаются. И ее читают зеленые студенты. Ну мрак блин.
И это я еще НЕ ВКЛЮЧИЛА
Семёнов Алексей
Компания может честно разрабатывать алгоритмы, собирать базы, анализировать карты и т.п., а может просто выбрать «правдоподобный» результат на основе уже известных демографических данных о клиенте и добавить к нему rand(). Второе дешевле.
Вот например с MyHeritage: "Over the past 16 years, MyHeritage has helped millions of people find new family members and..."
Если считать это бизнес нечестным тогда, это не ложные результаты, а впервую очередь ложные обещания и фабрикация отчетности.
Согласно данным от 23andMe, 99,6% частей были одинаковыми, отчего Герштейн с командой и были так удивлены результатом.
А Герштейн с командой это точно ученые были? Или только «изнасилованные» журналисты?
Потому как человек даже от высших обезьян отличается всего чуть больше 1% генетического кода. А разные люди друг от друга — на доли %.
Если считывание данных с присланных образцов дает отличие в 0.4% (99.6% совпадения) — то странно ожидать какого-либо другого результата анализа этих данных. Т.к. 0.4% разницы это не только вообще не уровень близнецов, а даже не дальних родственников. Скорее вообще никак не связанных между собой людей, просто произвольно взятых разве что одной расы/национальности.
И сильно разные результаты анализа(похожие лишь только в самых общих чертах) при таком качестве сбора RAW данных — закономерный результат.
Но проблемы не с анализом — а с «чтением» данных. Видимо с удешевлением и массовостью совсем забили на качество. Я все удивлялся как они за какие-то 100$ ухитряются такую сложную и объемную работу выполнять.
Нормальный анализ образцов однояйцевых близняшек должен давать >=99.99% совпадения генетического кода. Буквально несколько десятков-сотню отличающихся пар оснований из-за случайных мутаций в процессе развития организма в изначально полностью идентичном коде.
Для примера посмотрите как устроен FASTQ файл. 2 строчка это последовательность нуклеотидов в элайнменте, а 4-я строчка это «точность» секвенирования каждого нуклеотида, выраженная с помощью ASCII символов и получаемая, если мне не изменяет память, по формуле -10 * log10(Z)
А вот видео о том, какая технология секвенирования сейчас используется и почему могут возникать ошибки:
www.youtube.com/watch?v=ToKUGz_YhC4
Мне кажется из той же серии, что и анализ ДНК
Также, почему-то никто не обратил внимания на тот факт, что у разных компаний набор последовательностей, которые они исследуют, разный (раньше, например, raw данные, которые выдавала 23andme, можно было загрузить в свой акк у FTDNA, и получить их вариант расшифровки, так как набор анализируемых последовательностей совпадал процентов на 90%, а теперь, для чипов v4+, этот вариант не работает, т.к. из ~700000 секвенируемых последовательностей общих осталось только порядка 5%). Соответственно, по разным наборам данных получатся и разные результаты. Особенно в таких эфемерных областях, как «национальные ДНК».
Итого: в настоящее время сервисы публичных широкомасштабных ДНК исследований не стоит переоценивать (согласно моему геному я должен быть блондином с голубыми глазами, что ни разу не так), но не нужно и недооценивать (опять же, приводя в пример себя — 23andme нашел в США мою троюродную сестру, про которую я вообще не знал).
Ряд генетических аномалии находятся очень точно и недорого. Даже для собак есть такие тесты на распространенные в породе заболевания.
https://www.snpedia.com/index.php/Testing — за сто долларов запустят поиск по чипу с 0.7-1 млн SNP-маркеров (т.е. не более 1 миллиона одиночных мутаций по списку) "DNA testing (genotyping)"
За 500$ — прочитают экзом (1% генома) "exome sequencing 125x coverage" (whole-exome, WES), за тысячу (местами за 600) — полное чтение с 30x покрытием (Whole genome sequencing, WGS).
https://en.wikipedia.org/wiki/Comparison_of_DNA_sequencing_services
https://www.nature.com/articles/gim2017247 "Cost estimates for a single test ranged from $555 to $5,169 for WES and from $1,906 to $24,810 for WGS."
Близнецы получили «загадочные» результаты, проверив 5 сервисов поиска предков по ДНК