Pull to refresh

Comments 110

Надо сделать еще один шаг и послать один и тот же материал под разными именами.
Вы что, не надо так делать, а то окажется что вы сам себе не родственник. Да и предки у вас разные. Шарлатанство не даёт похожих результатов при похожих исходных, ведь когда говоришь правду она одна для всех, а когда лжешь надо запоминать ложь для каждого.
Я полагаю эти компании уже сделали правильные выводы и будут теперь сперва искать в своих базах хеш-сумму предыдущих исследований.
Жду статью от биохакеров с этим экспериментом!
Интересно, а установление преступника по ДНК какую имеет точность?
Там методика совершенно другая, если мне не изменяет память, и расшифровку ДНК она вообще не включает:
1 — фермент режет ДНК по конкретным маркерам, к которым он подходит, как ключ к замку;
2 — получается характерный для данного человека набор кусков разной длины и массы, зависящей от числа и расположения маркеров на хромосоме (у его родственников куски будут почти такими же, так как маркеры сидят в пределах мутационной погрешности на тех же местах);
3 — фрагменты заряжены и «сепарируются» в геле при помощи электрического поля, получаем набор полос, насыщенных кусками определённой массы в определённом количестве;
4 — полученный профиль будет характерен для данного человека (у его родственников с ним совпадёт определённый процент полос);
5 — производится сравнение профилей, полученных из разных образцов.

PS статья мне давно попадалась, про погрешность не помню.

[UPD] Кажется, под это описание подходит метод ПДРФ, но есть и другие методы.
Спасибо, мои данные устарели.

Сравнительно высокую (кроме ~11-12 миллионов живущих на планете монозиготных близнецов), пока не начинают искать совпадения по базам на основе образца, в котором смешались днк от нескольких людей (особенно 3 и более). Особенно сложно — если в доли материалов от разных людей в смеси близки. В таких случаях начинается "Интерпретация", в ходе которой исследователь-криминалист может выбирать подозреваемых исходя из собственных мнений (и доп.информации, полученной от обвинителей), а не фактов. У проприетарного софта, авторы которого заявляют о работе со смешанными образцами, нет мнений, но нет и исходников…
https://www.theatlantic.com/magazine/archive/2016/06/a-reasonable-doubt/480747/
https://royalsociety.org/~/media/about-us/programmes/science-and-law/royal-society-forensic-dna-analysis-primer-for-courts.pdf#page=28 "When mixed samples are obtained then the number of peaks at each STR locus can become difficult to determine" "A 2.4 Interpreting ..."
https://www.wired.com/story/trueallele-software-transforming-how-courts-treat-dna-evidence/ "DNA analysis of complex mixtures… are particularly error-prone"


При этом в подобных базах днк используется всего лишь 13-20 локаций некодирующей ДНК (STR) — https://en.wikipedia.org/wiki/Combined_DNA_Index_System#Loci "CODIS required… a set of 13 loci called the "CODIS core"… requirement has expanded to include seven additional loci"

Похоже алгоритм обработки DNA у этих компаний работает по следующему принципу
return usersDNA[random.Range(0, len(usersDNA))]
Если на второй фотографии те самые близнецы, то остальные различия уже и не удивляют как-то, или не?
Да нет, там кто-то из них явно с матерью. Вряд ли у близнецов такая разница в возрасте. Так что картинка просто лишняя.
Charlsie Agro and her aunt, Marjoh Agro
тётя её
Marketplace host Charlsie Agro, left, and her identical twin sister, Carly, check out some DNA ancestry results. (CBC)

Да ну?

Да, в статье про однояйцевых близнецов.
Marketplace host Charlsie Agro, left, and her identical twin sister, Carly, check out some DNA ancestry results. (CBC)

Это подпись под первой фотографией.
Под второй написано, что там Charlsie со своей тётей.
Да, не посмотрел комментарии выше, думал, что про первую фото речь. Подписи уже добавили, так проще.
Если после изменения в статьи не добавлять «UPD» в нужных местах, то некоторые ветки комментариев «повисают в воздухе», как эта, к примеру (новым читателям уже непонятно, что изначально подписей у картинок не было).
Да, у близнецов очень близкий генотип, ближе, чем у двойняшек.
Близнецы и двойняшки — пересекающиеся множества :)
Вложенные. Ок, генотип не дальше, чем у двойняшек…
Могут быть двойняшки, но не близнецы, а могут быть близнецы, но не двойняшки, а тройняшки и четверняшки (счёт на десятки, не более).

«Двойняшки, но не близнецы» — это как? Не однояйцевые близнецы, в смысле? Но разнояйцевые близнецы, любой «n-няшности» — всё равно ведь близнецы, по определению (как минимум, из Википедии)...


В разговорном обиходе, да, бродит представление, что для внешне одинаковых и внешне разных близнецов должны быть отдельные слова, ну ещё созвучие «двойняшек» и «двойника» может добавлять путаницу. Но по определению всё же любые «n-няшки» — частные случаи общего понятия «близнецы», разве нет?

Ну строго научно, близнецы — это все дети, родившиеся плюс-минус вместе (вроде даже бывает, близнецы от разных отцов естественным путём), делящиеся на двойняшек, трояняшек и прочих няшек. Но в обиходе близнецы — дети, родившиеся вместе и очень похожие друг на друга (необязательно однояйцевые, но чаще всего).
ну как верно заметили выше, это пересекающиеся множества. Но тут стоит определиться с терминологией, потому что, строго говоря двойня, это уточнение количества близнецов. И близнеца — это дети любой многоплодной беременности.
Но в массовом сознание чаще всего под близнецами подразумевается однояйцевые близнецы, а под двойняшками (N-няшками) — близнецы разнояйцевые. Так или иначе, надо смотреть на контекст.

В данном случае под близнецами я имел ввиду однояйцевый случай, а под двойняшками — многояйцевый.
Однояйцевые близнецы рождаются из одной зиготы (яйцеклетки оплодотворённой сперматозоидом) соответственно генотип у них общий.
В массовом сознании всё же двойняшки — два однояйцевых ребёнка, два близнеца. Как старший брат разнополых двойняшек-неблизнецов это хорошо знаю.
Вероятно тут имеет место систематическая ошибка выжившего. Можно посмотреть по комментариям выше, что под близнецами подразумевают именно людей с одинаковой внешностью.
Но так или иначе, чтоб точно ответить на этот вопрос надо проводить соцопрос, без этого все утверждения — пальцем в небо.
Под близнецами — да, но в массовом сознании двойняшки, тройняшки и т. п. — это просто уточнение количества близнецов, родившихся одновременно. Многие люди испытывают… когнитивный диссонанс что ли, когда два человека разного пола совершенно разной внешности, говорят, что они двойняшки.
Многие люди испытывают… когнитивный диссонанс что ли, когда два человека разного пола совершенно разной внешности, говорят, что они двойняшки.
Я не сомневаюсь. Вопрос в том, кого больше, людей которые под двойняшками понимают только однояйцевых, или людей, которые подразумевают и тех и тех.
По моей выборке больше тех, кто считает, что двойняшки должны быть похожи до смешения.
два человека разного пола совершенно разной внешности, говорят, что они двойняшки

Интересно, что они скажут про этот пример близняшек-двойняшек:
image

По моим наблюдениям, оба лагеря более-менее сравнимы по численности. Ещё нередки «перебежчики» из одного лагеря в другой, по принципу «ладно, в прошлый раз перепутали — значит, теперь-то точно правильно» :)

Я в «массовом сознании» встречал 4 разных мнения на этот счёт (ограничиваясь для простоты только няшностью и близняшностью кратности 2): «двойняшки похожи, близнецы — нет», «близнецы похожи, двойняшки — нет», «близнецы» и «двойняшки» — синонимы», «близнецы родились вместе, а двойняшки — не обязательно».
Вот и стало интересно, откуда дровишки)
«близнецы родились вместе, а двойняшки — не обязательно».
Путают со словом двойники, наверное…
:) Речь о браьях-сёстрах с разницей в 8+ месяцев.
Главный генетик популярной компании по поиску предков признал, что это «частью наука, частью искусство»
да, и часть науки стремится к 0%
Пол Майер, главный генетик из FamilyTreeDNA
До этого тихо собирали убитых енотов. Даже я желал услугу купить, но не произведение искусства.

В третий раз повторю вопрос: где генетически-изменённые китайцы, которых лечили от рака?
В таких иследованиях эмбрионы уничтожаются.
Был только один случай рождения ГМ детей, но медецинская тайна не даст их «обнародавать» ria.ru/20190122/1549683070.html
Спасибо, посмеялся.
«Этносы» и «географические регионы» — больше социально-антропологический конструкт, чем факторы, определяющие генетику. Кто и как эти панели валидировал — не совсем ясно, зато вот когда попытались отреверсить эту цепочку — она стала люто расходиться начиная с момента N. Удивительно, да?

Каждый конкретный человек — это переносчик гена. При этом носимый ген в какой-то степени определяет фенотип человека, описывающий его происхождение. Отсюда приведу очень грубый пример того, что произошло: ученые два раза проткнули большим шприцом тентованный фургон. Попали в пакет с молоком и бензобак, отобрали пробы. Сказали, что фургон выпущен на заводе цистерн, потому что и молоко, и бензин перевозят в цистернах. При этом первый параметр оказался случайным выбросом, а второй неспецифичен для любых бензиновых автомобилей, но на основании двух этих критериев создали панель.
Не совсем так. Они проткнули фургон сотней иголок и скормили результат нейросети. Нейросеть сказала, с уверенностью 89% это грузовик, 65% что цистерна, 59% что везет молоко, 45% что двигатель бензиновый, 24% что произведен в США, 15% что водитель негр, 3% вероятность того, что он ВИЧ инфицирован.

При этом, часть данных нейросеть получила из результата анализа (получив размер машины, пробы бензина, молока, водителя), а часть взяла из статистической выборки (грубо говоря, какой процент грузовиков длиннее 35м произведен в США, сколько негров ВИЧ инфицировано).
А может и не немного, а сильно :)
Если в мире есть эссенциализм, то на нём можно заработать.

Дано — много людей, думающих что есть генетически чётко определяемые, неизменные (!!!) и сильно от соседей отличающиеся немцы-французы-русские-ит.п. Им хочется продать графики с «долями». Как доли добывать? Ну, вот так вот, нечётко.
Вы не совсем корректно используете терминологию. Ген — это участок ДНК, кодирующий синтез одного белка. А в описанных случаях используются как раз некодирующие последовательности, «мусорная ДНК» как её раньше называли.
Так что ничего сверхудивительного в том, что у однояйцевых близнецов есть различия в некодирующих последовательностях, я не вижу. А примеров расхождения по генам нам не привели в статье.
У однояйцевых — ДНК должна быть ИДЕНТИЧНОЙ!
Иначе, они — не однояйцевые.
Потому что однояйцевые — это происходящие из одной яйцеклетки оплодотворённой одним сперматозоидом, и как следствие получившие одинаковый набор ДНК.
Вы не горячитесь. Они изначально действительно одинаковую последовательность нуклеотидов получают, но потом каждый идет своим путем. И если отклонения в генах чинятся, и с высокой степенью вероятности остаются одинаковыми, то в некодирующих последовательностях разница с возрастом нарастает.
ДНК же меняется с возрастом, и у близнецов она меняется неодинаково.
Из ваших слов следует, что ДНК в руке и ДНК в ноге — тоже будет с возрастом сильно разная.
А это не так.
(Вы фактически написали, что мусорная часть при повреждениях не чинится никак.)
ДНК в руке и ДНК в ноге — тоже будет с возрастом сильно разная

Я не писал что сильно, но вполне вероятно, что различия будут. Как пример, участки кожи на свету и скрытые от света подвергаются существенно разному мутагенному влиянию УФ, так что можем ожидать различий.
Вы фактически написали, что мусорная часть при повреждениях не чинится никак
. И что вас смущает? Она ничего не кодирует, как ее чинить? Откуда возьмутся специфические хеликазы и экзонуклеазы? Тут гены починить проблема, а вы хотите тратить ресурсы на некодирующие участки. Зачем это вообще клетке?
А как различается, что чинить, а что не чинить?
Я про такой механизм различий — не слышал.
Хеликазы, гликозилазы и экзонуклеазы не специфичны для конкретного гена (хеликаз всего 24 типа, как бы это вышло у них?), они реагируют на определённые особенности цепи ДНК (например, на замену тимина урацилом), которые могут возникать где угодно. Выбор точки присоединения ферментного комплекса к ДНК — процесс также стохастический.

Вообще считать, что клетка работает осмысленно, рационально и целенаправленно — глубокое заблуждение. Это перплетение разнонаправленных процессов, основанных на случайностях, но эволюционно уравновешенных так, чтобы суммарный результат в среднем способствовал выживанию. Чинить всё без разбору оказалось эволюционно выгодно.

Стоит также учесть, что в силу случайности процессов не все ошибки оказываются найдены и не все починки удаются, например, близкие разрезы на двух нитях в процессе репарации могут привести к разрыву всей молекулы. Однако у клетки с ошибками репарации важных участков ДНК больше шансов покончить жизнь Роскомнадзором апоптозом, потому что она просто перестанет нормально работать.

О такой сущности, как «ДНК ноги» или «ДНК кожи» говорить невозможно, так как и повреждения, и ошибки репарации в каждой клетке разные, и между двумя соседними клетками кожи разница в ДНК в итоге может оказаться больше, чем между двумя взятыми из печени и из сердца. Это ни о чём не говорит и при анализе будет выглядеть как небольшой статистический шум: если у 1 клетки из 100 в данном месте сбой, то у 99 одно и то же нормальное состояние.
Выбор точки присоединения ферментного комплекса к ДНК — процесс также стохастический.

Отнюдь. Нобелевка 2015 года как раз за изучение репарационных процессов, и там не все так просто. Вот обзор по теме.
Вообще считать, что клетка работает осмысленно, рационально и целенаправленно — глубокое заблуждение.

Осмысленно нет, рационально — безусловно, просто это локальная рациональность, целенаправленно — ну целеполагать клетка точно не умеет, однако ее деятельность вполне можно считать алгоритмичной.
О такой сущности, как «ДНК ноги» или «ДНК кожи» говорить невозможно
Согласен, я и не говорил. Но не потому даже, что разница между соседними клетками есть (для анализа ДНК мы не одну клетку ведь берем, а на порядки больше), а потому что «клетка кожи» или «клетка ноги» это эпигенетическая характеристика, а не генетическая. И при пересадке клетки из кожи в ногу она может спокойно стать «клеткой ноги».
«Стохастический» означает, что факт репарации (а не её механизм) основан на вероятностях: окажется ли в нужный момент нужный белковый комплекс в нужной точке, получится ли у него закрепиться, окажется ли вблизи его комплекс-партнёр до того, как произойдёт самопроизвольное разделение, какова концентрация нужных для репарации нуклеотидов в растворе в данном конкретном месте и так далее. Приведённая вами статья ни в малой мере этого не отрицает, к тому же, в ней нет ни намёка на избирательную починку участков с работающими генами в ущерб некодирующей части.
А разве не очевидно, что все упомянутые механизмы могут работать только на неконденсированном хроматине? Некодирующая часть обычно плотно упакована, что просто не дает возможности реализации механизмов репарации. Ну вероятность конечно есть, но именно стохастичность и работает против некодирующих участков — ведь вероятность любой активности возле них значительно ниже, чем в области кодирующих.
Возможно, вы не в курсе, но уровень экспрессии гена непостоянен по времени и разный в разных тканях. То есть, доступ к одним и тем же участкам ДНК непостоянен (и он облегчается как раз во время использования участка, когда особенно велик риск повреждения). Во-вторых, я жду от вас доказательств того, что некодирующие участки всегда конденсированы. В-третьих, надеюсь, вы не станете отрицать, что доступ не только репарирующих агентов, но и большинства повреждающих факторов к конденсированным участкам затруднён, иначе защита для долговременного хранения выглядела бы как-то иначе.
А при чем тут гены? У некодирующих участков экспрессии нет вообще. Про то, что они всегда конденсированы — ну вот есть из вики цитата
Если хроматин упакован плотно, его называют конденсированным или гетерохроматином, он хорошо видим под микроскопом. ДНК, находящаяся в гетерохроматине не транскрибируется, обычно это состояние характерно для незначащих или молчащих участков.
, но я собственно не совсем понимаю, почему я должен это доказывать? Это, как вы совершенно верно отметили, процесс стохастический, могут и молчащие участки распаковаться и репарироваться, но согласитесь, что вероятность такого события значительно меньше, чем для кодирующего участка.
доступ не только репарирующих агентов, но и большинства повреждающих факторов к конденсированным участкам затруднён

А вот это интересный момент. Ошибок действительно в конденсированном должно быть меньше, но это если рассматривать одну клетку на ее жизненном пути. Однако вероятность ошибок при митозе будет одинаковой. Так что со сменой поколений кол-во ошибок в некодирующих участках будет нарастать практически без шансов репарации, а ошибки в генах имеют значительно большую вероятность быть исправленными. Мне так представляется.
Перечитайте ещё раз свои сообщения. Вы делаете очень категоричные заявления из обобщений, сформированных на основе качественных утверждений наподобие «обычно это состояние характерно для молчащих участков».

Каков темп этого «нарастания ошибок практически без шансов реперации» и каково его отношение к накоплению ошибок в генах? Каково относительное количество повреждённого материала к неповреждённому в некодирующей части и в кодирующей и каков процент исправленных и пропущенных ошибок в том и другом случае? Достаточно ли этого для утверждения о том, что починка ДНК за пределами экспрессирующихся генов не производится с целью экономии ресурсов? На основании чего вы утверждаете, что для репарации «молчащих» учестков принципиально не подходят существующие типы белковых комплексов? Без этих данных ваши слова не стоят ничего.

Впрочем, то, что каждое следующее ваше сообщение сформулировано всё менее категорично, обнадёживает.
Без этих данных ваши слова не стоят ничего.

Категоричность ваших утверждений, конечно же, основана на точных количественных данных :). Простите, в таком тоне мне дискуссию продолжать неинтересно. Коль вы считаете, что
Чинить всё без разбору оказалось эволюционно выгодно.
, вряд ли исследования разницы механизмов репарации конденсированного и некоденсированного хроматина будут вам интересны.
Я исхожу из того, что нигде в литературе мне ни разу ни в каком не встречалось утверждение о том, что для репарации не белок-кодирующих участков ДНК требуются принципиально новые, некие не существующие до сих пор типы ферментов, также в описаниях методов репарации нигде и никогда не встречались упоминания о том, что репарируются только активно экспрессирующиеся гены. Из отсутствия упоминаний я делаю вывод, что все участки ДНК чинятся по единому алгоритму. Если у вас есть данные о существовании алгоритма, отличающего ген от любого другого участка и при прочих равных избирательно блокирующего репарацию не-генов, то предоставьте эти данные. Пока же все ваши выводы противоречат основному массиву информации и носят спекулятивный характер.

Конденсированный хроматин сам по себе не может свидетельствовать за или против вашей гипотезы, поскольку во-первых, конденсированными могут быть и гены, причём каждый из них будет проводить в этом состоянии разное время, во-вторых, там идёт уравновешивание разнонаправленных процессов (уменьшение интенсивности повреждений и одновременно затруднение репарации), и неясен конкретный вклад каждого из них. Не говоря уж о том, что вся ситуация в целом гораздо многограннее.

Также мне хотелось бы обратить ваше внимание на тот факт, что ошибки в «мусорной» части ДНК точно так же как и в «значимой» могут вести к её разрыву или нарушению не только вторичной, но и третичной структуры, что в свою очередь может нарушить экспрессию генов и/или негативно повлиять на деление клетки. Именно поэтому не чинить некодирующую часть — эволюционно дорого.

Кроме того, есть прямое свидетельство достаточно качественной починки «мусорной» ДНК. Самое частое повреждение ДНК — это потеря аминогруппы (дезаминирование), когда C превращается в U (который в норме характерен для РНК). Если бы удаление урацила из некодирующей части не производилось, он бы встречался в ДНК чуть ли не в большем числе случаев, чем C, так как объём «мусорной» части больше, чем «полезной», состоящей строго из ATGC. Однако это противоречит эмпирическим фактам, значит, это распространённое повреждение тщательно подчищается по всей длине цепи.
Я так и не понял, в статье вопросы задаются только к интерпретации теста либо RAW дата у близнецов различается?
Согласно данным от 23andMe, 99,6% частей были одинаковыми
RAW data ≈
Биотехнологии, это безумно круто. Но этой статье место на НТВ.
Статья об известной проблеме, но без вменяемых сведений. То есть ни о чем. Сначала надо отделить интерпретацию от исходных данных. Исходные данные есть в виде файлов? Насколько отличаются исходные данные близнецов друг от друга? Насколько отличаются исходные данные каждого при анализе в разных сервисах?
И тому есть простая причина: собранные данные по ДНК сестёр практически идентичны. «Они шокирующе похожи», — сказал он.
Это какое-то эстрадное выступление. Похожее на мошенничество. По какой причине ДНК однояйцовых близнецов стало разным?
Ну вроде как, может быть разным, шанс 80%.

Все эти тесты ДНК за ~100$ не делают полное сканирование ДНК, а лишь быстрое сканирование. Чуть лучше чем «подержите два проводка, получите персональный гороскоп».

Кстати, почему в статье нет данных о том, совпали ли у близняшек риски по генетическим заболеваниям, одинаковы ли ближайшие родственники (ближний генетический поиск).
Так в статье вроде нет информации что они делали медицинские тесты — только херитайдж.
Вы хоть поняли саму фразу? Не ДНК близнецов схожи, а отобранные для анализа «характерные участки», то есть те самые панели — одинаковые для всех фирм, но интерпретируют их они по-разному.
Объявление по громкой связи: Внимание, внимание! Сообщение для синьора Розарио Агро!
— Это мне! У меня сын родился!..
У вас в Риме родилась девочка!
А разве тесты на риски по генетическим заболеваниям делают полное секвестирование генома? Нет. А если не полное — то чем они надежней? Такое же «искусство»? Хотелось бы разобраться.
На заболевания надежней — там идет поиск конкретных аномалий в конкретных частях ДНК, то есть явный «поиск по образцу». При этом нормальные последовательности анализируемых генов известны, и ошибки будут четко «высвечиватся», хотя вероятность заболевания тоже может быть не 100%, а в виде определенных рисков (так как могут быть компенсаторные механизмы, сложные зависимости и т.п.).

А поиск предков — это очень расплывчато, там анализ вероятностный, исходя из закономерностей генотипа в определенных регионах, и тут объем анализируемой ДНК и объем статистики в базе крайне важны.
При проблеме несовпадения результатов для близнецов вопрос же возник не в статистике, а гораздо раньше, еще на стадии установления «конкретных частей ДНК» из взятых образцов, так? Тут чем-то технологии медицинские и генеалогические отличаются?
Анализ на заболевания делается по конкретным генам, то есть там заранее известно в каких частях ДНК мы должны искать и что именно мы там ищем.
Нельзя взять любую часть ДНК и анализировать дефекты искомого гена, если он в ней не расположен.

Генеалогический анализ — это, допустим, как анализ авторства текста.
По фрагменту текста можно предполагать кто из классиков был его автором, анализируя некие характерные для каждого автора особенности написания текста, длины предложений, использования тех или иных слов и т.п.
Но в зависимости от того какой фрагмент текста мы возьмем и от того, насколько детально у нас тексты автора представлены в нашей базе, какой алгоритм сравнения мы используем для анализа — вероятность правильного определения будет отличаться.
В случае генеалогии еще сложнее, так как «автор» не один — там будут предки из разных регионов, с разной степенью кровосмешения и, соответственно, предсказание еще сложней.
И ещё сложнее — само определение базы предков достаточно случайно. Ну не было в, например, в 17-м веке всемирного банка ДНК. Собственно и сейчас его нет.
Ваше объяснение понял так: в медицинских целях ищут конкретные фрагменты ДНК, а для близнецов в супе из их порезанных днк/мтДНК/рнк фрагментов выловили случайные, подходящие по критерию «можно запускать поиск в базе», но наборы этих фрагментов оказались различными и из-за этого разница в результатах. А разве не гаплогруппы используются для этих «херитейдж» тестов? Вот например историческая R1 c мутацией M173 — как я понимаю для установления нужен конретный фрагмент ДНК — ведь мутация конкретная, именная. Неужели можно установить гаплогрупу по случайным а не конкретным фрагментам ДНК? Или все же не гаплогруппы используются для этих MyHeritage, 23andMe, FamilyTreeDNA…?

Гаплогруппы не особо привязаны к границам интересующих пациентов формальных регионов и имеют только некоторый относительный процент распространения там и сям, который, к тому же, меняется с ходом истории.
Возражений нет, но вопросы остались, поэтому я их повторю:
1) Можно ли установить гаплогруппу не ища конкретные фрагменты ДНК / гены?
2) Тот метод что используют MyHeritage, 23andMe, FamilyTreeDNA и иже с ними разве это не определение гаплогруппы? (напр. FamilyTreeDNA в статье на вики пишет о гаплогруппах)
Я понятия не имею об их методах, подозреваю, это коммерческая тайна. Но если найдёте информацию — делитесь.

Гаплогруппы по определению группируются через одиночные мутации ("is a group of similar haplotypes that share a common ancestor with a single-nucleotide polymorphism mutation") — см Marker в https://en.wikipedia.org/wiki/Haplogroup#Y-chromosome и Defining mutations в карточках групп, н. https://en.wikipedia.org/wiki/Haplogroup_C-M130 и прочих по спискам https://en.wikipedia.org/wiki/Conversion_table_for_Y_chromosome_haplogroups
https://www.familytreedna.com/mtDNA-Haplogroup-Mutations.aspx
"Click on an mtDNA Haplogroup to view the mutations required for that Haplogroup."
https://www.genofond.ru/genofond.binec.ru/LoadFile708a.pdf?file_id=937#page=2
база маркеров https://isogg.org/tree/ISOGG_YDNA_SNP_Index.html
Там указана позиция и замена. Далее — через http://ybrowse.y-chromosome.org/gb2/gbrowse/chrY/


"Генетические" компании ищут не только маркеры гаплогрупп, но и многие другие snp маркеры, например, ассоциированные с заболеваниями.
Некоторые списки проверяемых маркеров есть по ссылкам в https://www.snpedia.com/index.php/Haplogroups
База SNP — https://en.wikipedia.org/wiki/DbSNP


В среднем геном занимает 700 мегабайтов или примерно 1 компакт-диск...

Представьте, что все население планеты занимается пиратством cd-rom дисков (по 700 МБайт) на спец.приводах с ненадежным копированием. На входе 2 диска с похожим содержимым в 23 каталогах (на самом деле диски двухсторонние по 700 МБ, но в каждом из 23 каталогов обычно есть несколько десятков-сотен позиций, в которых диск переворачивают чаще). На выходе — сколько-то сотен КБ с одного, сколько-то с другого, но по одинаковым смещениям (таблица файлов более-менее общая). При этом один Mt-кусочек, Mt-директория (набор из пачки похожих 4 килобайтных частично самокопирующихся com-файлов для управления "электростанцией") всегда берется с "розовых" дисков, а не с "синих"; а "Y" кусочек (директория на 14 мегабайт, в т.ч. ключи для запуска привода) только с "синей" стороны при создании "синего" диска. При копировании некоторые пары биты перещелкивает, уровень неисправленных ошибок — около 2 битов на каждые 2.5 МБайт (десятки-сотни 2битовых ошибок на копирование), иногда пары битов вставляются или вырезаются. Повторить хотя бы 20-30 тысяч раз, выбрасывая старые диски после нескольких копирований, уничтожая новые диски (если повредились исполняемые файлы, которых там порядка 20 тысяч штук в среднем по 2 килобайта, крупнейший 0.5МБ, т.е. суммарно на ~40 МБайт, или просто так на определенных уровнях типа 1/10 в первый год и далее) и перетасовывая диски между соседними поселениями. После создания диска в нем также образуется некоторое количество ошибок (в Y-файлах чаще раз в 5).
Получить после суммарного числа в 107 млрд копирований набор из 7.5 млрд сохранившихся cd-rom, разница между которыми в среднем составляет 125 МБайтов (в формате текстового diff) — или около 3 миллионов различий примерно по 2 бита каждое.
Новая гаплогруппа — это все диски, в которых Mt- или Y- кусок ("директория") имеет определенную замену, которая произошла где-то на интервале условно от 0,5-1 до 20-25 тысяч копирований тому назад (в те эпохи пиратство было менее распространено и общее число единовременно копируемых дисков было скорее менее 1-15 млн).
(в остальных директориях и файлах творится полный беспорядок, т.к. они перемешиваются в каждом копировании)


Если собрать все известные варианты Mt- и Y- файлов вместе, то "отменив" все ошибки можно найти какой-то условный образ исходной директории, из которого были получены все ныне имеющиеся диски — mt-MRCA + Y-MRCA = https://en.wikipedia.org/wiki/Mitochondrial_Eve + https://en.wikipedia.org/wiki/Y-chromosomal_Adam
(а если раскопать образ cd-rom соседней системы из ущелий германии, точнее 60 кбайт из y-каталога, то можно будет отменить еще несколько ошибок и получить в 2 раза более ранний исходник "Y-T-MRCA")
То есть гаплогруппа описывается списком замен относительно образа, а все они организуются в дерево, каждое ответвление которого — несколько, до пары десятков замен (т.к. часть историй копирования потеряна — git lfs не изобрели еще). Например — https://journals.plos.org/plosone/article/file?type=supplementary&id=info:doi/10.1371/journal.pone.0134129.s002

Cпасибо. Т.е. поиск маркера мутации определяющей гаплогруппу ничем не отличается от поиска маркера мутации определяющей генетическое заболевание?

В целом поиск не отличается, кроме того, что маркеры для гаплогрупп (определенных на данный момент) известны и их сравнительно немного, а "маркеры" для заболеваний найдены и описаны далеко не все; статистику по ним собирать очень тяжело, т.к. у конкретной мутации может быть 10 или 100 известных носителей на планету. Для каких-то есть хорошая статистика и разрешение на "мед.применение". Например — https://www.fda.gov/NewsEvents/Newsroom/PressAnnouncements/ucm599560.htm "Test only reports 3 out of more than 1,000 known BRCA mutations and negative result doesn’t rule out increased cancer risk" "three specific BRCA1/BRCA2 breast cancer gene mutations that are most common in people of Ashkenazi (Eastern European) Jewish descent.… are present in about 2 percent of Ashkenazi Jewish women" — разрешенный FDA тест ловит только 3 из более тысячи мутаций одного из генов; эти мутации есть у 2 % определенной группы.


https://www.snpedia.com/index.php/Testing сообщает, что за ~100 долларов тестируется при помощи чипа порядка 10-25 тысяч различных SNP, что-то около половины из них — на гаплогруппы; несколько тысяч встречаются в базах мед.литературы (т.е. какие-то из мутаций могут дать статистически значимые +5% риска какого-то рака в жизни). На snpedia — 110 тысяч snp. BRCA — https://www.snpedia.com/index.php/BRCA1_and_BRCA2


Компании придумывают какие фрагменты и с какой длиной (напр. мутация +- 10 оснований или +-20 оснований) включать в чип, их чипы могут несколько отличаться в эффективности обнаружения маркеров. И конечно у компаний отличаются наборы маркеров. Есть полногеномные чтения, но они значительно дороже.
https://isogg.org/wiki/Autosomal_DNA_testing_comparison_chart

Спасибо. А насколько вероятно что чип у одного близнеца найдет один из SNP а у другого не найдет? В вики нет ничего о точности, но вполне естественно предположить что если чипом за раз ищатся 10-25 тысяч SNP вероятность того что хотябы один из них чип упустит — очень высока. И если это так, то верно ли рассуждение: для поиска болезней это не так и важно — болезнь может быть очень редкой и ошибка «недиагнастировали» теряется на фоне случаев «а пациент и не болен этим», но вот поиск по базе «с какой я местности» чувствителен ко всем SNP и сразу выдаст существенно разные «процентали»?

Извиняюсь, ошибся с количеством — https://isogg.org/wiki/Autosomal_DNA_testing_comparison_chart
все используют чипы корпорации Illumina на +- 700 тысяч маркеров (бывают чипы до 0.9-1 млн snp-маркеров), большая часть маркеров для стандартного чипа общая, компания может добавить 30 тыс или заменить 350 тыс в зависимости от продукта. Ошибка поиска маркеров в образце видимо менее 0.5%. Для поиска болезней это все неважно, т.к. достаточно редко удается найти мутации, для которых известен ассоциированный высокий риск заболевания (а для известных случаев — brca — у них недостаточное разрешенное покрытие, менее 1% возможных мутаций).
https://www.health.com/breast-cancer/23andme-what-to-know
"Your results don’t mean you will (or won’t) get a disease"
https://www.fda.gov/NewsEvents/Newsroom/PressAnnouncements/ucm551185.htm
"presence or absence of some of these variants is associated with an increased risk for developing any one of the following 10 diseases or conditions… Risks associated with… GHR tests include false positive findings,… and false negative findings"
https://www.popsci.com/23andme-is-probably-terrible-idea

«Ошибка поиска маркеров в образце видимо менее 0.5%.»
извините я правильно из синопсиса понял что это для одного маркера? И можно умножать эту вероятность на 700K маркеров в чипе/тесте? Цифры получаются какие-то уж большие.

Точность выше 99.5% — сравнение результатов трех разных чипов (Illumina Human OmniExpress, Affymetrix SNP Array 6.0, Illumina Infinium Immunochip на 200к) на одних входных образцах — https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3538340/


Что для вас большие цифры? Это не TCP/IP поверх эзернета, где данные покрыты двумя контрольными суммами и перепосылаются при обнаружении сбоя (и все равно ломаются — https://media.blackhat.com/bh-us-11/Dinaburg/BH_US_11_Dinaburg_Bitsquatting_WP.pdf & https://en.wikipedia.org/wiki/Data_corruption#Silent, https://www.nsc.liu.se/lcsc2007/presentations/LCSC_2007-kelemen.pdf)

Делал тест в FamilyTreeDNA. Тоже нашлись предки в Польше :(
А что значит нашлись предки? Конкретные люди нашлись?
Скорее обнаружились общие предки с людьми ныне живущими в Польше. Не уверен, что в базах ДНК таких сервисов есть ДНК эксгумированных могил людей, умерших сотни и тысячи лет назад.
Об этом и вопрос: что получил virtyaluk контакты людей с предпологаемой степенью родства или красиво раскрашенную карту с надписью «большая часть ваших предков жила на Сицилии, Украине и в Польше»?
кавайная биология

Заголовок спойлера
Это ответ sciuro про почему я расстраиваюсь, что в «науке» ИБД.

Может быть, дело в конкретной теме. У меня общее впечатление, что цитометрия и иммунология состоят из в основном дельных проектов. Еще у меня такое же ощущение про КРИСПР или другие, связанные с изготовлением плазмидов, например, темы. GFP-related stuff пока что тоже вроде сравнительно ок. В секвенировании _геномов_ все сравнительно ок. А вот в РНК-сек все очень плохо. И в куПЦР все очень, очень плохо. Про микроэррэи я вообще молчу, мне даже туда лезть не хочется, так там всё плохо.

Я могу попробовать объяснить. Я же тут последние три кода в Quantitative Biology Center и занимаюсь статистикой и квантификацией. И это очень, очень плохо. РНК-сек — это (во всяком случае пока) такая фигня, что уши сворачиваются в трубочку от ужаса, ЧТО люди выдают за реальные данные. Я для примера приведу две статьи, которые очень хорошо характеризуют состояние дел в этой области.

Вот одна статья. Делала ее никому неизвестная бедная лаба из области агрономии (люди с растениями — это вообще несчастные люди, у них как правило сильно мало денег, и к ним мало кто идет). Статья ПРЕКРАСНАЯ, просто золото. Написана максимально простым, логичным языком, видно, что у людей огромный опыт, что они не только специалисты, не только могут разобраться в данных, но и могут при этом внятно объяснить, как они это сделали, какие недостатки, как их надо воспринимать, и что можно сделать для решения проблем. Однако их прекрасная статья хрен знает где в каком жопо-журнале висит.
onlinelibrary.wiley.com/doi/epdf/10.1111/tpj.13014

Кратко: эти люди взяли и симулировали идеальный датасет, который получился бы при РНК-секе, если бы РНК-сек был сделан в идеальных условиях. Ну то есть «чистые данные», что никогда не бывает в реальных условиях. Далее, они взяли этот идеальный датасет, и прогнали его на доступных софтах для анализа РНК-сек данных. Как если бы они прогоняли реальный, грязный датасет. Так вот. ДАЖЕ ПРИ ИДЕАЛЬНОМ датасете, у них более 25% генов(!!!) «поехали» и дали кривой количественный результат, отклоняющийся на более чем 20% от реальных цифр (реальные цифры были известны, т.к. датасет был симулирован сознательно, и цифры были заложены создателями).

Четверть бля! Четверть всех генов поплыли! На ИДЕАЛЬНОМ датасете! А представьте что там в реале получается, когда люди приносят хрен знает какую грязную РНК, которая потом еще и напэцээрена сверху, потом из нее хрен знает как сделала библиотека хрен знает каким криворуким студентом…

Я щас покажу картинку, сколько критических ступенек в РНК-секе, на которых [количественный] результат может «поплыть»:
image

Слева РНК-сек ступени, на которых может поплыть. Из 14 ступеней только 13 и 14 — это анализ софтом. Все остальное может и будет вносить шум в количественное измерение. О каком в жопу точном измерении экспрессии можно говорить, простите меня пожалуйста? И это я еще НЕ ВКЛЮЧИЛА пэцээрение туда!!! Которое при single-cell RNA-seq обязательно!!!

Важное уточнение: я не говорю о качестенном прочтении транскриптома, про качественное у меня ощущение, что там есть основания, т.к. секвенирование само по себе работает сравнительно ок, если что-то прочиталось, значит оно там как минимум было. Я говорю про количественное измерение экспрессии генов.

И спасибо большое агрономам с их статьей, с симулированным датасетом, который четко показал, насколько реально можно доверять анализу софтами… и это еще если учесть, что этих софтов понаплодилось — лопатой ешь… и все как один лучше другого, если верить их создателям((((

А теперь смотрите какая говностатья выложена в Нейчер (тут слово «говностатья», к сожалению, употреблено в прямом смысле, меня просто выворачивает на нее смотреть, настолько она страшно, некачественно написана, будто ее курица писала левой лапой):
www.ncbi.nlm.nih.gov/pubmed/19015660

Там ТАКИЕ дифирамбы РНК-секу, что у меня четкое ощущение, что пост проплачен статья проплачена. В буквальном смысле проплачена, компаниями, выполняющими этот самый РНК-сек. Ну страшно читать, ей-богу, особенно после первой агростатьи. Просто страшно.

А она в Нейчер. И на нее ссылаются. И ее читают зеленые студенты. Ну мрак блин.
Очень круто, спасибо. Я обязательно почитаю. Извини, за немного странный вопрос — меня смутил твой аккаунт. O_o
И это я еще НЕ ВКЛЮЧИЛА

Семёнов Алексей
Это не я :)
Просто попалось как-то на глаза, сохранил в закладках.
Сверху ссылка на источник.
(С) — где-то в процессе редактирования потерялось. Прошу прощения.
Увы, одно из возможных объяснений — эти сервисы просто придумывают результаты.

Компания может честно разрабатывать алгоритмы, собирать базы, анализировать карты и т.п., а может просто выбрать «правдоподобный» результат на основе уже известных демографических данных о клиенте и добавить к нему rand(). Второе дешевле.
Я скептик, но ведь их бизнес, как я понимаю, не просто карту раскрашенную прислать с проценталями, а попытаться найти родственников — в обещаниях именно что людей сводят.

Вот например с MyHeritage: "Over the past 16 years, MyHeritage has helped millions of people find new family members and..."

Если считать это бизнес нечестным тогда, это не ложные результаты, а впервую очередь ложные обещания и фабрикация отчетности.
Согласно данным от 23andMe, 99,6% частей были одинаковыми, отчего Герштейн с командой и были так удивлены результатом.


А Герштейн с командой это точно ученые были? Или только «изнасилованные» журналисты?
Потому как человек даже от высших обезьян отличается всего чуть больше 1% генетического кода. А разные люди друг от друга — на доли %.

Если считывание данных с присланных образцов дает отличие в 0.4% (99.6% совпадения) — то странно ожидать какого-либо другого результата анализа этих данных. Т.к. 0.4% разницы это не только вообще не уровень близнецов, а даже не дальних родственников. Скорее вообще никак не связанных между собой людей, просто произвольно взятых разве что одной расы/национальности.
И сильно разные результаты анализа(похожие лишь только в самых общих чертах) при таком качестве сбора RAW данных — закономерный результат.
Но проблемы не с анализом — а с «чтением» данных. Видимо с удешевлением и массовостью совсем забили на качество. Я все удивлялся как они за какие-то 100$ ухитряются такую сложную и объемную работу выполнять.

Нормальный анализ образцов однояйцевых близняшек должен давать >=99.99% совпадения генетического кода. Буквально несколько десятков-сотню отличающихся пар оснований из-за случайных мутаций в процессе развития организма в изначально полностью идентичном коде.
Скорее всего, это не полный геном, а только характерные для антропологического анализа гены. То есть это не 0.4% генома, а 0.4% от значимого подмножества от 1%.
Вероятнее всего разница между двумя идентичными образцами появляется во время секвенирования, т.к. технологии секвенирования не дают 100% точности.
Для примера посмотрите как устроен FASTQ файл. 2 строчка это последовательность нуклеотидов в элайнменте, а 4-я строчка это «точность» секвенирования каждого нуклеотида, выраженная с помощью ASCII символов и получаемая, если мне не изменяет память, по формуле -10 * log10(Z)

А вот видео о том, какая технология секвенирования сейчас используется и почему могут возникать ошибки:
www.youtube.com/watch?v=ToKUGz_YhC4
А пол по ip-адресу не хотите предсказать?
Мне кажется из той же серии, что и анализ ДНК
Похоже, про секвенирование у большей части публики весьма поверхностное идеалистическое представление, в то время как реальность намного более прозаична. Начиная с того, что процесс секвенирования — это процесс в основе своей статистический. Если брать грубую аналогию: мы не можем прочесть страницу текста, поскольку мы близоруки, а там очень маленькие буковки, зато мы можем увеличить (буквально — вырастить) маленькие клочки бумаги, с тем, что на них написано, в большие. Т.е. мы берём лист бумаги, кидаем его в шредер, а полученные клочки проращиваем (увеличиваем в размерах) до тех пор, пока буквы на них не станут различимы. После чего берём словарь, и начинаем складывать пазл: если нашлись два слога МА, то скорее всего на странице было слово МАМА, если слоги МЫ и ЛА, то МЫЛА, если РА и МУ, то РАМУ. Если мы знаем, что кидали в шредер страницу из букваря, то, с большой долей вероятности, можем утверждать, что там было написано МАМА МЫЛА РАМУ. Хотя, не исключён и вариант, что какой-нибудь хулиган страницу испортил, и на самом деле там было написано МУРА. Так что различия в прочитанных (raw) последовательностях — вполне вероятны.
Также, почему-то никто не обратил внимания на тот факт, что у разных компаний набор последовательностей, которые они исследуют, разный (раньше, например, raw данные, которые выдавала 23andme, можно было загрузить в свой акк у FTDNA, и получить их вариант расшифровки, так как набор анализируемых последовательностей совпадал процентов на 90%, а теперь, для чипов v4+, этот вариант не работает, т.к. из ~700000 секвенируемых последовательностей общих осталось только порядка 5%). Соответственно, по разным наборам данных получатся и разные результаты. Особенно в таких эфемерных областях, как «национальные ДНК».
Итого: в настоящее время сервисы публичных широкомасштабных ДНК исследований не стоит переоценивать (согласно моему геному я должен быть блондином с голубыми глазами, что ни разу не так), но не нужно и недооценивать (опять же, приводя в пример себя — 23andme нашел в США мою троюродную сестру, про которую я вообще не знал).
Скажите а это случайное совпадение что вы и ваша троюродная сестра выбрали 23andme или у всех компаний общая база? Или кто-то из вас посторался и зарегистрировался/исследовался более чем на одном сайте?
Случайно так получилось. У всех свои базы. Вообще, 23andme позиционируется больше как заточенная на рекоммендации по здоровью, а поиск родственников — просто приятное и полезное дополнение (уж если есть большая база, по которой можно искать). Если цель — найти родственников, с набольшим возможным охватом аудитории, нужно сдать анализы всем игрокам на этом рынке (я где-то читал, что большинство участников сдают тесты только в одну компанию)
А может тогда становится выгодно сделать «полный анализ» (как я понимаю за $1000) и высылать всем файликом (с доплатой «за размещение» но не за секвентирование)? Или так тоже не принимают?
Тут я не готов ответственно комментировать, т.к. не изучал подробно этот аспект использования. Но вот тут, например, пишут, что из пяти ведущих компаний три — не позволяют загружать свои данные. В том числе и компания с самой большой базой клиентов…
UFO landed and left these words here
Смотря для какого применения.
Ряд генетических аномалии находятся очень точно и недорого. Даже для собак есть такие тесты на распространенные в породе заболевания.
Как я понял за эти 100 долларов они могут предоставить и исходные RAW данные. Там будет указано в каких местах ваш геном отличается от референсного. То есть фактически данные полностью. И этот анализ, как я понял, достаточно точен. Также за 100 долларов они могут найти на каких территориях проживают люди с такими же частями хромосом.

https://www.snpedia.com/index.php/Testing — за сто долларов запустят поиск по чипу с 0.7-1 млн SNP-маркеров (т.е. не более 1 миллиона одиночных мутаций по списку) "DNA testing (genotyping)"
За 500$ — прочитают экзом (1% генома) "exome sequencing 125x coverage" (whole-exome, WES), за тысячу (местами за 600) — полное чтение с 30x покрытием (Whole genome sequencing, WGS).


https://en.wikipedia.org/wiki/Comparison_of_DNA_sequencing_services
https://www.nature.com/articles/gim2017247 "Cost estimates for a single test ranged from $555 to $5,169 for WES and from $1,906 to $24,810 for WGS."

Хочу заплюсовать, но не хватает кармы.
После таких сообщений она и вовсе пропадает…
У меня есть всего один вопрос. Анализировалась ядерная ДНК или митохондриальная?
Only those users with full accounts are able to leave comments. Log in, please.