Мы завершаем цикл статей с практическими задачами о том, как использовать данные генетических тестов. Сегодня публикуем правильные ответы и победителей, которые решили все три задачи быстрее остальных.
![](https://habrastorage.org/r/w780q1/webt/sh/i5/k6/shi5k6fa0tuya88otirgf-zwo40.jpeg)
Все статьи в нашей серии:
Что такое Полный геном и зачем он нужен
Задача №1. Узнайте пол и степень родства.
Задача №2. Определение популяционной структуры
Задача №3. Конвертация данных и загрузка в сторонние сервисы
Для выполнения тестовых заданий мы использовали 12 образцов из открытых данных проекта «1000 Геномов». Мы переименовали образцы, чтобы участники не могли использовать доступные данные для ответов.
![](https://habrastorage.org/r/w1560/webt/wm/v7/eu/wmv7eufx25kdooodsxhmsa56bv4.png)
Таблица соответствия оригинальных и использованных в заданиях идентификаторов.
Родословная использованных образцов представлена на Рисунке 1. Правильными считались решения, в которых были идентифицированы 3 семьи и 3 генетически не связанных с ними образца — АТ0030, АТ0090 и АТ0066. Их связь с семьей невозможно установить данным анализом, если нет образцов детей. Все 12 образцов должны присутствовать в решении. Оформление родословной также принималось во внимание (Рисунок 2). Мы писали о правилах оформления в первой задаче.
![](https://habrastorage.org/r/w1560/webt/jj/y_/t0/jjy_t0y9c6xtrvr6oq1va0te6dw.png)
Рисунок 1. Родственные связи образцов тестового датасета по данным «1000 Геномов». Pedigree файл доступен по ссылке.
![](https://habrastorage.org/r/w1560/webt/_c/yu/nm/_cyunmymy5e32-zhnvuz69wzz2s.png)
Рисунок 2. Справа отражен неправильный вариант отображения семьи с одним ребенком: изображено два брака, родственных связей нет.
В датасете для задания мы использовали образцы двух суперпопуляций. Визуализация расположения 12 образцов по трем главным компонентам представлена на Рисунках 3 и 4. На точечных диаграммах можно заметить формирование четырех кластеров. Однако они не полностью соответствуют исходным данным о популяционной принадлежности: рисунок 5, две популяции. Мы объясняли причины подобного ярко выраженного и противоречивого обособления образцов в статье. Помимо этого, все образцы, показавшие неожиданное расщепление кластеров, принадлежат суперпопуляции AMR — Ad Mixed American. Смешанность и гетерогенность присуща ad mixed популяциям и может проявляться в наблюдаемой кластеризации.
![](https://habrastorage.org/r/w1560/webt/bu/tl/07/butl076rneico89ku_8qfqdt5_4.png)
Рисунок 3. Точечные диаграммы расположения образцов тестового датасета по парам первых трех главных компонент.
![](https://habrastorage.org/r/w1560/webt/yi/oo/ij/yiooij2iiolfxext3wbomovp7fo.png)
Рисунок 4. Точечная диаграмма расположения образцов тестового датасета по трем главным компонентам.
![](https://habrastorage.org/r/w1560/webt/po/rx/hg/porxhgkbfgzchlssku0ki_rfqts.png)
Рисунок 5. Популяционная принадлежность и родословная используемых в тестовом датасете образцов по данным «1000 Геномов». Pedigree файл доступен по ссылке.
На Рисунке 6 показано кластеризационное дерево, построенное по
![](https://habrastorage.org/r/w1560/webt/-y/mg/xm/-ymgxm2633szijgah19inixatpi.png)
Рисунок 6. Бинарное дерево кластеризации для тестового датасета из 12 образцов.
В этой задаче мы попросили участников подготовить данные генетического теста для загрузки в систему интерпретации Promethease и проанализировать полученные результаты. Для проверки ответов нужно было собрать таблицу с идентификаторами образцов тестового датасета, их группой крови и резус-фактором.
![](https://habrastorage.org/r/w1560/webt/v0/xe/zi/v0xezieyixdzfuo_2ltqgqwjtmg.png)
Таблица с идентификаторами образцов тестового датасета и обнаруженной системой интерпретации Promethease группой крови и резус-фактором.
Мы писали, что вручим подарки тем, кто решит задачи быстрее остальных. Поэтому мы учитывали не только правильность ответов, но и время с момента публикации задачи до получения ответа по ней. Время по трем задачам суммировалось и таким образом мы выбрали трех самых быстрых победителей.
![](https://habrastorage.org/r/w1560/webt/fn/kn/ku/fnknkupvalj3gywzddayleo8dwc.png)
Таблица с результатами всех участников.
Участник с почтовым доменом ab12ab, мы не можем с вами связаться. Напишите, пожалуйста, автору статьи в личные сообщения до понедельника. Иначе мы вручим приз следующему участнику по списку.
Победители уже получили письма о выигрыше. Для остальных у нас тоже есть небольшой подарок. До Нового года на сайте Атласа действуют скидки до 50%.
![](https://habrastorage.org/webt/sh/i5/k6/shi5k6fa0tuya88otirgf-zwo40.jpeg)
Все статьи в нашей серии:
Что такое Полный геном и зачем он нужен
Задача №1. Узнайте пол и степень родства.
Задача №2. Определение популяционной структуры
Задача №3. Конвертация данных и загрузка в сторонние сервисы
Для выполнения тестовых заданий мы использовали 12 образцов из открытых данных проекта «1000 Геномов». Мы переименовали образцы, чтобы участники не могли использовать доступные данные для ответов.
![](https://habrastorage.org/webt/wm/v7/eu/wmv7eufx25kdooodsxhmsa56bv4.png)
Таблица соответствия оригинальных и использованных в заданиях идентификаторов.
Задача № 1. Узнайте пол и степень родства
Родословная использованных образцов представлена на Рисунке 1. Правильными считались решения, в которых были идентифицированы 3 семьи и 3 генетически не связанных с ними образца — АТ0030, АТ0090 и АТ0066. Их связь с семьей невозможно установить данным анализом, если нет образцов детей. Все 12 образцов должны присутствовать в решении. Оформление родословной также принималось во внимание (Рисунок 2). Мы писали о правилах оформления в первой задаче.
![](https://habrastorage.org/webt/jj/y_/t0/jjy_t0y9c6xtrvr6oq1va0te6dw.png)
Рисунок 1. Родственные связи образцов тестового датасета по данным «1000 Геномов». Pedigree файл доступен по ссылке.
![](https://habrastorage.org/webt/_c/yu/nm/_cyunmymy5e32-zhnvuz69wzz2s.png)
Рисунок 2. Справа отражен неправильный вариант отображения семьи с одним ребенком: изображено два брака, родственных связей нет.
Задача №2. Определение популяционной структуры
В датасете для задания мы использовали образцы двух суперпопуляций. Визуализация расположения 12 образцов по трем главным компонентам представлена на Рисунках 3 и 4. На точечных диаграммах можно заметить формирование четырех кластеров. Однако они не полностью соответствуют исходным данным о популяционной принадлежности: рисунок 5, две популяции. Мы объясняли причины подобного ярко выраженного и противоречивого обособления образцов в статье. Помимо этого, все образцы, показавшие неожиданное расщепление кластеров, принадлежат суперпопуляции AMR — Ad Mixed American. Смешанность и гетерогенность присуща ad mixed популяциям и может проявляться в наблюдаемой кластеризации.
![](https://habrastorage.org/webt/bu/tl/07/butl076rneico89ku_8qfqdt5_4.png)
Рисунок 3. Точечные диаграммы расположения образцов тестового датасета по парам первых трех главных компонент.
![](https://habrastorage.org/webt/yi/oo/ij/yiooij2iiolfxext3wbomovp7fo.png)
Рисунок 4. Точечная диаграмма расположения образцов тестового датасета по трем главным компонентам.
![](https://habrastorage.org/webt/po/rx/hg/porxhgkbfgzchlssku0ki_rfqts.png)
Рисунок 5. Популяционная принадлежность и родословная используемых в тестовом датасете образцов по данным «1000 Геномов». Pedigree файл доступен по ссылке.
На Рисунке 6 показано кластеризационное дерево, построенное по
cluster3
файлу. Дерево можно было строить вручную или с использованием любого вида автоматизации, однако оно обязательно должно было соответствовать кластеризации, проведенной с помощью Plink. Деревья, которые не соответствуют структуре и для которых участники использовали другие PCA пакеты, не принимались. Они не отражали найденное Plink решение, поэтому не подходили для подтверждения полученных Plink кластеров.![](https://habrastorage.org/webt/-y/mg/xm/-ymgxm2633szijgah19inixatpi.png)
Рисунок 6. Бинарное дерево кластеризации для тестового датасета из 12 образцов.
Задача №3. Конвертация данных и загрузка в сторонние сервисы
В этой задаче мы попросили участников подготовить данные генетического теста для загрузки в систему интерпретации Promethease и проанализировать полученные результаты. Для проверки ответов нужно было собрать таблицу с идентификаторами образцов тестового датасета, их группой крови и резус-фактором.
![](https://habrastorage.org/webt/v0/xe/zi/v0xezieyixdzfuo_2ltqgqwjtmg.png)
Таблица с идентификаторами образцов тестового датасета и обнаруженной системой интерпретации Promethease группой крови и резус-фактором.
Определение победителей
Мы писали, что вручим подарки тем, кто решит задачи быстрее остальных. Поэтому мы учитывали не только правильность ответов, но и время с момента публикации задачи до получения ответа по ней. Время по трем задачам суммировалось и таким образом мы выбрали трех самых быстрых победителей.
![](https://habrastorage.org/webt/fn/kn/ku/fnknkupvalj3gywzddayleo8dwc.png)
Таблица с результатами всех участников.
Участник с почтовым доменом ab12ab, мы не можем с вами связаться. Напишите, пожалуйста, автору статьи в личные сообщения до понедельника. Иначе мы вручим приз следующему участнику по списку.
Победители уже получили письма о выигрыше. Для остальных у нас тоже есть небольшой подарок. До Нового года на сайте Атласа действуют скидки до 50%.