ksenia3714 июн 2013 в 09:04

Метод опорных векторов для нахождения полиморфизмов в геноме

4 мин

10K

Data Mining * Алгоритмы *

Из песочницы

+27

Комментарии 9

OlegKovalevskiy 14 июн 2013 в 14:40

Статья хорошая, однако, по моему скромному мнению, она выиграла бы от чуть более подробного введения.

В статье указано, что обучение включает определение численных параметров гиперплоскости, наилучшим образом разделяющей два класса данных, на которых производится обучение.

— так это и есть определение метода SVM :)

ich76 14 июн 2013 в 17:57

— Очень милые стишки, — сказала Алиса задумчиво, — но понять их не так-то легко.
— Наводят на всякие мысли — хотя я и не знаю, на какие..."

Признаюсь, я не совсем понял задачу. SVM решает задачу классификации, т.е., принимает на вход рид (точнее, набор признаков, вычисленный по нему) и выдает ответ «да» или «нет». А как формулируется сам вопрос? Для поиска самого SNP, казалось бы, машинное обучение не нужно, там какой-нибудь edit distance до референсного генома должен справиться нормально.

UPD: упс, хотел задать вопрос автору, но промахнулся с уровнем

ich76 14 июн 2013 в 18:19

Кажется, я поторопился, задача вроде бы видна. Вопрос формулируется так: является ли данная позиция в геноме местом возможного SNP? На вход подается не один рид, а много, и в качестве признаков вычисляются частотные характеристики, string kernels и т. д.

Соответственно обучающая выборка — характеристики, посчитанные по тем же ридам, но для других позиций, про которые мы точно знаем, происходит ли в них SNP или нет.
Я прав?

OlegKovalevskiy 14 июн 2013 в 19:00

Да, Вы правы. Но то, что задача четко не сформулирована в виде вопроса, немножко осложняет понимание, согласен. В статье об этом написано так:

Стандартный подход к определению SNP основан на выравнивании данных секвенирования (ридов, фрагментов генома) относительно референсного (эталонного) генома. Однако риды могут содержать ошибки и могут быть неправильно выровнены на референс.
… наибольший эффект на многие заболевания имеют редкие полиморфизмы, возникающие с частотой < 1%. Фильтрация на основе частоты повлечёт за собой большое количество false negatives для редких SNP
… преимущество методов, основанных на машинном обучении, состоит в том, что они позволяют комбинировать разные факторы, влияющие на правдоподобность возникновения полиморфизма в данной позиции в геноме, что в том числе повышает чувствительность метода к более редким полиморфизмам.

ich76 14 июн 2013 в 19:23

Спасибо. Только сейчас заметил, что на графике изображен лишь фрагмент ROC, и самое правое значение на оси false positives не 1, а 0.00004. :) Впечатляет.

GDApsy 16 июн 2013 в 09:17

Так может это как раз признак того что «переобучиились» например?

ich76 16 июн 2013 в 11:25

Я думал, что они применяли перекрестный контроль (cross-validation), но на самом деле все еще лучше.
Они обучались на своих данных

Generation of an accurate model for variant calling the SVM requires
a large set of training data where the true class (variant or invariant) of all
suspected variants is known. To obtain sets of such variants, we turned to
an in-house sample on which exome sequencing had been performed
twice on the same instrument (an Illumina HiSeq 2000).

а меряли производительность на известном наборе

Accurate determination of the sensitivity and specificity of a variant caller
requires at least one data reference set in which variants have been identified
with high reliability. For our gold-standard dataset, we used a
previously described consensus of nine independently sequenced genomes
and two exomes, all from the HapMap trio sample NA12878.

Так что есть основания ожидать той же точности и на любых других данных.

Строго говоря, есть ли переобучение, сказать нельзя, поскольку training error не приведен,
но процедура выбора параметров у них правильная, направлена как раз на борьбу с overfitting

The procedure involves two tuning parameters, C and gamma. To
select optimal values of these parameters, we performed a grid search
of parameter space using 4-fold cross-validation accuracy as the function
to optimize.

GDApsy 16 июн 2013 в 11:44

Действительно довольно качественно подошли к контрольным показателям обучения.

voronaam 14 июн 2013 в 18:03

Спасибо за статью! Только вчера проходил собеседование в компанию, которая применяет эти методы при диагностике рака. Буду считать это добрым предзнаменованием.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий