Комментарии 9
Статья хорошая, однако, по моему скромному мнению, она выиграла бы от чуть более подробного введения.
— так это и есть определение метода SVM :)
В статье указано, что обучение включает определение численных параметров гиперплоскости, наилучшим образом разделяющей два класса данных, на которых производится обучение.
— так это и есть определение метода SVM :)
+3
— Очень милые стишки, — сказала Алиса задумчиво, — но понять их не так-то легко.
— Наводят на всякие мысли — хотя я и не знаю, на какие..."
Признаюсь, я не совсем понял задачу. SVM решает задачу классификации, т.е., принимает на вход рид (точнее, набор признаков, вычисленный по нему) и выдает ответ «да» или «нет». А как формулируется сам вопрос? Для поиска самого SNP, казалось бы, машинное обучение не нужно, там какой-нибудь edit distance до референсного генома должен справиться нормально.
UPD: упс, хотел задать вопрос автору, но промахнулся с уровнем
0
Кажется, я поторопился, задача вроде бы видна. Вопрос формулируется так: является ли данная позиция в геноме местом возможного SNP? На вход подается не один рид, а много, и в качестве признаков вычисляются частотные характеристики, string kernels и т. д.
Соответственно обучающая выборка — характеристики, посчитанные по тем же ридам, но для других позиций, про которые мы точно знаем, происходит ли в них SNP или нет.
Я прав?
Соответственно обучающая выборка — характеристики, посчитанные по тем же ридам, но для других позиций, про которые мы точно знаем, происходит ли в них SNP или нет.
Я прав?
+1
Да, Вы правы. Но то, что задача четко не сформулирована в виде вопроса, немножко осложняет понимание, согласен. В статье об этом написано так:
Стандартный подход к определению SNP основан на выравнивании данных секвенирования (ридов, фрагментов генома) относительно референсного (эталонного) генома. Однако риды могут содержать ошибки и могут быть неправильно выровнены на референс.
… наибольший эффект на многие заболевания имеют редкие полиморфизмы, возникающие с частотой < 1%. Фильтрация на основе частоты повлечёт за собой большое количество false negatives для редких SNP
… преимущество методов, основанных на машинном обучении, состоит в том, что они позволяют комбинировать разные факторы, влияющие на правдоподобность возникновения полиморфизма в данной позиции в геноме, что в том числе повышает чувствительность метода к более редким полиморфизмам.
0
Спасибо. Только сейчас заметил, что на графике изображен лишь фрагмент ROC, и самое правое значение на оси false positives не 1, а 0.00004. :) Впечатляет.
0
Так может это как раз признак того что «переобучиились» например?
0
Я думал, что они применяли перекрестный контроль (cross-validation), но на самом деле все еще лучше.
Они обучались на своих данных
Строго говоря, есть ли переобучение, сказать нельзя, поскольку training error не приведен,
но процедура выбора параметров у них правильная, направлена как раз на борьбу с overfitting
Они обучались на своих данных
Generation of an accurate model for variant calling the SVM requiresа меряли производительность на известном наборе
a large set of training data where the true class (variant or invariant) of all
suspected variants is known. To obtain sets of such variants, we turned to
an in-house sample on which exome sequencing had been performed
twice on the same instrument (an Illumina HiSeq 2000).
Accurate determination of the sensitivity and specificity of a variant callerТак что есть основания ожидать той же точности и на любых других данных.
requires at least one data reference set in which variants have been identified
with high reliability. For our gold-standard dataset, we used a
previously described consensus of nine independently sequenced genomes
and two exomes, all from the HapMap trio sample NA12878.
Строго говоря, есть ли переобучение, сказать нельзя, поскольку training error не приведен,
но процедура выбора параметров у них правильная, направлена как раз на борьбу с overfitting
The procedure involves two tuning parameters, C and gamma. To
select optimal values of these parameters, we performed a grid search
of parameter space using 4-fold cross-validation accuracy as the function
to optimize.
0
Спасибо за статью! Только вчера проходил собеседование в компанию, которая применяет эти методы при диагностике рака. Буду считать это добрым предзнаменованием.
+1
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Метод опорных векторов для нахождения полиморфизмов в геноме