Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
В статье указано, что обучение включает определение численных параметров гиперплоскости, наилучшим образом разделяющей два класса данных, на которых производится обучение.
— Очень милые стишки, — сказала Алиса задумчиво, — но понять их не так-то легко.
— Наводят на всякие мысли — хотя я и не знаю, на какие..."
Стандартный подход к определению SNP основан на выравнивании данных секвенирования (ридов, фрагментов генома) относительно референсного (эталонного) генома. Однако риды могут содержать ошибки и могут быть неправильно выровнены на референс.
… наибольший эффект на многие заболевания имеют редкие полиморфизмы, возникающие с частотой < 1%. Фильтрация на основе частоты повлечёт за собой большое количество false negatives для редких SNP
… преимущество методов, основанных на машинном обучении, состоит в том, что они позволяют комбинировать разные факторы, влияющие на правдоподобность возникновения полиморфизма в данной позиции в геноме, что в том числе повышает чувствительность метода к более редким полиморфизмам.
Generation of an accurate model for variant calling the SVM requiresа меряли производительность на известном наборе
a large set of training data where the true class (variant or invariant) of all
suspected variants is known. To obtain sets of such variants, we turned to
an in-house sample on which exome sequencing had been performed
twice on the same instrument (an Illumina HiSeq 2000).
Accurate determination of the sensitivity and specificity of a variant callerТак что есть основания ожидать той же точности и на любых других данных.
requires at least one data reference set in which variants have been identified
with high reliability. For our gold-standard dataset, we used a
previously described consensus of nine independently sequenced genomes
and two exomes, all from the HapMap trio sample NA12878.
The procedure involves two tuning parameters, C and gamma. To
select optimal values of these parameters, we performed a grid search
of parameter space using 4-fold cross-validation accuracy as the function
to optimize.
Метод опорных векторов для нахождения полиморфизмов в геноме