Как стать автором
Обновить
7
0
Игорь @ich76

Пользователь

Отправить сообщение
Я думал, что они применяли перекрестный контроль (cross-validation), но на самом деле все еще лучше.
Они обучались на своих данных
Generation of an accurate model for variant calling the SVM requires
a large set of training data where the true class (variant or invariant) of all
suspected variants is known. To obtain sets of such variants, we turned to
an in-house sample on which exome sequencing had been performed
twice on the same instrument (an Illumina HiSeq 2000).
а меряли производительность на известном наборе
Accurate determination of the sensitivity and specificity of a variant caller
requires at least one data reference set in which variants have been identified
with high reliability. For our gold-standard dataset, we used a
previously described consensus of nine independently sequenced genomes
and two exomes, all from the HapMap trio sample NA12878.
Так что есть основания ожидать той же точности и на любых других данных.

Строго говоря, есть ли переобучение, сказать нельзя, поскольку training error не приведен,
но процедура выбора параметров у них правильная, направлена как раз на борьбу с overfitting
The procedure involves two tuning parameters, C and gamma. To
select optimal values of these parameters, we performed a grid search
of parameter space using 4-fold cross-validation accuracy as the function
to optimize.


Спасибо. Только сейчас заметил, что на графике изображен лишь фрагмент ROC, и самое правое значение на оси false positives не 1, а 0.00004. :) Впечатляет.
Кажется, я поторопился, задача вроде бы видна. Вопрос формулируется так: является ли данная позиция в геноме местом возможного SNP? На вход подается не один рид, а много, и в качестве признаков вычисляются частотные характеристики, string kernels и т. д.

Соответственно обучающая выборка — характеристики, посчитанные по тем же ридам, но для других позиций, про которые мы точно знаем, происходит ли в них SNP или нет.
Я прав?

— Очень милые стишки, — сказала Алиса задумчиво, — но понять их не так-то легко.
— Наводят на всякие мысли — хотя я и не знаю, на какие..."

Признаюсь, я не совсем понял задачу. SVM решает задачу классификации, т.е., принимает на вход рид (точнее, набор признаков, вычисленный по нему) и выдает ответ «да» или «нет». А как формулируется сам вопрос? Для поиска самого SNP, казалось бы, машинное обучение не нужно, там какой-нибудь edit distance до референсного генома должен справиться нормально.

UPD: упс, хотел задать вопрос автору, но промахнулся с уровнем
Виноват, предметная область совершенно не моя, поэтому ошибки в терминах очень вероятны. Спорить о том, какие свойства водорода важнее для классификации, с моей стороны тоже было бы слишком самонадеянно. Я хотел поговорить о структуре в общем, но по-видимому, получается слишком абстрактно, а для обсуждения деталей моего школьного курса химии не хватит, не буду и пытаться.
Водород — хитрая штука. Он похож на щелочные металлы, галогены, и в то же время отличается от тех и других. По мне, все же лучше его оставить в группе щелочных металлов: раз уж он по свойствам выделяется из любой группы, пусть хоть по конфигурации электронного облака будет на месте. Но основания для Вашего решения есть, я их понял, спасибо.

Если оставить водород в стороне, то в МАМ, по сравнению с современной периодической таблицей, изменено разделение на периоды: два первых элемента в каждом периоде теперь стали отнесены к предыдущему периоду. И я не могу понять, зачем это сделано. Деление элементов по группам осталось тем же. В обеих таблицах, входящие в одну группу элементы имеют похожие свойства и одинаковую конфигурацию внешней электронной оболочки, что хорошо. Но номер периода в МАМ больше не совпадает с количеством «слоев». Если при этом в МАМ появилось новое полезное свойство, компенсирующее эту потерю, укажите его, пожалуйста.
Тогда попробуйте аргументировано опровергнуть хотя бы ключевое научное положение, на которой построена Матрица автоматизма материи (МАМ) Мейера, Жанета, Макеева: где естественным (правильным окончанием всех периодов атомных уровней материи является щёлочноземельный металл.

Если критерий упорядочивания неизвестен, то правильность упорядочивания элементов опровергнуть невозможно. Но вот, скажем, в табличном представлении МАМ в одном столбце находятся элементы с разным числом электронных энергетических уровней. Например, в столбце с меткой 2 есть водород (H), у которого один уровень, и литий (Li), у которого их два. А в современной периодической таблице для всех элементов номер периода совпадает с числом уровней. На мой взгляд, полезное свойство. Ради чего им пожертвовали?
Прошу прощения. Видимо, посттравматический синдром после экзамена дает о себе знать.)
Ок, согласен, но тогда нужно стремиться в область высоких энергий, чтобы не было возможности проверить. А иметь дело с фотонами, водородом и щелочноземельными металлами опасно. :)

Или заняться философией — там даже корзина для бумаг не нужна.
Вы правы методологически, но предложение написать теорию в области физики элементарных частиц ученому-одиночке — это утопия. Нужны эксперименты, а золотое время, когда для проверки теории было достаточно вакуумной колбы и микроскопа, давно прошло. Собственно, пять ярдов зелени, потраченных на БАК, это не прихоть, а осознание того, что дальше по-другому никак.

Математика, на мой взгляд, демократичнее. Можно выбрать область, к которой лежит душа, попробовать сформулировать и доказать теорему. Если доказательство формально правильное, никто не будет против. Конечно, придется выучить специфический язык и правила построения доказательств, но из оборудования достаточно бумаги, ручки и корзины для бумаг. :)
С единственной конформацией задача выглядит легче — можно искать минимум энергии, не заботясь об «истинности» траектории. А так придется рассматривать несколько конформаций с низкой энергией, и искать, какие из них достижимы при нормальных условиях. Да, теперь понятно, зачем нужна карта энергии с переходами между состояниями. (Уважительно вздыхает) биохииимия… как у вас все непросто. :)
с заменой воды на какой-нибудь этанол, увеличением концентрации молекул белка в системе конформации будут изменяться

вам добровольцы для опытов не нужны? а то иногда хочется всего себя отдать науке ;)

А можно ли найденный «истинный» путь между конформациями подтвердить экспериментально? Методы, о которых я слышал, описывают конечную структуру белка. Интересно, есть ли оборудование, которое может сделать «снимки» самого процесса фолдинга?
Задумчиво сопоставляю прочитанное с первой статьей.
Вопрос: сколько трехмерных структур соответствует конкретному белку?
Ответ: Одна, с точностью до небольшой подвижности маленьких «разупорядоченных» петель. Известно ровно одно исключение, когда одной последовательности соответствуют 2 достаточно разные структуры, это прионы.

Так сколько же у белка «настоящих» конформаций: одна или несколько?
Соответственно, рассматриваемая задача — это изучение состояний «живого» белка, или ускорение вычислительного алгоритма,
помощь в преодолении локального минимума энергии?
Достоверно не знаю, но, похоже, что все со всеми. Глядя на видео, трудно представить, что можно угадать, какие
атомы останутся достаточно далекими. А динамически обновляемый proximity усложняет обработку на конвейeре GPU.
Потом, межатомные взаимодействия хоть и ослабевают с расстоянием, но все равно остаются. Исключение из модели «слабых» взаимодействий искажает поле. А, поскольку интегрировать нужно с фемтосекундным шагом до миллисекунд, есть риск получить откровенную ересь.

Поддерживаю, для отложенных разборок качественная фотография даже лучше — легче делать поиск. А гуглоочки хороши для тактики — прикинуть возможности оппонента и выбрать линию поведения. Аналог «оленемера» в World of Tanks. :)
Да, так стало понятнее. Но если потребляются разные ресурсы, количеством не обойтись, придется оценивать стоимость. Обычно в такую модель включают время как один из ресурсов. И тогда, какой из алгоритмов производительнее, зависит от стоимости каждого из ресурсов. Если время дорого, а электроника стоит разумных денег, алгоритм работающий быстрее, будет и более производительным.
В конце концов, можно обойтись и без времени. Система наведения на ракетах вполне себя окупает. :)
Согласен, получаются две разные классификации. Первое возражение снимаю :)

Но как получается, что слепой алгоритм производительнее целеполагательного?
Казалось бы, обойти помещение по построенной модели можно быстрее чем при слепом блуждании…
Или я неправильно понял, что имеется в виду под производительностью?
Хм, у меня есть подозрение, что предложенное деление на целеполагательные и слепые алгоритмы практически совпадает с принятым разделением на детерминированные и рандомизированные.
1. слепые алгоритмы
"+": более экономичны, обеспечивают максимальную производительность.
"-": перестают достигать цели даже при небольшом изменении внешних условий.
2. Целеполагательный алгоритм
"-": высокозатратные из-за необходимости сбора данных об окружающей среде и их анализе
"+": достигают цели на широком диапазоне меняющихся внешних условий

Утвержение весьма спорно. Возьмем «итеративный целеполагательный» метод Рунге-Кутта четвертого порядка и «слепой» генетический алгоритм оптимизации. Первый достигает цели очень быстро, но перестает сходиться при нарушении гладкости. Второй работает почти всегда, но весьма медленно.
А были попытки cкомбинировать молекулярную динамику с кинематической моделью: рассматривать спирали и тяжи как жесткие элементы, а остальные атомы по отдельности? Что-то мне подсказывает, что это и есть вышеупомянутые гиблые костыли, но вдруг…
1

Информация

В рейтинге
Не участвует
Откуда
Нижний Новгород, Нижегородская обл., Россия
Зарегистрирован
Активность