Pull to refresh
94
0
Oleg Kovalevskiy @OlegKovalevskiy

User

Send message
Господа, суть очень проста. В фундаментальной науке конечным результатом труда ученого является новое знание об этом мире, то есть новая информация. По историческим причинам эта информация должна быть выражена в виде публикации, то есть конечный результат труда фундаментального ученого — научная статья, описывающая его открытие, его новое знание. В прикладной области ученый разрабатывает скорее технологию, но ее информационная составляющаяся может так же быть выражена в статье в открытых источниках или патенте. Так же есть важный жанр «обзора», когда ученый анализирует множество разрозненных источников по теме и собирает из крупиц информации некую цельную картину.

К чему это все было сказано? К тому, что новизна знания — первична. В этом и есть отличие ученого от блогера — ученый получает принципиально новое знание, блогер же пересказывает уже известное. Получение действительно нового знания — достаточно трудоемкий и непростой процесс. Если у вас есть что-то новенькое — оно достойно публикации в научном журнале. Если же ничего принципиально нового нет — зачем мучать себя, редакторов и рецензентов?
Да, Вы правы. Но то, что задача четко не сформулирована в виде вопроса, немножко осложняет понимание, согласен. В статье об этом написано так:
Стандартный подход к определению SNP основан на выравнивании данных секвенирования (ридов, фрагментов генома) относительно референсного (эталонного) генома. Однако риды могут содержать ошибки и могут быть неправильно выровнены на референс.
… наибольший эффект на многие заболевания имеют редкие полиморфизмы, возникающие с частотой < 1%. Фильтрация на основе частоты повлечёт за собой большое количество false negatives для редких SNP
… преимущество методов, основанных на машинном обучении, состоит в том, что они позволяют комбинировать разные факторы, влияющие на правдоподобность возникновения полиморфизма в данной позиции в геноме, что в том числе повышает чувствительность метода к более редким полиморфизмам.
Статья хорошая, однако, по моему скромному мнению, она выиграла бы от чуть более подробного введения.

В статье указано, что обучение включает определение численных параметров гиперплоскости, наилучшим образом разделяющей два класса данных, на которых производится обучение.

— так это и есть определение метода SVM :)
Белок-кодирующие области составляют меньше двух процентов генома (20-40 тысяч белков, смотря как считать варианты одного и того же белка). Остальные 98% раньше считались по большей части мусором, буквально год назад это было пересмотрено — консорциуму из нескольких лабораторий удалось определить функции для 80% некодирующей ДНК — если не вдаваться в детали, то это в основном регуляторные роли, определяющие, какие белки будут синтезироваться, а какие — нет, в данной конкретной клетке.
В цифровом виде нуклеотиды обычно кодируют просто буквами латинского алфавита — A,T,G,C.
То есть получается чуть больше 3 миллиардов букв для гаплоидного генома, в 2 раза больше для диплоидного. В реальности там же будут аннотации еще, помимо собственно нуклеотидной последовательности. Плюс сжать еще можно. Вобщем, несколько гигабайт — не так много, на DVD влазит :)
Не стоит извиняться :)
К вопросу о будущем — мы вот не так давно обсуждали, будет ли мир будущего похож на мир Оруэлла из «1984» или на «Дивный новый мир» Олдоса Хаксли :)
В такой формулировке соглашусь, на избыточный скептицизм каждый человек имеет полное право :)

Однако предлагаю так же учесть динамику — лет десять назад таких баз генетических данных просто не существовало, а сейчас они уже позволяют охватить на уровне дальнего родства миллионы человек в тех же США. В будущем наполнение баз будет только увеличиваться, а с этим — и шанс быть идентифицированным. Думаю, что базы будут наполняться весьма быстро. Уже сам задумываюсь, не поиграть ли в генеалогию — вдруг какие-нибудь интересные родственники обнаружатся? :) Хотя тогда и мой гаплотип будет в базе.
Уважаемый, мне немного непонятна Ваша точка зрения. Во-первых, понятие «мусорной ДНК» некоторое время назад было пересмотрено — www.nature.com/news/encode-the-human-encyclopaedia-1.11312, если вкратце — консорциуму удалось определить функцию у примерно 80% генома, то есть все то, что раньше считалось мусором, оказалось, на самом деле играет регуляторные и другие роли. Во-вторых, в посте приводятся конкретные факты с конкретными ссылками — публикация в высокоимпактном научном журнале Science о полной деанонимизации 50 человек из 1000, плюс две истории о точном нахождении отца по генетической информации ребенка, через дальних родственников, засветившихся в базе и дополнительную информацию — возраст и место жительства. На самом деле подобных историй больше, я просто привел две весьма типичные. То есть Ваше утверждение о том, что узнать фамилию очень непросто, противоречит данным, приведенным в этом посте, ссылки на оригинальные данные везде указаны.
Пост как раз и посвящен тому, что для деанонимизации требуется дополнительная информация, но и без нее круг поиска может быть сужен до одной семьи, что уже неплохо. Как метафорически говорят интересующиеся генеалогией — по Y-STRs можно «назвать фамилию человека», ведь фамилии обычно наследуются по мужской линии.
C'est la vie…
Похоже я действительно нечетко сформулировал мысль. Она была в том, что любая новая информация о человеке сужает «круг подозреваемых». Например, если мы про человека не знаем ничего, у нас примерно 7 миллиардов вариантов, но если мы знаем пол — вариантов уже примерно в 2 раза меньше, если знаем возраст и место проживания — остаются уже только десятки тысяч вариантов из первоначальных миллиардов. Генетическая информация же может стать важной ступенькой в деле идентификации человека, но чаще всего потребуется привлечение дополнительных данных — чему и посвящен данный пост.
Про полицию в посте было:

Американская: en.wikipedia.org/wiki/CODIS
Британска: en.wikipedia.org/wiki/UK_National_DNA_Database
Наша родная: www.rg.ru/2008/12/09/genom-registracia-dok.html

Так что все в порядке, попробуют :) Британцы говорят, что несколько десятков тысяч преступлений в год уже раскрывается с использованием генетической информации.
Так да :)
2^33 = 8 589 934 592, как бы намекает нам гугл-калькулятор.
а 2^32=4 294 967 296, уже маловато будет.
Кстати, интересно то, что население Земли пересекло отметку в 1 миллиард только в 19 веке…
Так, а мы сейчас про какую последовательность говорим — генетическую или последовательность из 33 бит? Просто Вы начали с 33 бит, а вот какую последовательность имел в виду господин Sadler мне уже не очень понятно.

Если про генетическую — так как геном конечен, то и вероятность не нулевая, строго говоря. Гаплоидный геном — 3*10^9 нуклеотидов, 4 нуклеотида, то есть вероятность _абсолютно случайного_ получения точного генома 1/(4^(3*10^9)). Маленькая, конечно, но учитывая, что в реальности геномы людей изначально весьма сходны (не уверен в точной цифре, там не только замены, но и перестановки и тд — непросто точно посчитать), некоторая вероятность есть. Но звезды погаснуть, похоже, действительно успеют :)
Тут тонкий момент — скажем, тот же Уотсон, которому отсеквенировали полный геном, потребовал, чтобы из свободного доступа были убраны последовательности, по которым можно определить его предрасположенность к болезни Альцгеймера. Не хотел, чтобы публика знала. Это серьезный этический вопрос — где провести линию между тем, что можно знать чужим людям, а что — лучше не надо. Страховщикам, естественно, выгодно знать о клиенте все. Людям выгодно, чтобы страховщики не знали о них ничего плохого. Если система здравоохранения завязана на страховщиков — возможны всякие негуманные ситуации, когда человека, потенциально нуждающегося в медицинской помощи из-за предрасположенности к тому или иному заболеванию, отказываются страховать именно по этой причине. Хотя тут проблема, конечно, не в страховых компаниях, а в жесткой привязке страхования к здравоохранению в США. В целом я согласен, что пока волноваться рановато, но тем не менее.
Если вы родились в один день, живете в одном городе, у вас одинаковая биография и даже одинаковое имя — может быть это Вы и есть? :)
Конечно :) Видимо, я не очень хорошо сформулировал — имелось в виду, что теорией является скорее попытка рассмотреть проблему идентификации людей через призму понятия информационной энтропии.
Тут хоть бы одну конформацию, имеющую хоть какое-то отношение к реальности найти — уже хорошо было бы :) А ведь есть и моторные белки, преобразующие энергию гидролиза АТФ в механическое движение, там вообще все красиво, но сложно. При этом даже у моторов движение — это осцилляция между четко определенными состояниями.
Тут тонкость в этих словах этой статьи:

Дело в том, что белки под воздействием внешних факторов (температура, давление, ионы, вода etc) могут находится в различных состояниях (conformations)


Поясняю. Многие небольшие белки вообще могут иметь одну конформацию и все. У больших белков — возможна подвижность между доменами, то есть белок можно представить в виде двух-трех-четырех твердых тел, которые могут двигаться друг относительно друга. Причем эта подвижность не случайна, а является ответом на внешнюю среду, например, на связывание малой молекулы- регулятора или субстрата, который в среде появился и внезапно связался с белком. В «первой статье» были такие слова на этот счет:

(в реальности многие белки состоят из двух и более жестких частей, которые могут двигаться друг относительно друга, это нужно для регуляции активности белка (аллостерическая регуляция), чтобы некий сигнал мог включать и выключать химическую активность белка-фермента).


Так что все в порядке, просто картина несколько сложней, недаром та статья называлась «Введение» :) Трудно сразу объять необъятное :)
Смайлик в конце моего поста как-бы намекал на его ироничность :)
Просто в Москве/подмосковных наукоградах на самом деле сконцентрировано большое количество интеллектуальных ресурсов, поэтому у людей, работающих в Москве/подмосковье, складывается впечатление, что больше в России науки нигде нет. А она, как Вы верно заметили, немножко есть.
Под Новосибом есть даже синхротрон, на нем была первая в Советском Союзе синхротронная станция для сбора дифракционных данных с белковых кристаллов.

Information

Rating
Does not participate
Location
Cambridge, England - East, Великобритания
Registered
Activity