На какие вопросы можно ответить, проанализировав 1 500 000 уникальных историй болезней?

    Существует ли связь между астмой и шизофренией?
    Диабет и биполярное расстройство личности — могут ли они иметь что-то общее?
    Сможет ли выявить столь нетривиальные связи анализ базы данных по 1500000 пациентов США?

    предупреждение: под катом очень много текста

    Статья написана по материалам доклада «Аутизм и менделевские заболевания» Ржецкого Андрея Юрьевича на Первой международной конференции «Аутизм. Вызовы и решения». Дальше о нем и о анализе данных
    Андрей Юрьевич Ржецкий
    image
    Андрей Ржецкий — профессор медицины и генетики человека в Институте геномики и системной биологии Университета Чикаго. Он также является директором КОНТЕ Центра геномной биоинформатики в области нейропсихиатрических заболеваний. А. Ржецкий закончил Новосибирский государственный университет, защитил кандидатскую диссертацию в Институте цитологии и генетики в Новосибирске. В 1991 году в качестве постдока уехал в США.
    Научные интересы:
    1) биоинформатика и филогенетика в применении к анализу генов, белков, молекулярных метаболических путей;
    2) применение статистики к анализу последовательностей и анализ молекулярных сетей;
    3) разработка алгоритмов и программ для анализа и сравнения метаболических путей и последовательностей, филогенетической реконструкции.
    Как математик и биолог-теоретик, Андрей Ржецкий является ведущим экспертом в области разработки новых биоинформационных подходов к анализу биологических комплексов и болезней. Ученый является пионером в разработке стратегий биоинформационного картирования заболеваний посредством комплексного анализа генетических данных.
    Андрей Юрьевич настолько известен в США, что в гугле есть даже несколько подсказок поиска с его фамилией:


    Аутизм
    Аутизм представляет собой нарушение развития нервной системы, которое выражается затруднениями социального взаимодействия и общения, а также ограниченным и повторяющимся поведением. В согласии с критериями диагностики, симптомы аутизма должны быть очевидны у детей уже до трех лет. Аутизм влияет на процесс обработки информации в мозге, изменяя порядок организации и подключения синапсов нервных клеток. Как это происходит пока не совсем понятно.
    Примерный перевод из анго-Вики

    Менделевские заболевания
    Менделевские заболевания, признаки (Mendels diseases, traits): заболевания или признаки, являющиеся результатом экспрессии единичного гена, который оказывает большое влияние на фенотип. Наследуются согласно законам Менделя. Примеры менделевских болезней: муковисцидоз, болезнь серповидных эритроцитов, болезнь Хантингтона (Гентингтона) и гемофилия
    из просторов интернета

    Abstract


    В биологии накопились огромные данные, которые можно обработать только с помощью компьютера. Группа Андрея Ржецкого взялась обработать данные о психоневрологических расстройствах. При этом они обрабатывают не отдельный массив данных, будь то генетические причины, факторы окружающей среды или клинические результаты, а все данные вместе, и это дает более полную картину причин возникновения расстройств.
    В 2004 году группа А. Ржецкого получила грант от организации Autism Speaks на двусторонний анализ аутизма (как биологического процесса и как нарушения развития), используя богатую информацию, накопленную в нескольких связанных между собой областях. Группа собирала информацию о молекулярных взаимодействиях в человеческих нейронах и с помощью своей уникальной программы (система GeneWays) рассмотрела широкий спектр нарушений, с которыми аутизм показывает неслучайные ассоциации (неврологические, аутоиммунные, метаболические и многие другие группы расстройств, которые имеют сильный наследственный компонент).
    В 2007 году группа уже проанализировала 1,5 миллиона историй болезней. Суть работы заключается в исследовании области пересечения на уровне определенных генов различных заболеваний. Исследователи пришли к выводу, что определенные группы генов могут предрасполагать человека к нескольким заболеваниям, в то время как другие могут предрасполагать человека лишь к одной болезни, защищая против другой. Одна и та же мутация в гене может как коррелировать с другим заболеванием, так и защищать от него, делая невозможным сочетание двух разных болезней. В моделях по оценке данных из области аутизма выявилась возможность предрасположенности так же и к биполярному расстройству. При этом общая группа генов обнаружилась и при сравнении мигрени с аутизмом, а также связь инфекций со многими психоневрологическими расстройствами, в том числе, и с аутизмом. Группа А. Ржецкого впервые измерила эти корреляции.

    На графике (ниже) показана корреляция некоторых часто встречающихся заболеваний. Красные линии — положительная корреляция, синие — отрицательная. Толщина линии — величина корреляции. Размер окружности соответствует выборке пациентов (от 20 до 136 тыс).

    Аутизм и менделевские заболевания


    Свою презентацию доктор Ржецкий открыл слайдом с хорошо знакомым кадром из российского фильма о Шерлоке Холмсе. И это не случайно: именно феномен Холмса, преуспевшего в сыскном деле благодаря вниманию к деталям, незначительным для большинства обычных наблюдателей, вдохновляет Ржецкого, так же уверенного в том, что именно мелочи могут определять многие биологические загадки и помогать подбирать к ним ключи.
    Он употребляет такую метафору: болезнь — преступление, данные — улики.
    Цель исследований: построение модели дающей результат (нахождение «преступника» — причину болезни)

    Есть два символических образа: Еж и Лис. Лис знает много небольших уловок, Еж лишь один надежный трюк.
    В книге “Сигнал и шум” Нейт Сильвер (Nate Silver) — анализирует массу научных предсказаний. И если посмотреть какие предсказания работают, какие проваливаются, то “Лисы” предсказывают лучше чем “Ежи”.

    Проблематика работы со статистическими данными в том, что есть два подхода, сравнимых с религиозными.
    Байесовский подход позволяет объяснить насколько сильно мы можем верить результатам и дать предположения в количественном выражении.
    Проблема построения достоверной модели, в том, что надо сложить данные фенотип+геном+среда, чтоб получить модель с полезными предсказаниями. Например, такую, которая сможет анализировать предрасположенность к определённой болезни у ребёнка.

    Итак, мы решили проанализировать множество заболеваний. Почему? Потому что классификация болезней во многом искусственна.Собственно, аутизм, наверняка представляет “контейнер с заболеваниями” — с разными причинами, генетикой.

    Маленькое отступление: Черчиль, Мартин Лютер-Кинг, гернерал Шерман, Рузвельт, Кенеди, Ганди
    что у них общего (кроме того, что они известны и мертвы)?
    ответ тут
    Общее то, что у них было биполярно-депресивное расстройство личности (маниакально-депрессивный психоз). Про свое состояние апатии Черчиль говорил как про “черную собаку депрессии”.
    Аффективные расстройства присущи многим успешным политикам.

    Каков фенотип аутиста: интересно, что еще Аспергер формулировал у выделенной им группы “неспособность формировать социальные навыки”, “поглощение мелкими деталями, кроме того обращал внимание на “неловкие движения”. Детей-аутистов он называл “маленькими профессорами” — все это мы выделяем как критерии аутизма до сих пор.
    Чуть-чуть аутизма просто необходимо для успеха в науке. Мы не знаем точно, у каких ученых в прошлом был аутизм (подозревают у Ньютона и Теслы), зато у многих ученых была шизофрения и биполярное расстройство личности.

    В книге “Невидимая чума” утверждается что за 260 лет частота заболеваний неврологическими и психическими заболеваниями возрастала (Обработано множество прямых и косвенных данных).
    Вопрос о том, видим ли мы увеличение случаев аутизма очень острый: одни считают. что увеличение есть, другие — что нет.
    Центр заболеваний США дает такую статистику по аутизму: 1:80 — мальчики, 1:240 — девочки.
    Корейское исследование: была попытка произвести фенотипирование всей популяции. “Прочесали” почти всех детей в Южной Корее и обнаружили, что случаев аутизма намного больше и частота заболеваний возрастает. По их данным аутизм у 4% мальчиков и у 1,5% девочек.

    Почему когда мы говорим о статистике и анализе могут существовать столь разные точки зрения?
    Причины:
    1. меняются диагностические критерии;
    2. существуют экономические основания: например, могут получать диагноз из-за материальной заинтересованности;
    3. врачи по разному могут ставить диагноз.

    Тем не менее, по мнению Ржецкого Андрея, такие заболевания, как аутизм, все же увеличиваются в частоте.

    Что же надо, чтобы построить правдоподобную модель аутизма? Мы моделировали среду и геном как случайные переменные. Например инфекция есть-нет — случайная переменная, и изменения в геноме — тоже случайная генетическая переменная. Берем Р1 и Р2 как два фенотипа (например, аутизм и диабет или аутизм и шизофрения) и у них обязательно будет “факторы общего”. И мы можем построить множество моделей, где Р1 пересекает/не пресекает Р2 в факторах среды, или в геноме или в фенотипе.
    Проблема, что все существующие модели зависимостей генотип-фенотип сейчас очень просты, и не подходят для описания таких сложных заболеваний как аутизм. А моделей, которые бы включали еще и среду вообще практически нет.

    Кроме того, что мы не знаем КАК моделировать, мы не знаем ЧТО должно входить в модель:
    Дональд Рамсфелд (секретарь обороны США) говорил: «Есть то, о чём мы знаем, что мы это знаем. Есть то, о чём знаем, что мы это не знаем. Но есть также и то, про что мы не знаем, что мы этого не знаем».
    Мы тоже выделяем три типа факторов: “Известные известные” — это хорошо изученные и всегда учитываемые факторы, “известные неизвестные” — недостаточно изученные факторы, но они попадают под подозрение, как могущие влиять на результат и “Неизвестные неизвестные” — факторы, влияющие на процесс, который мы изучаем, но, о которых мы не знаем и даже не подозреваем о них и о их существовании.
    Пример связи генотип-фенотип-среда:
    Генотип: рецессивная мутация в X-хромосоме
    Фенотип: дефицит белка фактора свёртывания крови VIII (Гемофилия А)
    Среда: для лечения берется кровь сотен тысяч людей.
    Результат: Более 80 % гемофилитиков в США болеют СПИДом и гепатитом. (т.к. когда-то доноров не проверяли на эти болезни)

    Когда факторы среды очевидны:
    Ожирение в США: слишком быстро растет число людей с излишним весом, чтоб объяснить это фактором генома, потому что рост произошел за одно-два поколения:
    image

    Как влияет среда на аутизм? Пока недостаточно данных.
    Для того чтоб добавлять в модель “известные неизвестные” интервьюировали много родителей.
    Это не причины аутизма, это факторы, которые нужно учесть. Например: мама жила на краю кукурузного поля, поле обрабатывали пестицидами и это могло повлиять. Или еще один фактор: инфекционное заболевание, высокая температура и затем регрессия (потеря ребенком речи, координации движений). Все факторы необходимо учитывать при моделировании, нельзя от них отмахиваться.
    Вакцинация — поле боя в вопросе вызывает аутизм или нет. Тестировали гипотезу что только вакцинация вызывает аутизм. Эта гипотеза была отвергнута (хотя к тому исследованию возникает много вопросов). Но неисследованным остается сложение факторов: геном+вакцинация, и такая теория может быть справедлива.
    Совместно с Джеймсом Евансом (James A. Evans) исследовали факторы, которые должны быть включены в генетическую модель аутизма. Опросили целый ряд учёных, занимающихся проблемами аутизма. Ожидали найти много позиций согласия и островки разногласий, но нашли океан разногласий с небольшими островками единства.
    Поэтому в модель включили максимум возможных факторов.

    Как собственно выполняется генетическое исследование?
    Задача проста когда надо сравнить одну хромосому — тогда легко найти совпадающий искаженный участок, который и приводит к заболеванию. Но когда таких участков не один, когда хромосом несколько, то задача значительно усложняется. У человека около 20000 генов. Если просто искать изменения связанные с аутизмом для любой комбинации генов, то число возможных комбинаций
    для 2х генов — 10^8
    для 3х генов — 10^12
    для 10 генов — 10^37 — т.е. не хватит населения земного шара, чтоб набрать данные для анализа.
    Как видим, то, что работало для одного гена не работает для многих.

    Выход в том, чтоб составить карту функциональных отношений генов и белков. Откуда взять такую карту? Лаборатория Андрея Юрьевича проанализировала десятки тысяч статей в научных журналах, чтоб определить эти связи.
    Вот какая получилось карта связей

    К счастью, гены, которые мы ищем должны располагаться близко в функциональном пространстве – это хорошо проанализированная, достоверная закономерность. Итак, мы перебираем не все варианты подряд, а лишь те, где наибольшая корреляция между геномом и фенотипом.
    Почему для анализа взяты менделевские заболевания? Они хорошо изучены, и известно, что за них отвечает определенные места в геноме.
    Цветовое кодирование менделевских заболеваний в дальнейших визуализация


    Когда мы провели анализ для нескольких заболеваний, оказалось, что одни и те же области молекулярной сети перекрываются несколькими заболеваниями.
    Пример скрытой связи:
    image image

    Джоди Фостер и Рональд Рейган — что между ними общего?
    Дон Хинкли пытаясь впечатлить Джоди Фостер покушался на Рональда Рейгана

    Фенотипы можно сравнить с известными личностями, генотип – скрытые связи между ними. Если мы наблюдаем последовательность фенотипов: можно ли делать заключения о генетике? Да, для условий моделирования это можно делать.

    Данные:


    1500000 уникальных карточек пациентов, в закодированных по МКБ-9 заболеваниях за всю жизнь пациента. Так как эти данные используются для определения размера компенсации по страховке в США, то они несовершенны. Но, учитывая их огромный объем было бы преступно не проанализировать их.
    Используя модель порога для описания того генетические заболевания превращаются в фенотип, можно оценить генетические связи с сложными фенотипами заболеваний (как аутизм). Красные ребра — самые сильные связи. Предсказание: аутизм имеет общую генетику с массой не родственных заболеваний. В результате анализа: очевидна значимая связь аутизма с инфекционными заболеваниями и с многими заболеваниями нервной системы.
    Корреляция менделевских заболеваний с аутизмом, биполярным расстройством и шизофренией


    И, наконец, на графике ниже показана корреляция некоторых часто встречающихся заболеваний по базе данных их 1500000 пациентов. Красные линии — положительная корреляция, синие — отрицательная. Толщина линии — величина корреляции. Размер окружности соответствует выборке пациентов (от 20 до 136 тыс).


    Во время лекции профессор показал таблицу корреляции сложных заболеваний и менделевских заболеваний из неопубликованной работы, где анализировалось уже 10 000 000 (да, да 10 миллионов) уникальных карточек заболеваний:


    Выводы


    Доказано перекрытие участков генома для разных заболеваний
    Каждое сложное заболевание имеет генетически связанный набор менделевских заболеваний.
    Анализируя данные, объединяя их мы приближаемся к построению модели проявления аутизма.
    Надеюсь, что вы не все уснули :)

    ВНИМАНИЕ


    Если у вас есть интересные наработки в области поиска связей, вы занимаетесь сопоставлением массивов данных, если вы занимаетесь генетическими исследованиями, то лаборатория Ржецкого Андрея Юрьевича заинтересована в широком и взаимополезном сотрудничестве.
    Свяжитесь с ними! (ссылки внизу топика)


    Благодарности:
    Благодарю компанию «ИТек», в которой работаю, моих руководителей Балицкого Юрия и Калашникова Романа за предоставленный «отгул» на три рабочих дня в горячий сезон для нашего сервиса техподдержки.
    Профессиональное сообщество практик «Превентивная медицина» спасибо за первую международную конференцию по аутизму, в рамках которой мы могли услышать замечательный доклад Ржецкого А.Ю.
    Выражаю искреннюю и огромную благодарность фонду «Дитина з майбутнiм» и лично Инне Сергиенко и Ларисе Рыбченко, а также главе БФ Ассоциация родителей детей с аутизмом — Евгение Паничевской. Спасибо за оказанное доверие и возможность переставлять всех вас на 1й Московской международной конференции «Аутизм: вызовы и решения».
    Выражаю благодарность директору Фонд «Выход» Евгении Мишиной, оказавшей неоценимую материальную и моральную помощь в г. Москва, и вам, мои замечательные Светлана Моисеева и Аля Янушевич, благодаря которым я не остался ночевать на вокзале. Ну и конечно всем кто это организовал и волонтерил: Екатерине Мень, Яне Золотовицкой из Центра проблем аутизма и всем-всем-всем остальным.

    Избранные публикации А. Ржецкого:

    • Iossifov I, Zheng T, Baron M, Gilliam TC, Rzhetsky A. (2008) Genetic-linkage mapping of complex hereditary disorders to a whole-genome molecular-interaction network. Genome Res. June 3.
    • Feldman I, Rzhetsky A, Vitkup D. (2008) Network properties of genes harboring inherited disease mutations. Proc Natl Acad Sci U S A. 105, 4323-4328.
    • Rodriguez-Esteban R,Rzhetsky A. (2008) Six senses in the literature. The bleak sensory landscape of biomedical texts. EMBO Rep. 9, 212-215.
    • Yao L &Rzhetsky A.(2008) Quantitative systems-level determinants of human genes targeted by successful drugs. Genome Res. 18:206-213.
    • Rzhetsky, A., Wajngurt, D., Park, N. & Zheng, T. (2007) Probing genetic overlap among complex human phenotypes. Proc. Natl. Acad. Sci. U S A. 104, 11694-11699.
    • Cokol, M., Rodriguez-Esteban, R. & Rzhetsky, A. (2007) A recipe for high impact. Genome Biol, 8, 406.
    • Cokol, M., Iossifov, I., Rodriguez-Esteban, R. & Rzhetsky, A. (2007) How many scientific papers should be retracted? EMBO Rep, 8. 422-423.


    Ссылки:


    Одна из книг написанных Ржецким А.Ю. в соавторстве с Жарких А.А. во времена СССР: «Новый подход к реконструкции филогений на основе анализа многих семейств генов»: books.google.com.ua/books/about/%D0%9D%D0%BE%D0%B2%D1%8B%D0%B9_%D0%BF%D0%BE%D0%B4%D1%85%D0%BE%D0%B4_%D0%BA_%D1%80%D0%B5%D0%BA%D0%BE%D0%BD%D1%81.html?id=RTPGHAAACAAJ&redir_esc=y
    Сайт Андрея Юрьевича: www.ci.uchicago.edu/research/rzhetsky
    Андрей Ржецкий в каталоге «Биомедексперстс» www.biomedexperts.com/Profile.bme/1652205/Andrey_Rzhetsky
    Статьи по результатам исследований:
    Network properties of genes harboring inherited disease mutations www.pnas.org/content/105/11/4323.full
    Probing genetic overlap among complex human phenotypes www.pnas.org/content/104/28/11694.full
    Share post

    Comments 14

      +18
      >В 2007 году группа уже проанализировала 1,5 миллиона историй болезней
      Хотелось бы увидеть детали какие методики (в контексте IT технологий) применялись при анализе.
      Из заголовка я подумал, что статья про IBM Dr. Watson который, вроде бы, как раз и обучался на большой выборке реальных историй болезней
        0
        частично ответ присутсвует, но я планирую более детальную статью. Насобираю вопросы и пошлю Андрею Юрьевичу — он обещал ответить
        +2
        Познавательно, хотя если бы я понимал термины/понятия, было бы полезней :-) Спасибо за статью.

        Интересно, каким образом можно получить доступ к такой большой базе историй болезней? Вообще откуда она? Как давно ведётся и кем?
          +9
          Я вначале подумал что это очередной топик про Ватсон :)
            +10
            Тем более, что он присутствует на фотографии.
              0
              Я подумал, это связано с соседним топиком про школу анализа данных…
              0
              Спасибо за исследование! Используем такие знания на практике.
                +4
                Извините, но я набрал пару симптомов и у меня появился целый букет заболеваний влагалища (фибромиома влагалища, фиброма влагалища, доброкачественная опухоль влагалища, миома влагалища, туберкулез шейки матки и вульвы) и совершенно несвязанные болезни (папилломовирусная инфекция, головная боль, ринит). При этом мой пол угадайте с двух раз. А с симптомов тяжесть и боль в области печени.

                Никуда это не годится.
                0
                В книге “Сигнал и шум” (Мед Сильвер)

                Автор всё-таки Нейт Сильвер (Nate Silver).
                Книга называется The signal and the noise: Why so many predictions fail-but some don't (Amazon). Русского перевода в природе ещё нет.
                  0
                  Спасибо, писал на слух, видно «недочув»
                  0
                  Скажите пожалуйста, а факторный анализ проводили? Если да — то удалось ли интерпретировать его результаты? По мне так это самое интересное…
                    +1
                    Тема глобальнейшая.
                    Только я здесь не про аутизм, а про геномные исследования.

                    Я не знаю, как сообщить автору про опечатки (новенький я еще пока здесь), но там в 2-х местах «меделевские» вместо ключевого «меНделевских» (по имени Менделя, ударение на первом слоге, монаха, открывшего закон наследования признаков). Смущает.

                    Слово большинству народа здесь незнакомое (оно и в узконаучном обиходе-то только-только начало набирать популярность), посему лучше его писать правильно.
                    А обозначает это заболевание, определяющиеся единственной, как правило — рецессивной, вариацией в геноме.
                    На самом деле, такие заболевания — редкость. Является ли таковым аутизм — вопрос.

                    Но «Gene Hunting» («охота за генами») — занятие увлекательнейшее, по себе знаю.
                      0
                      Спасибо, поправил. Трудно не допустить помарки в такой большой статье, особенно когда правильные слова подчеркиваются «красненьким», потому что автопроверке они неизвестны.
                      0
                      На счет «поиска связей и сопоставления массивов данных» могу посоветовать выйти на специалистов «Яндекса» в области поиска. Думаю у них есть большой опыт в классификации данных и поиске связей. Возможно им это будет интересно.
                      Тут как-то пролетала статья о сотрудничестве Яндекса и ЦЕРНа.

                      Only users with full accounts can post comments. Log in, please.