Суперкомпьютеры на страже генетики

       В преддверии нового поста программы "5 недель с компанией Intel", предлагаю ознакомиться с интересным текстом, в котором рассказывается о применений высокопроизводительных систем (HPC) на примере нескольких российских разработок.

    image

       В мае компания Intel проводила конкурс 32 Core Testing Plan, предлагающий научному сообществу протестировать свои приложения на многоядерной вычислительной системе — среди пяти победителей из России аж три команды. Ниже пара слов о сложной и красивой математике, стоящей за работами финалистов.

       Антон Панкратов работает в Институте математических проблем биологии, который занимается целым рядом задач (на главной странице института есть полный список): начиная от исследования первичных структур биополимеров и моделирования динамики биомолекулярных систем, заканчивая нейросетевыми моделями и проблемами биоразнообразия.

    image

       Вместе со своим коллегой Русланом Тетуевым Антон работает над спектральными методами обработки и анализа генетических данных по распознаванию гомологичных генетических последовательностей. Если вы не поняли последнего предложения, не страшно — практически никто за пределами их сферы интересов не понимает, о чем идет речь.

    image   Генетика для чайников: ДНК это очень длинный полимер, состоящий из большого количества строительных кирпичиков — нуклеотидов. Нуклеотиды в своей основе имеют четыре повторяющихся нуклеиновых основания: аденин, тимин, гуанин и цитозин, сокращенно — A, T, G, и C. Серьезные генетические исследования минуют химические процессы и работают напрямую с этими четырьмя буквами, которыми зашифрованы практически все живые организмы на Земле: ATCGATTG, примерно так выглядит продолжающийся код ДНК. Продолжающийся и продолжающийся, потому что эти последовательности очень длинны: самая длинная человеческая хромосома, номер один, длиной около 220 миллионов пар нуклеотидов.

       Одна из крупных проблем современной вычислительной генетики — распознавание образов, то есть нахождение повторяющихся частей ДНК. Одно дело просто записать весь геном человека, совершенно другое — найти в нем повторяющиеся или похожие части и попытаться установить между ними связи, соотношения. Этим и занимается команда Антона, продолжая двадцатилетний проект института ИМПБ, начатый наставниками Антона и опирающийся на работы великого русского математика Пафнутия Чебышёва. «Мы называем наш метод NASCA, Numeric Analytical Spectral Comparing Approach: метод аппроксимации спектрального анализа», рассказывает Антон, пока мы прогуливаемся по залитому солнцем второму учебному корпусу МГУ на Воробьевых горах, alma mater Антона.

       «Пользуясь формулами ортогональных многочленов Чебышёва, сделавшего большой вклад в теорию аппроксимации, мы можем обрабатывать очень большие последовательности, чего не могут общепринятые методы динамического программирования, устанавливающие прямое соответствие буквы с буквой». Это и есть «гомология», то есть похожесть, но не точное соответствие — команда Антона ищет подобные, но не точные повторы внутри кода ДНК. «Мы абстрагировались от буквенного текста и перешли к его статистическим профилям: мы больше не видим отдельных букв A, T, G и C, но видим некую статистику вдоль текста, которую можем обрабатывать методами аппроксимации спектрального анализа».

    image
       Фрагмент матрицы, рассматривающей последовательность из полутора миллионов пар нуклеотидов; каждый цветной пиксель матрицы это не единичный повтор, а повтор 500 нуклеиновых оснований. Схожие отрезки отмечены красным цветом (красная диагональ это, разумеется, повторы матрицы, замыкающиеся сами на себя), обратные последовательности показаны зеленым цветом.

       Эта карта — готовый научный инструмент для исследования генома. Команда Антона уже нашла повтор, который очень трудно обнаружить при помощи общеизвестных методов: «Руслан отправил нашу находку в базу данных Genetic Information Research Institute, и мы надеемся, что наш метод тоже займет свое место в арсенале современного генетика».

       «Мы узнали о конкурсе по линии лаборатории Intel в МГУ. Для нас интересны многоядерные архитектуры, поскольку наш метод очень хорошо распараллеливается на них благодаря методу вычисления коэффициентов разложения, который мы разработали. Текущая реализация нашей работы использует популярные пакеты OpenMP и Intel IPP и на мультиядерных архитектурах ускоряется практически линейно. На тестовой 32-ядерной системе Intel мы добились 27-кратного ускорения алгоритмической части нашей программы».

    image

       «Уже сейчас видно, что пока мы тестировали наши алгоритмы на удаленной 32-ядерной машине, предоставленной Intel, мы довольно многому научились. Параллельное программирование заставляет думать и стремиться к красивым решениям».

       Екатерина Жмудь из Новосибирского Государственного Университета тоже использует многоядерные системы для чрезвычайно красивого кода. «Наш проект связан с теорией кодирования и занимается алгоритмами вычисления групп автоморфизмов Q-значных кодов. Звучит не очень понятно, но вообще группы автоморфизмов широко используются в современной криптографии, которая сейчас становится все более и более важной частью технического мира. Моя часть работы на этом проекте касается обнаружения симметричных групп комбинаторных объектов, необязательно кодов. В дальнейшем мы собираемся сделать специальный инструмент, который мог бы использоваться учеными-криптографами».

    image
    Автор фотографии: Майя Шелковникова

       Как и команда Антона, Екатерина использует матрицы для проверки кода; отдельные строки матрицы или части строк могут просматриваться независимо, так что алгоритм может быть чрезвычайно параллельным. «Мы используем vTune и Thread Checker для анализа параллелизации нашего кода», добавляет Екатерина.

       Антон Панкратов и его команда раздумывают об использовании интеловских инструментов тестирования и оптимизации программ, но «пока что мы не пользуемся какими-то специализированными средствами отладки наших программ — просто очень аккуратно их пишем. Наши наблюдения подтверждают расхожее мнение, что память является узким местом в высокопроизводительных вычислительных системах, так что мы используем индексирование, сжатие информации, чем снимаем нагрузку на память и что в свою очередь положительно сказывается на распараллеливании. Помощь Intel была важна и в организационном смысле — в 2006 году я съездил на конференцию по параллельным вычислениям и там сориентировался в существующих инструментах и средах параллельного программирования».

       Алексей Николаев, директор образовательных программ Intel в России, резюмирует тему: «И конкурс, и деятельность лаборатории показывает, что мы находимся на переднем крае тенденций индустрии, тенденций науки и вопросов образования; их совокупность позволяет нам открывать и новые методические аспекты, и давать новые знания, и определять наиболее эффективный путь движения образования».

    * * *


    image Текст взят с проекта Intel Galaxy.

    + А во второй половине дня в рамках программы "5 недель с компанией Intel" будет размещен еще один материал, касающийся темы суперкопьютеров (HPC), так что уже можно начинать готовить каверзные вопросы.

    Продолжение следует.
    Intel
    202.18
    Компания
    Support the author
    Share post

    Comments 81

      +29
      Ах, Екатерина! До чего же хороша! А статья интересная, спасибо :)
        +7
        Да, приятней смотреть, нежели на фото Антона;)
          +4
          vkontakte.ru/yekaterina_zhmud — там есть ещё фотки :)
            +5
            Ух ты ж ничего себе… мою сестру обсуждают на хабре…

            Вы ей тогда хоть инвайт пришлите, бесстыдники :)
              +1
              инвайт то запросто.

              а вот эту фотку если в резюме присобачить. +100500 к лаку :)
                +1
                Особенно в сочетании с мужским именем, ага ))
                  0
                  Максим, вышлите ей инвайт пжлст!

                  Я, как и многие хабражители, с огромным удовольствием почитал бы статьи Екатерины. :o)
                    0
                    это если официанткой наниматься :))
                      0
                      Скажите пожалуйста, как q-значные коды по-английски называются.
                  +3
                  передайте сестре, что она прелестна)
                    0
                    я ей прямо ссылку кину, пусть порадуется ))
                      0
                      Уже скинули и хабраэфект настал на страничке вашей сестры вконтакте :)(Я так думаю)
                  +3
                  хыы, и ещё ни одного предложения женится
                  –3
                  Без фотошопа не обошлось )
                    +1
                    Да ладно вам)
                    и не стыдно вам!?
                      0
                      Нет ничего стыдного в коррекции своих фото, это как пользоваться косметикой.
                        0
                        да неее… я понимаю и вообще «между нами») фотошоп это больше добро…
                        просто когда фотография красивой женщины… по этикету о нем говорить нельзя...;)
                    +1
                    Когда на хабре запретят КДПВ?
                      0
                      По идее, любая картинка до ката является кдпв ) И с ними информация гораздо наглядней.
                      Изначально у меня стояла другая картинка, но раз народ настоял — почему бы нет
                        +6
                        Просто вот как-то фотография девушки никак наглядно не иллюстрирует заголовок «Суперкомпьютеры на страже генетики».

                        И, простите, но читатели ведут себя как последние… ладно, как будто в 1-ый раз видят фотографию девушки, хотя подобная тенденция прослеживается и в других постах, где есть картинка с объектом женского пола. У меня почему-то вызывают ассоциации с парнями с пивом в метро, которые громко между собой оценивают мимо проходящих девушек и в догонку предлагают им познакомиться или взять номер телефона.

                        Я, конечно, понимаю девушке будет приятно (хотя не факт, не всем нравится такое внимание) прочитать ваши комплименты, но для оценки фоточек и внешнего вида есть другие сайты.

                        P.S.: если соберетесь сливать, то хотя бы объясните, в чем я здесь не прав.
                          +1
                          тем не менее: именно этими фотками иллюстрирована аналогичная статья на самом интеле.
                          причом катина фотка выставлена в превьюшнуое изображение.

                          такчто, в выборе фотке соблюдается солидарность и с интелом :)
                  • UFO just landed and posted this here
                      +15
                      Екатерина — мечта программиста.
                        +4
                        Екатерина и есть программист!
                          +16
                          Рекурсия!
                            +10
                            Нет, самодостаточность )
                              0
                              некая программистка может быть мечтой того, кто не является ничьей мечтой сам.
                              может ли такая программистка быть мечтой самой себя?
                                0
                                может
                                  0
                                  вы мыслите как программист, а не как математик :)
                        0
                        Катерина красивая девушка использующая красивый код.
                          +9
                          Автор, поменяйте первую и последнюю картинки местами — топик прочитает значительно больше человек.
                            +6
                            По просьбам трудящихся )
                              +5
                              А сработало, в первоначальном варианте я под кат не полез.
                            +3
                            Оба очень красивые.

                            Так что вы там говорите, про компьютеры и генетику?
                              0
                              Я так понимаю, что все же будущее за VLIW-процессорами. По образу и подобию того, что сделала природа.
                                +2
                                Я влюбился
                                  0
                                  Желательно ещё и ссылочку на фото девушки Катерины в большом разрешении :) Многие бы поставили себе на рабочий стол как обои или же распечатали и в рамочку :).
                                    0
                                    Какие суперкомпьютеры? Зачем? Ведь тут такие девушки .
                                    +1
                                    Баа! Так, Екатерина из моего ВУЗа! :)
                                      +6
                                      первый раз вижу такую красивую девушку-программиста
                                        0
                                        правда фото тут удачное, нежели в контакте, что выше давали
                                          +3
                                          Да ладно вам :) Модели в жизни тоже не так эффектно как на фото выглядят. Красивая девушка, увлекается фотографией, ПРОГРАММИСТ!
                                      • UFO just landed and posted this here
                                          +1
                                          Ну ладно, Антон Панкратов тоже ничего…
                                          +11
                                          Напишите лучше про Катю. А суперкомптьютеры и генетика, да шут с ними.
                                            0
                                            Большинство ученых носят одинаковые очки. :)
                                            • UFO just landed and posted this here
                                                +1
                                                В какие закладки? На рабочий стол, однозначно! =)
                                                0
                                                КДПВ сделали привлекательнее, хотя предыдущая тоже неплохая была.
                                                  +1
                                                  по-моему Екатерина сфокусировала на себе 90% внимания и о статье как-то все почти забыли )))
                                                    0
                                                    Вы уже четвёртый из тех, кто выразил эту мысль в комментариях :).
                                                      0
                                                      это называется «я буду обновлять страницу перед постом комментария, я буду обновлять страницу перед постом комментария...» =))
                                                    +1
                                                    Только Интел может позволить себе разместить на Хабре _такой_ анонс статьи :)
                                                      0
                                                      Не только — на днях что-то там про тимбилдинг писали (тоже никто не прочитал)
                                                      0
                                                      >> Если вы не поняли последнего предложения, не страшно
                                                      А если поняли, то страшно? =)
                                                        +1
                                                        Всё-таки именно Красота спасёт Мир!
                                                        Побольше б таких улыбок на улицах.
                                                        • UFO just landed and posted this here
                                                            +2
                                                            :) тут неоднозначная трактовка вашего комментария возможна…

                                                            1. то ли вы имеете в виду, что такие девушки помогут больше генетике (своим вкладом в генофонд), чем криптографии (которой, собственно занимается Катя, в отличие от Антона),
                                                            2. то ли девушки своим вкладом в генофонд помогут генетике больше, чем Антон своими спектральными методами анализа данных ))
                                                            0
                                                            А где самое интересное — ссылки на статьи с полным описанием алгоритмов и результатов?
                                                              0
                                                              структурной биологией в интеле занимаются?
                                                                +1
                                                                Вообще-то Интел — всего лишь организатор конкурса. Большинство участников не имеет к нему отношения)
                                                                +11
                                                                Спасибо вам за комплименты, мне очень приятно :)
                                                                  0
                                                                  C почином :)
                                                                    0
                                                                    А как приятно нам :)
                                                                      0
                                                                      Тут уже писали, прикрепление фотки к профилю +100500 к удаче )
                                                                      0
                                                                      Девушка Красавица! А где можно купиь такую мохнатую ДНК-игрушку?
                                                                        0
                                                                        visualscience.ru/models/spacefilled/spacefilled_dna/
                                                                        +3
                                                                        Хабрафап! ))
                                                                          0
                                                                          Новость в форуме Intel:
                                                                          software.intel.com/en-us/forums/showpost.php?p=118824
                                                                            0
                                                                            Хоть кто-нибудь по теме выскажется? =) А то ощущение, что тут все из женщин с рождения не видели… )

                                                                            PS^ Я бы с радостью по теме, да не располагаю соответствующими знаниями. Почитать было интересно. )
                                                                              0
                                                                              Ну, первая работа сильнее второй, но во второй девушка красивая :-)

                                                                              Я так понимаю в первой работе разложили части ДНК по полиномам а потом искали места со схожими коэффициентами.

                                                                              Во второй работе для всевозможных q-нарных кодов смотрели различные перестановки. Чем больше у заданной кодовой системы перестановок, тем сложнее её перебрать.
                                                                                0
                                                                                > Ну, первая работа сильнее второй, но во второй девушка красивая :-)
                                                                                Имею ввиду: мне так кажется. Если я не прав — расскажите.
                                                                              +1
                                                                              Со стороны компании Intel не указать авторство фотографии Екатерины — очень странно.

                                                                              Автор фотографии — Майя Шелковникова. Пруфлинк.
                                                                                –2
                                                                                Хорошо бы указать, откуда взята картинка с мохнатой ДНК. А то хостинг ваш, пометок на картинке нет никаких. А между тем авторы картинки и собсно мохнатой ДНК на хабре.
                                                                                  –2
                                                                                  Да, охренеть, Бумбурум тупо отрезал подпись у фотки. Разочарован.
                                                                                  Или получено разрешение на использование?
                                                                                  visualscience.ru/models/spacefilled/spacefilled_dna/
                                                                                    0
                                                                                    Насколько я знаю, такого разрешения не было. Хотелось бы, чтобы авторы это исправили. Спасибо за то, что обратили на это внимание, уважаемый KPG:)
                                                                                      0
                                                                                      Исправил
                                                                                        0
                                                                                        Не хотелось бы быть занудным, но мы предпочитаем чтобы наши изображения распространялись согласно вот этим правилам: visualscience.ru/company/licence/
                                                                                        Заранее спасибо!

                                                                                        А что касается текста поста, он очень любопытный. Поиск повторяющихся последовательностей, которые довольно давно разошлись и накопили много замен — весьма полезная штука. Среди прочего, при изучении мобильных генетических элементов, что лично мне особенно близко)
                                                                                          0
                                                                                          Я вставляю в статьи те картинки, которые нахожу в гугле, из-за чего иногда права авторов могут не соблюдаться — посыпаю свою голову пеплом.
                                                                                          Но в данном случае это исключительно занудство, поэтому поменял ваши труды и симпатичную картинку со ссылкой на не менее подходящее изображение. Всем спасибо, все свободны.

                                                                                Only users with full accounts can post comments. Log in, please.