company_banner

Суперкомпьютеры на страже генетики

       В преддверии нового поста программы "5 недель с компанией Intel", предлагаю ознакомиться с интересным текстом, в котором рассказывается о применений высокопроизводительных систем (HPC) на примере нескольких российских разработок.

    image

       В мае компания Intel проводила конкурс 32 Core Testing Plan, предлагающий научному сообществу протестировать свои приложения на многоядерной вычислительной системе — среди пяти победителей из России аж три команды. Ниже пара слов о сложной и красивой математике, стоящей за работами финалистов.

       Антон Панкратов работает в Институте математических проблем биологии, который занимается целым рядом задач (на главной странице института есть полный список): начиная от исследования первичных структур биополимеров и моделирования динамики биомолекулярных систем, заканчивая нейросетевыми моделями и проблемами биоразнообразия.

    image

       Вместе со своим коллегой Русланом Тетуевым Антон работает над спектральными методами обработки и анализа генетических данных по распознаванию гомологичных генетических последовательностей. Если вы не поняли последнего предложения, не страшно — практически никто за пределами их сферы интересов не понимает, о чем идет речь.

    image   Генетика для чайников: ДНК это очень длинный полимер, состоящий из большого количества строительных кирпичиков — нуклеотидов. Нуклеотиды в своей основе имеют четыре повторяющихся нуклеиновых основания: аденин, тимин, гуанин и цитозин, сокращенно — A, T, G, и C. Серьезные генетические исследования минуют химические процессы и работают напрямую с этими четырьмя буквами, которыми зашифрованы практически все живые организмы на Земле: ATCGATTG, примерно так выглядит продолжающийся код ДНК. Продолжающийся и продолжающийся, потому что эти последовательности очень длинны: самая длинная человеческая хромосома, номер один, длиной около 220 миллионов пар нуклеотидов.

       Одна из крупных проблем современной вычислительной генетики — распознавание образов, то есть нахождение повторяющихся частей ДНК. Одно дело просто записать весь геном человека, совершенно другое — найти в нем повторяющиеся или похожие части и попытаться установить между ними связи, соотношения. Этим и занимается команда Антона, продолжая двадцатилетний проект института ИМПБ, начатый наставниками Антона и опирающийся на работы великого русского математика Пафнутия Чебышёва. «Мы называем наш метод NASCA, Numeric Analytical Spectral Comparing Approach: метод аппроксимации спектрального анализа», рассказывает Антон, пока мы прогуливаемся по залитому солнцем второму учебному корпусу МГУ на Воробьевых горах, alma mater Антона.

       «Пользуясь формулами ортогональных многочленов Чебышёва, сделавшего большой вклад в теорию аппроксимации, мы можем обрабатывать очень большие последовательности, чего не могут общепринятые методы динамического программирования, устанавливающие прямое соответствие буквы с буквой». Это и есть «гомология», то есть похожесть, но не точное соответствие — команда Антона ищет подобные, но не точные повторы внутри кода ДНК. «Мы абстрагировались от буквенного текста и перешли к его статистическим профилям: мы больше не видим отдельных букв A, T, G и C, но видим некую статистику вдоль текста, которую можем обрабатывать методами аппроксимации спектрального анализа».

    image
       Фрагмент матрицы, рассматривающей последовательность из полутора миллионов пар нуклеотидов; каждый цветной пиксель матрицы это не единичный повтор, а повтор 500 нуклеиновых оснований. Схожие отрезки отмечены красным цветом (красная диагональ это, разумеется, повторы матрицы, замыкающиеся сами на себя), обратные последовательности показаны зеленым цветом.

       Эта карта — готовый научный инструмент для исследования генома. Команда Антона уже нашла повтор, который очень трудно обнаружить при помощи общеизвестных методов: «Руслан отправил нашу находку в базу данных Genetic Information Research Institute, и мы надеемся, что наш метод тоже займет свое место в арсенале современного генетика».

       «Мы узнали о конкурсе по линии лаборатории Intel в МГУ. Для нас интересны многоядерные архитектуры, поскольку наш метод очень хорошо распараллеливается на них благодаря методу вычисления коэффициентов разложения, который мы разработали. Текущая реализация нашей работы использует популярные пакеты OpenMP и Intel IPP и на мультиядерных архитектурах ускоряется практически линейно. На тестовой 32-ядерной системе Intel мы добились 27-кратного ускорения алгоритмической части нашей программы».

    image

       «Уже сейчас видно, что пока мы тестировали наши алгоритмы на удаленной 32-ядерной машине, предоставленной Intel, мы довольно многому научились. Параллельное программирование заставляет думать и стремиться к красивым решениям».

       Екатерина Жмудь из Новосибирского Государственного Университета тоже использует многоядерные системы для чрезвычайно красивого кода. «Наш проект связан с теорией кодирования и занимается алгоритмами вычисления групп автоморфизмов Q-значных кодов. Звучит не очень понятно, но вообще группы автоморфизмов широко используются в современной криптографии, которая сейчас становится все более и более важной частью технического мира. Моя часть работы на этом проекте касается обнаружения симметричных групп комбинаторных объектов, необязательно кодов. В дальнейшем мы собираемся сделать специальный инструмент, который мог бы использоваться учеными-криптографами».

    image
    Автор фотографии: Майя Шелковникова

       Как и команда Антона, Екатерина использует матрицы для проверки кода; отдельные строки матрицы или части строк могут просматриваться независимо, так что алгоритм может быть чрезвычайно параллельным. «Мы используем vTune и Thread Checker для анализа параллелизации нашего кода», добавляет Екатерина.

       Антон Панкратов и его команда раздумывают об использовании интеловских инструментов тестирования и оптимизации программ, но «пока что мы не пользуемся какими-то специализированными средствами отладки наших программ — просто очень аккуратно их пишем. Наши наблюдения подтверждают расхожее мнение, что память является узким местом в высокопроизводительных вычислительных системах, так что мы используем индексирование, сжатие информации, чем снимаем нагрузку на память и что в свою очередь положительно сказывается на распараллеливании. Помощь Intel была важна и в организационном смысле — в 2006 году я съездил на конференцию по параллельным вычислениям и там сориентировался в существующих инструментах и средах параллельного программирования».

       Алексей Николаев, директор образовательных программ Intel в России, резюмирует тему: «И конкурс, и деятельность лаборатории показывает, что мы находимся на переднем крае тенденций индустрии, тенденций науки и вопросов образования; их совокупность позволяет нам открывать и новые методические аспекты, и давать новые знания, и определять наиболее эффективный путь движения образования».

    * * *


    image Текст взят с проекта Intel Galaxy.

    + А во второй половине дня в рамках программы "5 недель с компанией Intel" будет размещен еще один материал, касающийся темы суперкопьютеров (HPC), так что уже можно начинать готовить каверзные вопросы.

    Продолжение следует.
    Intel 258,43
    Компания
    Поделиться публикацией
    Комментарии 81
    • +29
      Ах, Екатерина! До чего же хороша! А статья интересная, спасибо :)
      • +7
        Да, приятней смотреть, нежели на фото Антона;)
        • +4
          vkontakte.ru/yekaterina_zhmud — там есть ещё фотки :)
          • +5
            Ух ты ж ничего себе… мою сестру обсуждают на хабре…

            Вы ей тогда хоть инвайт пришлите, бесстыдники :)
            • +1
              инвайт то запросто.

              а вот эту фотку если в резюме присобачить. +100500 к лаку :)
              • +1
                Особенно в сочетании с мужским именем, ага ))
                • 0
                  Максим, вышлите ей инвайт пжлст!

                  Я, как и многие хабражители, с огромным удовольствием почитал бы статьи Екатерины. :o)
                  • 0
                    это если официанткой наниматься :))
                    • 0
                      Скажите пожалуйста, как q-значные коды по-английски называются.
                • +3
                  передайте сестре, что она прелестна)
                  • 0
                    я ей прямо ссылку кину, пусть порадуется ))
                    • 0
                      Уже скинули и хабраэфект настал на страничке вашей сестры вконтакте :)(Я так думаю)
                • +3
                  хыы, и ещё ни одного предложения женится
                • –3
                  Без фотошопа не обошлось )
                  • +1
                    Да ладно вам)
                    и не стыдно вам!?
                    • 0
                      Нет ничего стыдного в коррекции своих фото, это как пользоваться косметикой.
                      • 0
                        да неее… я понимаю и вообще «между нами») фотошоп это больше добро…
                        просто когда фотография красивой женщины… по этикету о нем говорить нельзя...;)
                  • +1
                    Когда на хабре запретят КДПВ?
                    • 0
                      По идее, любая картинка до ката является кдпв ) И с ними информация гораздо наглядней.
                      Изначально у меня стояла другая картинка, но раз народ настоял — почему бы нет
                      • +6
                        Просто вот как-то фотография девушки никак наглядно не иллюстрирует заголовок «Суперкомпьютеры на страже генетики».

                        И, простите, но читатели ведут себя как последние… ладно, как будто в 1-ый раз видят фотографию девушки, хотя подобная тенденция прослеживается и в других постах, где есть картинка с объектом женского пола. У меня почему-то вызывают ассоциации с парнями с пивом в метро, которые громко между собой оценивают мимо проходящих девушек и в догонку предлагают им познакомиться или взять номер телефона.

                        Я, конечно, понимаю девушке будет приятно (хотя не факт, не всем нравится такое внимание) прочитать ваши комплименты, но для оценки фоточек и внешнего вида есть другие сайты.

                        P.S.: если соберетесь сливать, то хотя бы объясните, в чем я здесь не прав.
                        • +1
                          тем не менее: именно этими фотками иллюстрирована аналогичная статья на самом интеле.
                          причом катина фотка выставлена в превьюшнуое изображение.

                          такчто, в выборе фотке соблюдается солидарность и с интелом :)
                  • НЛО прилетело и опубликовало эту надпись здесь
                    • +15
                      Екатерина — мечта программиста.
                      • +4
                        Екатерина и есть программист!
                        • +16
                          Рекурсия!
                          • +10
                            Нет, самодостаточность )
                            • 0
                              некая программистка может быть мечтой того, кто не является ничьей мечтой сам.
                              может ли такая программистка быть мечтой самой себя?
                              • 0
                                может
                                • 0
                                  вы мыслите как программист, а не как математик :)
                      • 0
                        Катерина красивая девушка использующая красивый код.
                        • +9
                          Автор, поменяйте первую и последнюю картинки местами — топик прочитает значительно больше человек.
                          • +6
                            По просьбам трудящихся )
                            • +5
                              А сработало, в первоначальном варианте я под кат не полез.
                          • +3
                            Оба очень красивые.

                            Так что вы там говорите, про компьютеры и генетику?
                            • 0
                              Я так понимаю, что все же будущее за VLIW-процессорами. По образу и подобию того, что сделала природа.
                              • +2
                                Я влюбился
                                • 0
                                  Желательно ещё и ссылочку на фото девушки Катерины в большом разрешении :) Многие бы поставили себе на рабочий стол как обои или же распечатали и в рамочку :).
                                  • 0
                                    Какие суперкомпьютеры? Зачем? Ведь тут такие девушки .
                                  • +1
                                    Баа! Так, Екатерина из моего ВУЗа! :)
                                    • +6
                                      первый раз вижу такую красивую девушку-программиста
                                      • 0
                                        правда фото тут удачное, нежели в контакте, что выше давали
                                        • +3
                                          Да ладно вам :) Модели в жизни тоже не так эффектно как на фото выглядят. Красивая девушка, увлекается фотографией, ПРОГРАММИСТ!
                                      • НЛО прилетело и опубликовало эту надпись здесь
                                        • +1
                                          Ну ладно, Антон Панкратов тоже ничего…
                                        • +11
                                          Напишите лучше про Катю. А суперкомптьютеры и генетика, да шут с ними.
                                          • 0
                                            Большинство ученых носят одинаковые очки. :)
                                            • НЛО прилетело и опубликовало эту надпись здесь
                                              • +1
                                                В какие закладки? На рабочий стол, однозначно! =)
                                              • 0
                                                КДПВ сделали привлекательнее, хотя предыдущая тоже неплохая была.
                                                • +1
                                                  по-моему Екатерина сфокусировала на себе 90% внимания и о статье как-то все почти забыли )))
                                                  • 0
                                                    Вы уже четвёртый из тех, кто выразил эту мысль в комментариях :).
                                                    • 0
                                                      это называется «я буду обновлять страницу перед постом комментария, я буду обновлять страницу перед постом комментария...» =))
                                                  • +1
                                                    Только Интел может позволить себе разместить на Хабре _такой_ анонс статьи :)
                                                    • 0
                                                      Не только — на днях что-то там про тимбилдинг писали (тоже никто не прочитал)
                                                    • 0
                                                      >> Если вы не поняли последнего предложения, не страшно
                                                      А если поняли, то страшно? =)
                                                      • +1
                                                        Всё-таки именно Красота спасёт Мир!
                                                        Побольше б таких улыбок на улицах.
                                                        • НЛО прилетело и опубликовало эту надпись здесь
                                                          • +2
                                                            :) тут неоднозначная трактовка вашего комментария возможна…

                                                            1. то ли вы имеете в виду, что такие девушки помогут больше генетике (своим вкладом в генофонд), чем криптографии (которой, собственно занимается Катя, в отличие от Антона),
                                                            2. то ли девушки своим вкладом в генофонд помогут генетике больше, чем Антон своими спектральными методами анализа данных ))
                                                          • 0
                                                            А где самое интересное — ссылки на статьи с полным описанием алгоритмов и результатов?
                                                            • 0
                                                              структурной биологией в интеле занимаются?
                                                              • +1
                                                                Вообще-то Интел — всего лишь организатор конкурса. Большинство участников не имеет к нему отношения)
                                                              • +11
                                                                Спасибо вам за комплименты, мне очень приятно :)
                                                                • 0
                                                                  C почином :)
                                                                  • 0
                                                                    А как приятно нам :)
                                                                    • 0
                                                                      Тут уже писали, прикрепление фотки к профилю +100500 к удаче )
                                                                    • 0
                                                                      Девушка Красавица! А где можно купиь такую мохнатую ДНК-игрушку?
                                                                      • 0
                                                                        visualscience.ru/models/spacefilled/spacefilled_dna/
                                                                      • +3
                                                                        Хабрафап! ))
                                                                        • 0
                                                                          Новость в форуме Intel:
                                                                          software.intel.com/en-us/forums/showpost.php?p=118824
                                                                          • 0
                                                                            Хоть кто-нибудь по теме выскажется? =) А то ощущение, что тут все из женщин с рождения не видели… )

                                                                            PS^ Я бы с радостью по теме, да не располагаю соответствующими знаниями. Почитать было интересно. )
                                                                            • 0
                                                                              Ну, первая работа сильнее второй, но во второй девушка красивая :-)

                                                                              Я так понимаю в первой работе разложили части ДНК по полиномам а потом искали места со схожими коэффициентами.

                                                                              Во второй работе для всевозможных q-нарных кодов смотрели различные перестановки. Чем больше у заданной кодовой системы перестановок, тем сложнее её перебрать.
                                                                              • 0
                                                                                > Ну, первая работа сильнее второй, но во второй девушка красивая :-)
                                                                                Имею ввиду: мне так кажется. Если я не прав — расскажите.
                                                                            • +1
                                                                              Со стороны компании Intel не указать авторство фотографии Екатерины — очень странно.

                                                                              Автор фотографии — Майя Шелковникова. Пруфлинк.
                                                                              • –2
                                                                                Хорошо бы указать, откуда взята картинка с мохнатой ДНК. А то хостинг ваш, пометок на картинке нет никаких. А между тем авторы картинки и собсно мохнатой ДНК на хабре.
                                                                                • –2
                                                                                  Да, охренеть, Бумбурум тупо отрезал подпись у фотки. Разочарован.
                                                                                  Или получено разрешение на использование?
                                                                                  visualscience.ru/models/spacefilled/spacefilled_dna/
                                                                                  • 0
                                                                                    Насколько я знаю, такого разрешения не было. Хотелось бы, чтобы авторы это исправили. Спасибо за то, что обратили на это внимание, уважаемый KPG:)
                                                                                    • 0
                                                                                      Исправил
                                                                                      • 0
                                                                                        Не хотелось бы быть занудным, но мы предпочитаем чтобы наши изображения распространялись согласно вот этим правилам: visualscience.ru/company/licence/
                                                                                        Заранее спасибо!

                                                                                        А что касается текста поста, он очень любопытный. Поиск повторяющихся последовательностей, которые довольно давно разошлись и накопили много замен — весьма полезная штука. Среди прочего, при изучении мобильных генетических элементов, что лично мне особенно близко)
                                                                                        • 0
                                                                                          Я вставляю в статьи те картинки, которые нахожу в гугле, из-за чего иногда права авторов могут не соблюдаться — посыпаю свою голову пеплом.
                                                                                          Но в данном случае это исключительно занудство, поэтому поменял ваши труды и симпатичную картинку со ссылкой на не менее подходящее изображение. Всем спасибо, все свободны.

                                                                                Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                                                Самое читаемое