Дата-майнинг делает научные открытия



    Интересная статья опубликована в журнале New Scientist о том, как дата-майнинг применяется для анализа большого объёма научной информации. Цель — поиск ценной информации в разрозненных научных статьях. Эти закономерности люди, вероятно, не способны обнаружить собственными силами, без автоматической обработки. Это неудивительно, ведь объём опубликованных научных документов в интернете только на английском языке уже превысил 100 миллионов документов. Это огромный информационный шум, из которого практически невозможно извлечь полезную информацию. То есть, невозможно извлечь человеческим умом.

    Понятно, что без дата-майнинга в современной науке нельзя. Скажем, петабайты информации с Большого адронного коллайдера обрабатывают месяцами/годами, чтобы определить наличие или отсутствие эффектов, предполагаемых той или иной теорией. Но здесь речь идёт о более «тонком» анализе научных результатов от разных авторов для поиска скрытых закономерностей, совпадений.

    Например, калифорнийский суперкомпьютер под названием KnIT постоянно работает над такими задачами. Он анализирует 50 000 научных статей в час. Скажем, он специально анализировал всю информацию, связанную с протеином под названием p53 и искал все данные об энзимах, которые взаимодействуют с ним, они называются киназы.

    Белок p53 очень важен и считается «охранником генома», он подавляет возникновение раковых опухолей в организме. Суперкомпьютер искал в научных статьях все упоминания, которые могут указывать на наличие новых неоткрытых киназ для белка p53. В качестве тестового задания он проанализировал научные работы до 2003 года — и нашёл 7 киназ, которые действительно были открыты в течение последующих 10 лет. То есть система подтвердила, что она может делать настоящие научные открытия. Кроме того, она нашла ещё 2 киназы, до сих пор неизвестных науке. Первоначальные лабораторные эксперименты подтвердили справедливость предположений, сделанных суперкомпьютером (хотя группа учёных хочет повторить опыты для гарантии).

    Разработчики KnIT из IBM и медицинского колледжа Бейлора недавно представили доклад на эту тему на Конференции по обнаружению знаний и дата-майнингу в Нью-Йорке. Их главный тезис состоит в том, что люди-учёные более приспособлены для генерации новой информации, тогда как компьютеры лучше подходят для анализа всего этого огромного сгенерированного массива данных.

    Конечно же, KnIT — не единственная разработка в данной области, где идут активные исследования. Например, авторы манчестерской системы Eve утверждают, что она уже нашла новое лекарство от малярии. Программа не изучала научные работы, а сама эмулировала эксперименты в этой области, пробуя разные варианты лекарств.

    Похожие публикации

    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 11

      +2
      Alizar, я правильно понимаю, что программа в работах до 2003 года «нашла» киназы, которые были открыты после 2003 года?
        0
        Именно так.
          +1
          Получается публикации сведений о тех же киназах в статьях до 2003 проходили незамеченными и их затем заново переоткрывали?
            0
            Не обязательно так. Этих киназ довольно много, и в новых статьях могли быть открыты другие.
          +1
          Вероятно было так — есть обучающая выборка и выборка для тестирования. Обучающая выборка была — «все данные до 2003 года». На ее основе генерируются киназы (понятия не имею каким способом — для этого нужно понимать предметную область). Потом сгенерированные киназы сравниваются с реально найденными после 2003 года.
          +5
          Я узнал, что в XX веке Люзанию потряс ужасный кризис, вызванный самозатмением науки. Ученые все чаще приходили к убеждению, что исследуемое явление кем-то где-то наверняка подробно исследовано, неизвестно только, где об этом можно узнать. Число научных дисциплин росло в геометрической прогрессии, и главным дефектом компьютеров — а теперь уже конструировались мегатонные ЭВМ — стал хронический информационный запор. Было подсчитано, что через каких-нибудь пятьдесят лет в университетах останутся лишь компьютеры-сыщики, которые будут рыться в микропроцессорах и мыслисторах всей планеты, чтобы узнать, где, в каком закоулке какой машинной памяти хранятся абсолютно необходимые нам сведения. Восполняя вековые пробелы, бешеными темпами развивалась игнорантика, то есть наука о том, что науке на данный момент неизвестно; до недавнего времени эта проблематика находилась в полном пренебрежении (проблемами, связанными с игнорированием игнорантики, занималась самостоятельная дисциплина, а именно игнорантистика). А ведь тот, кто твердо знает, чего он не знает, уже немало знает о будущем знании, и с этого боку игнорантика смыкалась с футурологией. Путейцы измеряли длину пути, который должен пройти поисковый импульс, чтобы наткнуться на искомую информацию, и длина эта была уже такова, что ценную находку в среднем приходилось ждать полгода, хотя импульс перемещался со скоростью света...
          Из «Осмотра на месте» Лема.
            +2
            ага, это называтся text mining и статей по этой тематике пруд пруди.
            неоднократно показано, что аккуратность аннотирования биологической информации около 50%.
            единственный способ поменять ситуацию — заставить биологов\химиков публиковать результаты с учетом онтологий, с четкими правалами взаимодействия.

            чтобы не быть голословным
            www.ncbi.nlm.nih.gov/pubmed/?term=%22text+mining%22
              +9
              млин, киназа — это она, женского рода! и далеко не все белки, взаимодействующие с p53, являются киназами. Я уж не говорю о том, что в русском языке более принято говорить «ферменты», а не «энзимы», и «белки», а не «протеины».
                +7
                Статья обещала потрясающее ночное чтение, а оказалась обычной новостью. Расстроили немного :)
                  0
                  Осталось только в ГОСТ Р 15.011-96 ПАТЕНТНЫЕ ИССЛЕДОВАНИЯ И ПОИСК НАУЧНОЙ ИНФОРМАЦИИ внести соответствующий пункт по использованию майнинга. Если документ 96 года, изменения госта можно ожидать к 2030 году…
                    0
                    К вопросу о предсказаниях:
                    ===cut===
                     Все свое отпускное время Аганн проводил в постоянных разъездах, но очень однообразно.
                    — То есть?
                    — В одном из агентств объединения «Глобус» он заказывая туристский литер на посещение нескольких, но всякий раз одних и тех же городов. Свой турвояж неизменно начинал и завершал в Торонто.
                    — Список всех городов! — потребовал Гэлбрайт.
                    На голубом поле экранной стены промелькнул сверкающий зигзаг, и рядом с кругом цветной диаграммы появилась новая колонка текста:

                    г. Торонто — Элдер
                    г. Буэнос-Айрес — Джанелла
                    г. Киев — Бакулин
                    г. Суздаль — Асеев
                    г. Иркутск — Михайлов
                    г. Симода — Накаяма
                    г. Торонто — Элдер

                    — В чем дело?! — Гэлбрайт даже привстал.
                    — Сработал синтез-блок совпадений… — Купер пожал плечами. Теперь, оглядывая экраны операторской, он довольно-таки энергично вертел головой. Тишина в раут-холле стала почти осязаемой. — Ах, вот оно что! Ну понятно!..
                    — Мы охотно разделим с вами ваш восторг, — прошипел Гэлбрайт.
                    — Аганн посещал родные города погибших десантников, шеф…
                    ===cut===
                    ©«Лунная Радуга».

                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                    Самое читаемое