Машинное обучение и главные вопросы мира, вселенной и всего такого

    Что-то вроде тизера. Без машинного обучения и анализа данных, учёные бы искали бозон Хиггса до сих пор. Тёмную материю тоже можно искать с помощью машинного обучения, и вообще для решения оставшихся перед нами загадок Вселенной, похоже, «старой-доброй» физики маловато.




    Этот пост написан по мотивам эпизода подкаста «Проветримся!». В нём я поговорил с Андреем Устюжаниным, руководителем лаборатории машинного обучения «Лямбда» в ВШЭ.

    Сотрудники лаборатории «Лямбда» применяли машинное обучение к физическим задачам задолго до того, как это стало мейнстримом. Первые совместные проекты начались ещё в 2011 году, а спустя год сотрудничество с ЦЕРНом начал «Яндекс». Компания сначала подключилась к эксперименту LHCb (так называется самый маленький детектор Большого адронного коллайдера, который исследует асимметрию материи и антиматерии, в 2015 году с его помощью открыли пентакварки). Основным фокусом совместной лаборатории ВШЭ и Яндекса стало применение методов машинного обучения в решении фундаментальных задач естественных наук. Начать решили с физики и не прогадали, — ИИ оказался там чрезвычайно полезен. Сейчас сотрудники «Лямбды» работают сразу с несколькими физическими экспериментами: их методы применяются в анализе данных телескопа Ферми, а также в проекте создания нового поколения инструментов для исследования космоса – Cherenkov detector, или Cherenkov telescope array.

    Кроме того, стало понятно, что если ты умеешь применять машинное обучение в физике, то до химии или биологии тебе буквально рукой подать. Так, в 2019 году «Лямбда» вела совместный проект с лабораторией популяционной геномики ВШЭ, ранее – с нейробиологическим центром, обрабатывая данные, полученные с помощью энцефалограммы мозга, и изучая особенности эмоционального состояния человека.

    Наука о данных и Большой Адронный Коллайдер


    Эксперименты в ЦЕРНе – самый крупный проект в резюме ребят из «Лямбды», а может и вообще в истории науки. Главной задачей, для которой построили БАК, было найти бозона Хиггса – частицу, отвечающую за гравитационное взаимодействие. Британский физик Питер Хиггс теоретически обосновал существование бозона, который назвали в его честь, ещё в шестидесятые. Проблема была в том, что обнаружить такой бозон в ходе эксперимента. Собственно, описать подобный эксперимент значительно проще, чем поставить: идея в том, чтобы разогнать и столкнуть пучки протонов. При столкновении лоб в лоб на околосветовых скоростях протоны разваливаются на кучу частиц. Экспериментатору остаётся «ловить» нужные частицы и пытаться измерить их свойства. Вокруг точек столкновения строятся сложные чувствительные элементы, чем-то похожие на матрицу современных фотоаппаратов, только реагируют они на единичные элементарные частицы, и пытаются реконструировать объёмную картинку столкновения.

    Помимо чисто технических проблем с постановкой такого эксперимента возникают и вычислительные трудности. Детекторы генерируют очень много данных. ОЧЕНЬ МНОГО. Чтобы хранить что-то потенциально новое и интересное и не тратить время на частицы, которые детектор видел миллионы раз, нужна система быстрой фильтрации. Она использует машинное обучение. Однако, после того, как данные получены, их надо обработать: восстановить траекторию движения, смоделировать событие, породившее зарегистрированную частицу. Сейчас машинное обучение используется практически на каждом этапе работы с информацией в БАК – от её детекции до фильтрации, переработки и анализа.

    Как сделать научное закрытие?


    Академику Капице приписывают афоризм: «когда теория совпадает с экспериментом это уже не открытие, а закрытие». В некотором смысле, БАК занимается именно «закрытиями». У исследователей есть какая-то модель того, что они ищут, какое-то теоретическое описание процессов, которые эксперимент пытается воспроизвести. Иногда, как в случае с бозоном Хиггса, теория утверждает, что какой-то объект существует, но никому раньше зарегистрировать его не удавалось. В других исследованиях, существование объекта установлено, но нужно измерить его свойства, которые ранее никто не измерял. За годы работы БАК практически все поставленные эксперименты легли в рамки стандартной модели. Это само по себе удивительно и в каком-то смысле является отдельным открытием: стандартная модель, сформулированная ещё в семидесятых годах двадцатого века, внезапно является достаточно точным описанием микромира.

    Когда речь идёт о быстрой обработке огромного потока данных, который нужно соотнести с некоторым модельным описанием, машинное обучение оказывается незаменимым. Детекторы, расположенные в БАКе, собирают информацию о происходящем при столкновении частиц, а наука о данных позволяет выделить из большого облака частицы, которые кажутся наиболее интересными, проанализировать полученную информацию и рассчитать достоверность проверяемой гипотезы. На выходе можно получить несколько разных ответов:

    • Это что-то, что мы уже видели, но не то, что мы искали. Суровые будни работника коллайдера продолжаются;
    • Это что-то новенькое, но не то, что мы искали. Давайте посмотрим на это событие внимательнее;
    • Это то, что мы искали! Ура! Закрытие!

    Citizen science


    Часто самая сложная часть задачи – верно подобрать стартовые значение параметров, которые позволили бы симулировать происходящее при эксперименте. Если модель правильно инициализировать, то она обучится и позволит улучшить итоговую точность расчётов. Если начальные параметры подобраны плохо, то от машинного обучения толку не будет. Такого рода проблемы регулярно возникают в задачах квантовой физики, к примеру, если хочется моделировать кубит квантового компьютера.

    Я не верил в существовании интуиции, пока не попал в Хельсинки на квантовый Game Jam. Само мероприятие достойно отдельного поста, суть его в том, что несколько команд разработчиков за выходные собирают прототипы игр с квантовыми эффектами, используя для этого, к примеру, API квантового компьютера от IBM. Одна из организаторов мероприятия, профессор Сабрина Манискалко рассказала, чем игры с квантовыми эффектами могут быть полезны современной науке. Оказалось, люди методом проб и ошибок неплохо подбирают примерные параметры инициализации квантовой системы, а модели машинного обучения могут потом улучшить это решение. Люди сами при этом могу не вдаваться в детали квантовой системы, поведение которой для них симулирует игра. Они просто пытаются закинуть овощ в корзину или попасть в мишень, просто овощи и стрелы на экране мобильного ведут себя странновато.

    Это один из примеров Citizen science. Это движение особенно популярно в Скандинавии. Суть его в том, что раз ты, учёный, живёшь на деньги налогоплательщиков, так что неплохо бы объяснять гражданам (желательно на доходчивых примерах), чем именно ты занимаешься, и зачем это нужно. Если ты можем привлекать людей к своей работе, — это вообще прекрасно. Ребята «Лямбды» тоже популяризируют свою работу: ведут инстаграм, адаптируют свою работу для понимания студентов, которые только начинают разбираться в машинном обучении и могут применить его к задачам из физики, астрофизики или других наук.

    Жизнь после коллайдера


    Машинное обучение приносит пользу учёным не только в ЦЕРНе. К примеру, с его помощью можно искать экзопланеты: когда планета пересекает прямую, соединяющую звезду, вокруг которой она вращается, и землю, с которой мы на эту звезду смотрим, то светимость звезды немного снижается. Разрешающей способности наших телескопов не хватит, чтобы «увидеть» планету, но вот снижение яркости той или иной звезды мы заметить можем. Если прогнать через алгоритм анализа данных сотни часов наших наблюдений за звёздным небом, то по периодическому снижению светимости, алгоритм найдёт звёзды, вокруг которых вращаются планеты.

    От задач «планетарного» масштаба можно перейти к масштабу «галактическому». Дело в том, что вселенная расширяется, причём с ускорением. Для того, чтобы такое поведение вселенной сходилось с имеющимися у нас представлениями, о том, как устроен мир, где-то во вселенной должен быть спрятан большой запас массы. Именно эту не найденную материю и называется тёмной. Причём, по расчётам к данному моменту человечество изучило информацию только о 5 % массы Вселенной.

    Мы видим, что звёзды на периферии вращаются примерно с той же угловой скоростью, что и звёзды в центре галактик, а это противоречит тому, что мы знаем о физике. Можно представить себе видимые звёзды как шоколадные кусочки в печенье. Есть огромное печенье, там мука, тесто, сахар и прочее, всё это вращается, и мы видим только шоколадные кусочки, но теста мы не видим. Тёмная материя — это какая-то странная субстанция, которая просто гравитационно держит звёзды, не даёт им отставать от всего остального вращения галактики.

    Вопрос заключается в том, сколько тёмной материи в каких областях накоплено и насколько структура галактики соответствует текущему представлению о структуре Вселенной. Сейчас ребята используют алгоритмы машинного обучения, чтобы оценить массы скопления галактик. Если мы правильно оценим распределение массы во Вселенной, то сможем лучше понять, что происходило в первые мгновения после Большого взрыва. Возможно, это даст нам подсказку, что же такое тёмная материя, и где её искать.



    image


    SkillFactory
    Школа Computer Science. Скидка 10% по коду HABR

    Комментарии 9

      +3
      оставшихся перед нами загадок Вселенной

      Вы так говорите, как будто их осталось всего-ничего :). Вообще есть мнение, что абсолютную истину постичь в принципе невозможно.
        +3
        По легенде, когда Планк думал заниматься физикой или стать пианистом, его учитель физики посоветовал ему идти в музыку. Сказал, что физика, как наука почти закончилась, осталось буквально пара-тройка вопросов, которые решат в ближайшее время. Планк заинтересовался одним из этих вопросов — ультрафиолетовой катастрофой. Что из этого получилось, мы все знаем.

        Так что такой подход к физике даёт неплохой фокус будущим учёным.
          +2

          Нам лектор в институте рассказывал другую версию легенды:
          На лекции Максвелла он рассказывал, что физика почти кончилась, осталось всего две проблемы — спектры водорода и опыт Майкельсона по измерению скорости света. И что 20 лет максимум и они бдут решены. В итоге одна проблема породила квант мех, а вторая ОТО.

          0
          да там осталось одна, две загадки и все, что уж тут, мелочь
          +2
          «Детекторы генерируют очень много данных. ОЧЕНЬ МНОГО. Чтобы хранить что-то потенциально новое и интересное и не тратить время на частицы, которые детектор видел миллионы раз, нужна система быстрой фильтрации. Она использует машинное обучение.»

          «За годы работы БАК практически все поставленные эксперименты легли в рамки стандартной модели. Это само по себе удивительно и в каком-то смысле является отдельным открытием: стандартная модель, сформулированная ещё в семидесятых годах двадцатого века, внезапно является достаточно точным описанием микромира.»

          Не могло ли случиться так, что обученная система делает закрытия чаще, чем надо, вместе с водой выливая младенца? Тогда всё закономерно сходится. Но ведь иногда и минус на минус даёт плюс.
            +1
            Очень крутая мысль! Главное, её даже экспериментально проверить можно. Насколько мне известно, целенаправленные попытки поставить эксперимент, который бы противоречил стандартной модели, ведутся постоянно, но результатов пока нет.
              +1
              Да, но судя по предыдущим публикациям из-за огромного количества данных с разных экспериментов пишется что-то около 5% данных для экономии на системах хранения, да и не успевали бы видимо писать всё. Даже эти 5% расшифровывают небыстро. Что если через годы после закрытия БАК в них найдутся-таки интересенки, которые захочется проверить, а БАКа то и не будет в доступности, как и полного лога экспериментов.
              По аналогии с добычей полезных исчерпаемых — вначале добывается голова залежи, самое жирное и легкодобываемое, потом по мере обеднения месторождения и улучшения технологии выедается тело, позже возможно обрабатывается хвост в накопленных терриконах, если сырьё редкое или технология доросла и сделала обогащение целесообразным.
              В данном же случае хвост может быть интереснее головы.

              Ещё пример — недавнее фото чёрной дыры, расположенной в 50 миллионах световых лет от нас, полученное с помощью интерферометра, объединившего 10 телескопов по всей Земле и на орбите. Учёные кропотливо синхронизировали системы, собирали данные, боясь упустить крохи информации, которых не хватит для сборки результата, и всё вслепую, т.к. результат появился бы только в постобработке, через продолжительное время, со всеми предосторожностями собрав все накопители и обработав данные.
              Картинка не сразу, но сошлась, пришлось подбирать параметры ядра обработки, но они знали, что предполагают увидеть, и когда мозаика собралась, сразу поняли, что это именно оно.
                +1

                очень может быть, что появится что-то вроде цифровой археологии, только для разных наук. В частности, будут «цифровые археологи БАК», которые будут искать в данных, накопленных за годы экспериментов что-то принципиально новое. Может, и найдут.

                  +1
                  Время и технологии не стоят на месте. Сейчас скорость и объём записи ограничивается физическими характеристиками накопителей. Возможно, что-то интересное отфильтровывается, но шанс этого не особо большой. Я надеюсь, что вскорости данные экспериментов будут записываться в полном объёме, ну или в более полном, чем сейчас. Кроме того, БАК модернизируется постоянно на всё более высокую светимость и вполне вероятно, что отклонения от стандартной модели мы найдём там, на расстояниях более приближенный к планковским. В любом случае, если БАКа уже не будет, то будет другой инструмент, на котором, в том числе, можно будет проверить те недостающие 95% данных

            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

            Самое читаемое