Аналитический центр red_mad_robot собрал для вас главное, что нужно знать о Нобелевской премии 2024 по физике.
Нобелевский комитет наградил премией по физике учёных, которые использовали фундаментальные физические принципы для развития машинного обучения. Благодаря этому алгоритму AI сможет обучаться и совершенствоваться самостоятельно — без помощи человека. Рассказываем, насколько сильно связаны физика и ML, какое будущее у нейросетей в исследованиях материи и в чём суть метода, принесшего Хинтону и Хопфилду награду.
Хопфилд разработал «ассоциативную память». Этот метод позволяет восстанавливать даже частично искажённые изображения или другие виды данных.
Хинтон создал нейросеть на идеях Хопфилда и «машины Больцмана». Она способна распознавать ключевые элементы на изображениях.
Нобелевский комитет считает, что нейросети найдут своё применение в других направлениях физики: прогнозировании свойств молекул и материалов, разработке солнечных батарей, измерении гравитационных волн от столкновения черных дыр или, например, поиске экзопланет.
Влияние физики на машинное обучение
На первый взгляд физика и ML могут показаться двумя совершенно разными областями: одна занимается пониманием фундаментальных законов природы, а другая — обучением машин на основе данных. Однако физика дала несколько ключевых концепций, которые заложили основу для современного машинного обучения, например, для проектирования и разработки искусственных нейронных сетей. Ниже примеры, как фундаментальные концепции в физике, которые использовались в работах Хопфилда и Хинтона, повлияли на развитие ML.
Статистическая физика
Статистическая физика — её, кстати, использовал Хинтон — рассматривает системы, состоящие из множества взаимодействующих компонентов. Она обеспечивает теоретическую основу для понимания поведения больших сложных систем, таких как газы или жидкости. Раннее развитие искусственных нейронных сетей было в значительной степени вдохновлено этой областью.
В 1940-х годах исследователи, в том числе физики, начали моделировать работу мозга, математически представляя нейроны и синапсы. Эта ранняя работа заложила основу для создания искусственных нейронных сетей, которые мы используем сегодня. Человеческий мозг представляет собой сложную систему взаимосвязанных нейронов, а поведение таких систем можно смоделировать с помощью уравнений из статистической физики.
Тогда учёные воспринимали технологию нейросетей как аналог структуры биологических нейронных связей. И на помощь математическим методам пришла нейробиология с идеей об укреплении связей нейронов при их взаимодействии: в искусственной нейросети нейроны представлены узлами, имеющими разные значения. Эти узлы влияют друг на друга через связи — условные синапсы — которые можно сделать сильнее или слабее. Сеть обучается, например, путём развития более сильных связей между узлами с одновременно высокими значениями.
Энергетические ландшафты
Концепция энергетических ландшафтов помогает понять, как системы переходят из одного состояния в другое. В машинном обучении эта аналогия используется для описания перемещения алгоритма по пространству возможных решений (состояний) в поисках наилучшего решения (состояния с наименьшей энергией).
При обучении нейронных сетей исследователи часто стремятся минимизировать ошибки, и этот процесс можно представить в виде ландшафта с холмами (высокая ошибка) и долинами (низкая ошибка). Алгоритмы, подобные градиентному спуску, опираются на этот энергетический ландшафт, чтобы найти «минимум» (наилучшее решение).
Хороший примером этого процесса — сеть Хопфилда. Она находит оптимальную конфигурацию, постоянно обновляя своё состояние до тех пор, пока дальнейшее снижение энергии не станет невозможным. Это отражение перехода физических систем в состояние с минимальной энергией.
Теория хаоса
Теория хаоса показывает, что даже небольшие изменения начальных условий приводят к совершенно разным результатам. Она имеет большое значение для прогнозного моделирования в ML.
Теория хаоса помогает объяснить, почему некоторые системы чувствительны даже к небольшим колебаниям и трудно предсказуемы в долгосрочной перспективе. В ML модели, работающие с хаотическими системами, например, прогнозы погоды или фондового рынка, должны учитывать подобную непредсказуемость.
Передовые методы ML, такие как рекуррентные нейронные сети (RNN), которые похожи на сеть Хопфилда и сеть Хинтона, и модели с долговременной памятью (LSTM), особенно хорошо подходят для прогнозирования в хаотических системах, поскольку созданы для работы с последовательными, зависящими от времени данными.
Джон Хопфилд: ассоциативная память
Сеть Хопфилда использует физику материала, а точнее — атомного спина. Сеть описывается способом, эквивалентным описанию энергии в спиновой системе и обучается с помощью поиска значений для связей между узлами, так что сохраненные изображения имеют низкую энергию.
Когда сеть Хопфилда получает искаженное или неполное изображение, она методично проходит через узлы и обновляет их значения, так что энергия сети падает. Таким образом, сеть работает поэтапно, чтобы найти сохраненное изображение, которое больше всего соответствует заданному.
Проще говоря, сеть может сохранять и воспроизводить изображения и другие типы паттернов аналогично работе человеческого мозга. Она основана на идеях статистической механики, в частности на том, как системы с большим количеством частиц могут демонстрировать коллективное поведение. Сеть хранит паттерны так же, как мозг хранит ассоциативные воспоминания, позволяя извлекать целые воспоминания из частичных или зашумлённых данных.
Как работает сеть Хопфилда
Хопфилд описал модель памяти, которая обращается к своему содержимому, используя алгоритм асинхронной параллельной обработки данных. Он использовал параллель с физическими свойствами магнитных материалов. Они обладают особыми характеристиками благодаря своему атомному спину, который делает каждый атом крошечным магнитом. Спины соседних атомов влияют друг на друга, что позволяет им вращаться в одном и том же направлении.
Сеть, построенная Хопфилдом, состоит из узлов с разным весом. Каждый узел может хранить индивидуальное значение — либо 0, либо 1, как пиксели на чёрно-белой картинке.
Сеть обучается путём последовательного вычисления значений веса, чтобы прийти к состоянию равновесия. Это значение определяется эквивалентом физической «энергии», который зависит от веса всех элементов в системе. Сеть ищет минимума «энергии», при котором она «запомнила» определённый шаблон. Если при прохождении узла это значение уменьшается, то черный пиксель становится белым или наоборот. Когда цель достигнута, сеть воспроизводит исходное изображение, на котором её обучали. Если образ немного исказить и подать на вход сети, то он тоже будет восстановлен.
Метод Хопфилда особенный, ведь с его помощью сеть может отличать несколько одновременно сохраненных изображений. Хопфилд сравнил поиск сохраненного состояния в сети с катанием мяча по ландшафту, состоящему из пиков и долин, сила трения которых замедляет движение мяча. Если бросить мяч в определённом месте, он скатится в ближайшую долину и остановится там. Если сети дать паттерн, близкий к одному из сохраненных, она точно так же продолжит двигаться вперёд, пока не окажется на дне долины в ландшафте, запомнив таким образом ближайший паттерн.
Такую сеть можно называть рекуррентной. Она перенаправляет информацию туда и обратно по слоям, пока не получат конечный результат. Сеть Хопфилда подходит для воссоздания данных, которые содержат шум или были частично стерты.
Джеффри Хинтон: нейросеть на основе идеи Хопфилда и машины Больцмана
Джеффри Хинтон решил использовать изобретение Хопфилда в качестве основы для новой нейросети, использующей другой метод: машину Больцмана. Это позволило бы ей автономно находить свойства данных и идентифицировать определённые элементы на изображениях. Для развития новой нейросети Хинтон также использовал методы из статистической физики — науки о системах, построенных из множества одинаковых элементов.
Как работает нейросеть Хинтона
Сеть обучается не на инструкциях, а на примерах, которые с большой вероятностью возникнут при её запуске. Если в процессе обучения один и тот же паттерн повторяется несколько раз, вероятность его появления становится ещё выше.
Обучение также влияет на вероятность вывода новых паттернов, похожих на примеры из тренировок машины. Обученная машина может распознавать знакомые паттерны в информации, которую она ранее не видела. Например, вы встретили брата или сестру друга, и вы сразу поймёте, что они должны быть родственниками. Аналогичным образом машина может распознать совершенно новый пример, если встречала подобную категорию в обучающем материале, а также отличить его от примера из другой категории.
Источники
https://www.nobelprize.org/uploads/2024/09/advanced-physicsprize2024.pdf
https://www.nobelprize.org/uploads/2024/10/popular-physicsprize2024.pdf
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC346238/pdf/pnas00447-0135.pdf
https://www.researchgate.net/publication/242509302_Learning_and_relearning_in_Boltzmann_machines