Физики строят нейронные сети из вибраций, напряжений и лазеров. Они утверждают, что будущее вычислений заключается в использовании сложного физического поведения Вселенной. Подробностями делимся к старту флагманского курса по Data Science.
Внутри ящика со звукоизоляцией — одна из худших во всём мире нейронных сетей. Когда ей представляют изображение числа 6, она останавливается на мгновение и определяет цифру — 0. Руководитель разработки этой сети — физик-инженер из Корнельского университета Питер МакМахон с робкой улыбкой защищает её. Он указывает, что написанное от руки число выглядит неаккуратно. А Логан Райт — постдокторант, посетивший лабораторию МакМахона из NTT Research, уверяет, что обычно устройство отвечает верно, но признаёт, что ошибки случаются часто.
Эта нейронная сеть — новаторская, несмотря на неутешительную производительность. Другие нейросети работают в цифровом мире нулей и единиц, но это устройство работает на звуке. Исследователи переворачивают ящик — и обнаруживают не компьютерный чип, а микрофон с наклоном к титановой пластине, которая прикручена к динамику. Когда Райт воспроизводит новое изображение цифры, пиксели преобразуются в звук, и, когда динамик трясёт пластину, лаборатория наполняется слабым дребезжанием. Чтение выполняет не программное обеспечение на кремниевом чипе, а металлические реверберации. Даже разработчикам устройства не верится, что оно часто работает с успехом.
«Каким бы ни было назначение вибрирующего металла, оно не должно иметь ничего общего с классификацией рукописной цифры», — отмечает МакМахон.
Примитивная способность устройства к чтению, которую эта группа учёных представила в январской статье Nature, даёт учёным надежду, что далёким потомкам по силам будет совершить революцию в вычислительной технике.
Cпециалисты в компьютерной науке находят, что больше — значит лучше, когда речь идёт о традиционном ML. Наполнение сети большим количеством хранящих числа искусственных узлов улучшает её способность отличить таксу от далматина или преуспевать во множестве других задач распознавания образов. Потрясающие нейронные сети справляются с различными задачами — сочиняют эссе и создают иллюстрации. С большей вычислительной мощью возможными могут стать ещё более грандиозные подвиги. Этот потенциал мотивировал большие усилия по разработке мощных и эффективных методов вычислений.
МакМахон и группа его единомышленников отстаивают неортодоксальный подход. Они хотят заставить Вселенную считать за нас. «Многие физические системы естественным образом выполняют некоторые вычисления эффективнее или быстрее компьютерных вычислений», — сказал МакМахон. Когда инженеры проектируют самолёт, они могут оцифровывать чертежи и часами работать на суперкомпьютере, моделировать обтекание крыльев воздухом. Или поместить машину в аэродинамическую трубу и посмотреть, полетит ли она. Аэродинамическая труба мгновенно «рассчитывает» взаимодействие крыльев с воздухом.
Такие исследователи, как МакМахон, ищут устройство, способное научиться делать что угодно, — систему, которая может адаптировать поведение путём проб и ошибок, чтобы приобрести любую новую способность, например, классифицировать рукописные цифры или отличать одну произносимую гласную от другой. Недавняя работа показала, что физические системы, такие как волны света, сети сверхпроводников и ветвящиеся потоки электронов, способны к обучению.
«Заново изобретается не только аппаратное обеспечение, но и вся вычислительная парадигма», — рассказывает математик из Швейцарского федерального технологического института в Цюрихе Бенджамин Селье который помог в разработке нового алгоритма обучения на основе физики.
Учимся размышлять
Примерно десять лет назад с обучением хорошо справлялся только мозг. Именно структура мозга отчасти вдохновила учёных-компьютерщиков на разработку самых популярных моделей искусственного обучения — глубоких нейронных сетей.
Когда хочется, чтобы сеть считывала цифру 4, вы заставляете первый слой нейронов представлять необработанное изображение этой цифры, возможно, с сохранением оттенка каждого пикселя как значения соответствующего нейрона. Затем сеть «размышляет» — перемещает слой за слоем, умножает значения нейронов на синаптические веса, чтобы заполнить следующий слой. Нейрон с наибольшим значением в последнем слое указывает на ответ сети: если это второй нейрон, сеть предполагает, что увидела цифру 2.
Чтобы научить сеть делать разумные предположения, алгоритм работает и в обратном направлении. После каждого испытания он вычисляет разницу между предположением и правильным ответом. В примере это представлено большим значением четвёртого нейрона последнего слоя и небольшим значениями в других местах. Затем алгоритм слой за слоем проходит через сеть и вычисляет, как настроить веса, чтобы по мере необходимости значения конечных нейронов увеличивались или уменьшались. Эта процедура известна как обратное распространение, именно она лежит в основе глубокого обучения.
Спустя множество повторений «угадай-и-подгони» обратное распространение направляет веса к вариациям чисел, которые через каскад инициированных изображением умножений выдают записанную цифру.
Но по сравнению с происходящим в мозгу цифровое обучение в искусственных нейросетях выглядит крайне неэффективной. Ребёнок потребляет меньше 2000 калорий в день, и за несколько лет учится говорить, читать, играть и ещё много чему. При столь ограниченной диете, чтобы научиться общаться, революционной GPT-3 потребуется 1000 лет.
На взгляд физика большая цифровая нейросеть выполняет слишком много математических операций: гиганты обрабатывают более полутриллиона чисел — Вселенная же постоянно выполняет задачи далеко за пределами скудных вычислительных возможностей компьютеров. В комнате могут перемещаться триллионы триллионов молекул воздуха и это — невозможное для компьютера количество движущихся частей. Он не отследит столкновения в полноценной симуляции, а ведь у самого воздуха нет проблем с тем, как себя вести.
Наша задача — построить физические системы, естественным образом реализующие оба необходимых ИИ процесса:
«мышление», связанное, например, с классификацией изображений;
«обучение», необходимое для правильной классификации изображений.
Система, которая справится с этими задачами, будет использовать способность Вселенной действовать математически, не занимаясь математикой на самом деле.
«Мы не вычисляем 3,532 [знак умножения] 1,567 или что-то в этом роде, — рассказывает Селье. — Это делается неявно, просто по законам физики напрямую».
Размышления
МакМахон и его коллеги добились прогресса в «мыслительной» части головоломки.
Создавая лабораторию в Корнелле в последние перед пандемией месяцы, МакМахон обдумывал любопытное открытие. Многие годы самые эффективные нейросети распознавания изображений становились всё глубже, иными словами, сети с большим количеством слоёв лучше справляются с набором пикселей и маркировкой, (например, «пудель»). Эта тенденция вдохновила математиков на изучение преобразования из пикселей в «пуделя», которого достигают сети, и в 2017 году несколько групп предложили, что сети действуют как приближённые версии гладкой математической функции. Математическая функция преобразует входные данные (часто это положение точки вдоль оси x) в выходные — значение y или высоту кривой в данной точке. В нейросети определённого типа, чем больше слоёв, тем лучше по той причине, что функция приближается к некоей идеальной кривой.
Исследование заставило МакМахона задуматься: возможно, с плавно меняющейся физической системой можно обойти присущую цифровому подходу блочность.
Здесь хитрость — найти способ приручить сложную систему, адаптировать её поведение с помощью обучения. И МакМахон с командой выбрали титановую пластину, потому что многочисленные модели её вибраций смешивают входящий звук замысловатым образом. Учёные ввели в систему звук, кодирующий входное изображение — написанную от руки цифру 6. Другой звук представляет синаптические веса; пики и провалы, необходимые для удара по титановой пластине в нужный момент. Устройство объединяет звуки и даёт ответ — например, новый звук, самый громкий на шестой миллисекунде, что соответствует цифре «6».
Группа также реализовала схему в оптической системе, где входное изображение и веса кодируются двумя лучами света, которые смешиваются с помощью кристалла, и в электронной схеме, способной аналогичным образом перетасовывать входные данные. В принципе, подойдёт любая система с «византийским» [произвольным] поведением, хотя исследователи считают, что оптическая система имеет особые перспективы. Мало того, что кристалл может очень быстро смешивать свет, свет также содержит много данных о мире. МакМахон воображает, что миниатюрные версии его оптической нейронной сети будут служить глазами беспилотных автомобилей, определять знаки остановки и пешеходов до передачи этой информации на компьютерный чип автомобиля, как сетчатка выполняет простую обработку падающего света.
Однако вот ахиллесова пята этих систем: обучение требует вернуться в цифровой мир. Обратное распространение включает запуск нейронной сети в обратном направлении, но пластины и кристаллы разделяют звуки и свет не сразу. Поэтому группа построила цифровую модель каждой физической системы. Развернув эти модели на ноутбуке, они могли использовать алгоритм обратного распространения ошибки, чтобы рассчитать, как скорректировать веса для получения точного ответа.
Благодаря обучению тарелка научилась правильно классифицировать рукописные цифры в 87% случаев. Схема и лазер достигли точности 93 и 97% соответственно. Результаты показали, что «с помощью обратного распространения можно обучать не только стандартные нейронные сети», — рассказывает Жюли Гролье, физик из Французского национального центра научных исследований (CNRS). — Это красиво».
Дрожащая металлическая пластина ещё не приблизила вычисления к шокирующей эффективности мозга или даже к скорости цифровых нейросетей. Но МакМахон считает свои устройства поразительным, хотя скромным, доказательством, что для размышлений вам не нужен мозг или компьютерный чип. «Любая физическая система может быть нейронной сетью», — считает он.
Обучение
Есть много идей о другой половине головоломки: как заставить систему учиться самостоятельно.
Физик из Института науки о свете им. Макса Планка в Германии Флориан Марквардт считает, что один из вариантов — построить машину, работающую в обратном направлении. В прошлом году он и его коллега предложили физический аналог алгоритма обратного распространения ошибки, который способен работать в такой системе.
В цифровом виде они смоделировали лазерную установку, похожую на установку МакМахона, с регулируемыми весами, закодированными в световой волне, которая смешивается с другой входной волной и кодирует, к примеру, изображение. Они подталкивают вывод, приближая его к правильному ответу, и для разделения волн используют оптические компоненты, обращая процесс вспять. «Магия, — рассказывает Марквардт, — в том, что, когда вы ещё раз пробуете устройство с тем же входом, [выход] имеет тенденцию быть ближе к тому, где хочется его видеть». Затем они сотрудничают с экспериментаторами для создания такой системы.
Но сосредоточение внимания на работающих в обратном направлении системах ограничивает возможности, поэтому другие исследователи полностью отказываются от обратного распространения. Их воодушевляет знание о том, что мозг обучается другим способом.
Нейрон А общается с нейроном Б, «но это только в одну сторону».
Физик из Французского национального центра научных исследований Жюли Гролье реализовала алгоритм обучения на основе физики, который рассматривается как многообещающая альтернатива обратному распространению ошибки.
В 2017 году Селье и специалист по информатике из Университета Монреаля Йошуа Бенжио разработали метод однонаправленного обучения — равновесное распространение. Представьте сеть действующих как нейроны стрелок, направление которых указывает на 0 или 1. Эти стрелки соединяются в сетку пружинами — синаптическими весами. Чем слабее пружина, тем слабее стремятся совпасть направлением связанные стрелки.
Вы крутите в самом левом ряду, чтобы они отражали пиксели рукописной цифры. Держите их неподвижными, пока возмущение распространяется по ним и переворачивают другие стрелки. Когда поворачивание прекращается, крайние правые стрелки дают ответ от нейросети.
Необходимо отметить, что не нужно тренировать эту систему, переворачивать стрелки. Вы соединяете другой набор стрелок, которые показывают правильный ответ, вдоль нижней части сети; эти перевёрнутые стрелки в верхнем наборе, и вся сетка приходит в новое равновесие. Новая ориентация стрелок сравнивается со старой и каждая пружина затягивается или ослабляется соответствующим образом. В ходе многих испытаний пружины приобретают более подходящее натяжение — и это, как показали Селье и Бенжио, эквивалентно обратному распространению.
«Считалось, что между физическими нейронными сетями и обратным распространением нет никакой возможной связи, — рассказывает Гролье. — Совсем недавно мнение изменилось, и это очень интересно».
Первая работа по равновесному распространению была полностью теоретической. Но в предстоящей публикации Гролье и физик из CNRS Жереми Лейдевант описывают выполнение алгоритма на созданной компанией D-Wave машине, называемой квантовым отжигом. Аппарат имеет сеть из тысяч взаимодействующих сверхпроводников, которые могут действовать как связанные пружинами стрелки и естественным образом рассчитывать, как должны обновляться «пружинки». Однако система не может обновлять эти синаптические веса автоматически.
Круг замыкается
По крайней мере одна команда построила электронную схему, которая выполняет всю тяжёлую работу — размышляет, обучается и обновляет веса — с помощью физики. «Нам удалось замкнуть цикл для небольшой системы, — рассказал физик из Пенсильванского университета Сэм Диллаву.
Цель Диллаву и его группы — имитировать мозг, в буквальном смысле разумную субстанцию, то есть относительно однородную систему, которая обучается без управляющей действиями единой структуры. «Каждый нейрон занимается своим делом», — говорит он.
С этой целью они построили самообучающуюся схему, в которой переменные резисторы действуют как синаптические веса, а нейроны — это напряжения между резисторами. Чтобы классифицировать вход, он переводит данные в напряжения, которые применяются к нескольким узлам. Ток течёт по цепи в поисках путей, рассеивающих как можно меньше энергии, и изменяет напряжение по мере стабилизации. Ответ от сети — напряжение на указанных выходных узлах.
Главное нововведение вступает в игру на сложном этапе обучения, для которого учёные разработали схему, аналогичную равновесному распространению, — парное обучение. Когда одна схема получает данные и «придумывает» предположение, идентичная ей вторая схема начинает с правильного ответа и включает его в своё поведение. Соединяющая каждую пару резисторов электроника автоматически сравнивает их значения и настраивает конфигурацию точнее.
Прошлым летом группа описала свою элементарную схему в препринте. Учёные показали, что она может научиться различать три типа цветов с точностью 95%. Теперь команда работает над ускоренным и более функциональным устройством.
Даже это новшество не сможет превзойти современный кремниевый чип. Но создающие эти системы физики подозревают, что цифровые нейронные сети — какими бы мощными они ни казались сегодня — будут медленными и неадекватными по сравнению со своими аналоговыми родственниками. Цифровые нейронные сети могут масштабироваться лишь до тех пор, пока не увязнут в чрезмерных вычислениях, но физическим сетям крупнее не нужно делать ничего, кроме как быть самими собой.
«Это такая большая, динамично развивающаяся и разнообразная область; мне трудно поверить, что на этих принципах не появятся достаточно мощные компьютеры», — делится мнением Диллаву.
А пока нейросети становятся аналоговыми, мы поможем вам прокачать навыки или с самого начала освоить профессию, актуальную в любое время:
Выбрать другую востребованную профессию.