Pull to refresh

Extropic: Добро пожаловать в Термодинамическое Будущее (перевод)

Level of difficultyMedium
Reading time11 min
Views5.6K
Original author: Guillaume Verdon, Trevor McCourt

Всем привет, Меня зовут Богдан Печёнкин. Я соавтор Симулятора ML на Karpov.Courses и фаундер AI Dating Copilot стартапа Adam. Подробнее о том и о том можно узнать в Моём Telegram-блоге BOGDANISSSIMO. Возможно вы Меня уже знаете по публикациям "10 ошибок начинающего ML инженера" и "Почему анализ ошибок – начало разработки ML системы, а не её конец?".

Вчера вечером Мне на глаза попалась одна новость от компании Extropic с новостями из мира квантовых компьютеров, которую Мне захотелось перевести.

Extropic - лаборатория, разрабатывающая новое железо для *квантовых вычислений* и алгоритмы искусственного интеллекта на их основе.

Шапка сайта Extropic.ai
Шапка сайта Extropic.ai

Тема квантовых вычислений интересна и важна, хоть и вокруг неё полно разного рода спекуляций и булшита. Предсказывают, что квантовые вычисления отбросят на обочину истории все современные системы шифрования, а также послужат фундаментом для инфраструктуры дата центров следующего поколения.

Впервые про компанию Extropic Я услышал, когда её фаундер и CEO, Guillaume Verdon побывал на подкасте Lex Fridman. Очень интересный мужик как с точки зрения бекграунда (физик-теоретик, работал над квантовыми вычислениями в Google, фаундер TensorFlow Quantum), так и с точки зрения взглядов на капитализм, эволюцию и искусственный интеллект.

Чего стоит его мысль "в интеллекте человек скоро переживёт ту же трансформацию, что и при переходе от геоцентрической модели мира – к гелиоцентрической": если сейчас мы живём в мире, где самой умной сущностью являемся мы, наш вид (т.е. "центр мира" – мы сами), – то с появлением AGI (ИИ на уровне среднестатистического человека), а затем и ASI (ИИ превосходящего любого человека, а то и коллективный разум всех людей) – эта картина мира изменится и в "центре мира" будет нечто умнее нас всех.

Слева: гелиоцентрическая модель ("всё вращается вокруг Солнца", в метафоре: вокруг ASI), справа: геоцентрическая ("всё вращается вокруг Земли", в метафоре: вокруг Человека)
Слева: гелиоцентрическая модель ("всё вращается вокруг Солнца", в метафоре: вокруг ASI), справа: геоцентрическая ("всё вращается вокруг Земли", в метафоре: вокруг Человека)

Ещё Verdon любит мемы: долгое время он от лица Beff Jezos (аллюзия на Jeff Bezos, основателя Amazon, человека, который "хорошо понимает как создавать капитал") постил твиты и мемы про e/acc. Effective accelaritionism – радикальные техно-оптимисты, чуваки, которые всеми руками-ногами "за" ускорение технологического роста, и которые верят, что взрывной рост технологий сулит лишь благо для цивилизации. В отличии, например, от ребят, которые предсказывают, что AI "сбежит из лаборатории" и поработит всех людей.


Несколько месяцев назад, 5 декабря 2023, его компания Extropic получила $14.1M инвестиций в качестве Seed-раунда (деньги на первичную разработку). А сегодня, 11 марта вышла статья, в которой команда делится подробностями, что же они разрабатывают, а заодно и первыми хорошими новостями.

Дисклеймер: Мой перевод не обещает быть дословным, поскольку исходный текст поста содержит довольно много терминов и предполагает подготовленного читателя. Своей целью Я ставлю сделать изложение популярным языком, понятным широкой публике.

  • Пересказ исходного поста будет без форматирования.

  • [Мои примечания как переводчика - курсивом]


11 Марта, 2024

Добро пожаловать в Термодинамическое Будущее*

Термодинамика – раздел физики, оперирующий энергией, температурой и другими макроскопическими характеристиками физических систем и их взаимодействий; многие из разработок Extropic, как мы узнаем из поста, базируются на законах термодинамики.

Сообщение от команды:

Мы рады наконец поделиться деталями того, что мы разрабатываем в Extropic: новые железо и инфраструктуру для генеративного AI, вычисления которых зиждятся на естественных "случайностях" материи.

Что новая парадигма даёт с практической точки зрения?

  • Возможность масштабирования железа далеко за пределы ограничений классических вычислений [прим. Существует 2 типа масштабирования: во-первых, за счёт железа – "вертикальное", когда берём более мощные машинки, или "горизонтальное", когда берём больше машинок – и программное, когда оптимизируем код, уменьшаем память и т.д.]

  • Создание процессоров для AI на много-много порядков быстрее и энергоэффективнее существующих процессоров (CPU / GPU / TPU)

  • Возможность эффективной имплементации мощных вероятностных AI-алгоритмов, слишком дорогих при чисто программной реализации

Надеемся нижеизложенный краткий обзор наших технологий вдохновит вас для вашего дальнейшего пути. Присоединяйтесь к нам в нашей миссии ускорить наступление термодинамического будущего.

– Gill & Trev (прим. CEO и CTO Extropic)

С подъёмом хайпом вокруг AI, спрос на вычислительные ресурсы растет с ускорением. К счастью, его львиную долю нам удавалось удовлетворить за счёт создания микросхем, вмещающих всё больше транзисторов на 1 квадратный миллиметр.

Однако каждый следующий виток улучшения даётся всё труднее и закон Мура начинает замедляться [прим. Закон Мура – наблюдаемое с 60-х удвоение производительности процессоров каждые 18 месяцев; к слову, CEO Nvidia, Дженсен "Куртка" Хуанг считает, что закон Мура уже своё отжил]. Приближаясь к уровню атомов, мы упираемся в "физический потолок" и на сцену выходят эффекты вроде теплового шума, требующие всё больше дополнительных корректировок во время обработки вычислений.

График демонстрирует, что число транзисторов в процессорах увеличивается в 2 раза каждые 2 года.
График демонстрирует, что число транзисторов в процессорах увеличивается в 2 раза каждые 2 года.

Чтобы обеспечить нужный объём вычислений в одном месте, требуется строить громадные дата центры. Чтобы питать такие дата центры, требуется колоссальное количество энергии, и крупные игроки рассматривают радикальные меры вроде создания дата центров содержащих атомный реактор и предназначенные для обучения и запуска больших моделей следующего поколения [например, уже знакомые нам Large Language Models подобные ChatGPT от OpenAI, Gemini от Google, Claude от Anthropic].

Если мы и дальше продолжим наращивать вычислительные ресурсы по тем же принципам ещё пару десятилетий, это потребует инфраструктурных подвигов небывалых масштабов, и путь к дальнейшему росту коллективного интеллекта человечества окажется затруднён.

Кстати, для примера, кому интересно послушать, с какими инфраструктурными вызовами приходилось сталкиваться при обучении Gemini на нескольких дата центрах, рекомендую прослушать стрим с инженером инфраструктуры в Google DeepMind и Игорем Котенковым на подкасте у Валеры Бабушкина:

Но есть и другая дорога. Обратим внимание на биологию: вычисления в природе не такие детерминированные, как транзисторы, однако они на порядки эффективнее, чем что-либо придуманное человеком до сего дня. Сеть из клеток – это пример «биологического компьютера», где каждая отдельная клетка достаточно мала, чтобы подсчитать количество реагентов в ней. Следовательно, взаимодействия между реагентами в каждой клетке также являются дискретными, хотя и порождены случаем. Относительный вклад этой внутренней случайности обратно пропорционален количеству молекул реагента, и, таким образом, даже малые флуктуации [случайные изменения] склонны доминировать в динамике этих систем.

Здесь напрашивается отсылка к "Антихрупкости" Нассима Талеба с идеей, что некоторые системы могут усиливаться и эволюционировать, выигрывая от ошибок, неопределенности и случайных флуктуаций.

Рассуждая от первых принципов, мы можем с уверенностью сказать, что не найдётся ни одной причины сковывать эффективность вычислений законами детерминистической логики. Инженерная задача ясна: как нам с нуля спроектировать железо и софт для AI так, чтобы система извлекала выгоду из фундаментальных неопределенностей и шума?

Иллюстрация итераций обучения Energy-Based Model (EBM)
Иллюстрация итераций обучения Energy-Based Model (EBM)

Energy-Based Models (EBMs, модели основанные на энергии) – дают намёк на решение, поскольку их концепт возникает как в термодинамических физических системах, так и в вероятностном машинном обучении (probabilistic machine learning).

  • В физике через эти модели описывают стремление закрытой системы к беспорядку [энтропии], где её "напряжение" будет минимально [порядок – самое неустойчивое положение, постоянно требующее "внешней подпитки" для поддержания].

  • В машинном обучении EBM известны под именем экспоненциального семейства распределений. Такие модели используются для описания распределения данных в терминах теории вероятностей [насколько "правдоподобно" встретить такие данные, которые мы получили?].

Тем, кто хочет познакомиться подробнее с тем, что такое экспоненциальное семейство распределений, какие модели машинного обучения строятся на его основе и какие у них плюсы/минусы по сравнению с моделями из с классического машинного обучения, рекомендую прослушать курс Дмитрия Ветрова "Байесовские методы машинного обучения", доступный в открытом доступе.

Energy-Based Models в машинном обучении особенно хороши для моделирования малых выборок данных, особенно в приложениях с высокой ценой ошибки [например, когда в системе существуют "Чёрные Лебеди", случайные события, которые мы не встречали ранее и которые способны нанести огромный ущерб].

Как работают модели этого семейства? Они буквально заполняют пропуски в данных "шумом" и ищут распределение, с одной стороны, объясняющее наблюдения, с другой, имеющее максимальную энтропию [меру неупорядоченности].

Иными словами, наше базовое предположение, что "Бог играет в кости", т.е. что данные, сложились в тот пазл, в который мы наблюдаем, по чистой случайности. Если при этом мы видим паттерн, сколько должно было произойти "случайных совпадений"? Насколько правдоподобно получить такие данные? Если цепочка маловероятных "совпадений" и "допущений" слишком длинная – такая гипотеза шаткая, неустойчивая – и для её поддержания нужно очень много "энергии". Energy-Based Models стараются минимизировать такую "энергию", чтобы описывать данные максимально правдоподобно.
Иными словами, наше базовое предположение, что "Бог играет в кости", т.е. что данные, сложились в тот пазл, в который мы наблюдаем, по чистой случайности. Если при этом мы видим паттерн, сколько должно было произойти "случайных совпадений"? Насколько правдоподобно получить такие данные?

Если цепочка маловероятных "совпадений" и "допущений" слишком длинная – такая гипотеза шаткая, неустойчивая – и для её поддержания нужно очень много "энергии". Energy-Based Models стараются минимизировать такую "энергию", чтобы описывать данные
максимально правдоподобно.

Процесс, когда модель сэмплирует все возможные данные из предполагаемого распределения и "энергетически штрафует" такие генерации, которые с точки зрения наблюдаемых данных маловероятны – требует использования большого количества случайности, как на стадии обучения, так и при непосредственной генерации.

Эта необходимость сэмплировать данные в огромном количестве – основной фактор, препятствующий широкому использованию EBM модели на практике, поскольку на современном железе это сделать, с одной стороны, вычислительно долго и дорого, не говоря об увеличении энергопотребления [с учётом того, какое количество вычислений выполняется вхолостую... прямо как с битком!].


Extropic нашёл, как обойти эту преграду. Чтобы раскрыть потенциал генеративного AI на полную, мы имплементировали EBM напрямую в железе, как управляемые аналоговые стохастические вычислительные узлы [теперь флуктуации – не баг, а фича]. Процессоры Extropic достигнут роста на множество порядков как с точки зрения производительности, так и с точки зрения экономии энергопотребления.

Принцип работы вычислительных узлов Extropic подобен броуновскому движению, где макроскопические, но легкие частицы, находящиеся в жидкости, испытывают случайные колебания из-за множества столкновений с микроскопическими молекулами жидкости. Эти мелкие множественные столкновения приводят к случайному распространению частиц внутри сосуда.

Визуализация броуновского движения с одной макроскопической частицей.
Визуализация броуновского движения с одной макроскопической частицей.

А теперь представим, что броуновские частицы привязаны к стенкам сосуда и друг к другу с помощью пружин, как показано на рисунке ниже. В этом случае пружины будут сопротивляться случайным силам, и частицы будут предпочитать находиться в определенных частях сосуда чаще, чем в других.

Если бы кто-то многократно отбирал образцы положений частиц, ожидая достаточно много времени между сэмплированием выборок, то обнаружил бы, что они устойчиво следуют уже предсказуемому вероятностному распределению. Если мы изменили бы жесткость пружин, распределение, которое мы "выучим" – тоже изменится. Эта простая механическая система является источником "программируемой случайности".

Принцип работы акселераторов Extropic: (a) Простая механическая аналогия акселераторов Extropic. Поскольку в устройстве три массы в двух измерениях, стационарное состояние этого устройства будет вероятностным распределением в 6-мерном пространстве. (b) Выборки могут быть получены из акселератора Extropic путем повторного наблюдения за системой, с ожиданием минимального времени установления равновесия между наблюдениями. Время, необходимое для того, чтобы шум в системе уничтожил все корреляции с предыдущей выборкой.
Принцип работы акселераторов Extropic: (a) Простая механическая аналогия акселераторов Extropic. Поскольку в устройстве три массы в двух измерениях, стационарное состояние этого устройства будет вероятностным распределением в 6-мерном пространстве. (b) Выборки могут быть получены из акселератора Extropic путем повторного наблюдения за системой, с ожиданием минимального времени установления равновесия между наблюдениями. Время, необходимое для того, чтобы шум в системе уничтожил все корреляции с предыдущей выборкой.

Существует прямая связь между описанной выше механической системой и управляемым стохастическим вычислительным узлом, из которых состоят процессоры Extropic. На этот раз в роли легковесных частиц выcтупают электроны, а самой "жидкостью", в которую их поместили, выступают атомы проводящей среды, которые могут передавать энергию электронам при взаимном столковении. Вместо пружин у нас будут компоненты системы, ограничивающие движение электронов [индукторы или транзисторы]. Управляя током и напряжением, мы сможем задавать, из какого распределения этот стохастически узел должен "сэмплировать".

И хотя каждый такой узел шумный, не все из них хорошие кандидаты на роль составного элемента для будущих процессоров Extropic. Создать устройство, где доминирующую роль играют случайные флуктуации, и при этом сохранить его управляемым, – это с инженерной точки зрения непростая задача. Масштаб тепловых флуктуаций мал, а значит, что и сам узел должен быть маленьким и потреблять мало энергии, чтобы те заветные тепловые флуктуации оказывали на вычислительный узел большое влияние.

По этой причине, если кто-то захочет воссоздать стохастические узлы Extropic на макромасштабе, ему потребуется добавлять в систему искусственный шум, а это убьёт всю желаемую экономию времени и энергии и в результате даст вычисления с тем же перфомансом, что и запуск алгоритмов посредством классических вычислений.


Первые процессоры Extropic изготовлены с использованием нанотехнологий из алюминия и работают при низких температурах, чтобы они обретали свойство сверхпроводимости [напомним, сверхпроводник – это материал способный проводить электричество без каких-либо потерь, поскольку он не оказывает препятствия движению электронов, – в отличие от обычных проводников, где электроны сталкиваются с препятствиями, теряя энергию].

На рисунке ниже показано одно из первых устройств, в котором были испытаны несколько потенциальных конструкций сверхпроводящих нейронов.

Изображение чипа Extropic под микроскопом. На врезке показаны два перехода Джозефсона, которые являются устройствами, обеспечивающими процессор критически важной нелинейностью.
Изображение чипа Extropic под микроскопом. На врезке показаны два перехода Джозефсона, которые являются устройствами, обеспечивающими процессор критически важной нелинейностью.

Некоторые из этих "нейронов" аналогичны существующим сверхпроводящим кубитам [кубит – единица информации в квантовых компьютерах, которая может одновременно находиться в нескольких состояниях, в отличие от бита, который может быть строго или 0, или 1]. Эти нейроны используют эффект Джозефсона в качестве источника нелинейности, который возникает, когда два сверхпроводника находятся рядом друг с другом.

Нелинейность здесь означает, что отклик на входной сигнал не пропорционален самому сигналу, что позволяет системе обрабатывать информацию сложным и многообразным образом, не ограничиваясь прямой пропорциональностью.

Эта нелинейность необходима устройству для доступа к негауссовым вероятностным распределениям с "тяжелыми хвостами" [как обсуждали ранее, где очень высок риск неожиданных событий, сильно непохожих не те, что мы наблюдали в обучающей выборке].

К тому же, рутинные процедуры гауссовой выборки повсеместно используются и хорошо оптимизированы. Следовательно, для того чтобы аналоговое устройство обеспечивало значительное ускорение по сравнению с традиционным процессором, необходима негауссовость.

Иллюстрация распределения с "тяжелыми" или с "толстыми хвостами"
Иллюстрация распределения с "тяжелыми" или с "толстыми хвостами"

Эти нейроны – строительные кирпичики, которые вместе образуют более крупные сверхпроводящеие системы. В такой системе множество линейных и нелинейных нейронов объединяются в одно целое, создавая систему, которая сэмплирует данные из сложного и многомерного распределения. Уровень "активации" нейронов и сила их взаимодействия друг с другом – являются контролируемыми параметрами, позволяя одному устройству сэмплировать широкое семейство вероятностных распределений.

За счёт сверхпроводимости, в чипах Extropic энергия расходуется только при измерении или модификации их состояния. Это свойство делает эти нейроны, пожалуй, самыми энергоэффективными во вселенной. Такие системы будут высокоэнергоэффективными и на большом масштабе: Extropic ориентируется на клиентов с низким объемом, но высокой ценностью, таких как правительства, банки и частные облачные провайдеры.

Extropic также разрабатывает устройства с полупроводимостью, возникающей при комнатной температуре, чтобы расширить наш охват до большего рынка. В этих устройствах эффект Джозефсона заменён на транзистор. Такая подмена несколько уступает в энергоэффективности сверхпроводящим устройствам. Однако взамен это позволяет строить их, используя стандартные производственные процессы и цепочки поставок, открывая широкие возможности для масштабирования. Поскольку они работают при комнатной температуре, их можно будет упаковать в карточки наподобие GPU. Это позволит вам иметь процессоры Extropic в каждом доме, давая всем возможность участвовать в ускорении искусственного интеллекта на основе термодинамики.

Для поддержки широкого спектра железа компания Extropic также разрабатывает софт, который компилирует абстрактно заданные модели на основе энергии в соответствующий низкоуровневый язык программирования. Этот компилятор будет основан на графовых моделях [граф, где в качестве связей – вероятности перехода из одного состояния в другое]. Графовые модели указывают, что большие распределения факторизуются и разбивается на локальные части.

Многие компании, которые занимались ускорением AI до нас, испытывали трудности с поиском прорывов из-за требований по памяти в Deep Learning моделях: современные алгоритмы тратят около 25% своего времени на переброску байтов в оперативной памяти. В результате чего, согласно закону Амдала, любая микросхема, ускоряющая определенную операцию [например, умножение матриц, к которым сводятся 99.99% вычислений в AI], будет испытывать трудности с достижением ускорения более чем в 4 раза. Но с учётом того, что чипы Extropic нативно ускоряют широкий класс вероятностных алгоритмов, выполняя их в высопроизводительном и энергоэффективном режиме, мы обязательно очень скоро откроем совершенно новые горизонты ускорения AI, которые превосходят все, что ранее считалось достижимым.


Спасибо всем, кто дочитал до конца!

Подписывайтесь на Мой блог BOGDANISSSIMO,
чтобы не пропустить другие посты.
?

Tags:
Hubs:
Total votes 15: ↑14 and ↓1+17
Comments2

Articles