amartology19 июн 2024 в 09:59

Аналоговые вычисления для искусственного интеллекта: как делать MAC-операцию при помощи закона Ома

Средний

13 мин

4.3K

Машинное обучение * Схемотехника * Производство и разработка электроники * Искусственный интеллектИнтернет вещей

Аналитика

+31

Комментарии 21

aamonster 19 июн 2024 в 10:10

Почему floating-point? Если у вас используются числа малой разрядности – хватает fixed-point, а то и вообще LUT.
У цифровых решений есть одно критическое преимущество: воспроизводимость. Когда вы построите нейронную сеть на аналоговых компонентах, и окажется, что маленькие отклонения в одном месте приводят к большим изменениям в результате – вы умрёте это отлаживать.
Использование транзистора (а без него вы вряд ли обойдётесь) в режиме ключа значительно "дешевле" энергетически, чем в линейном. Если для реализации понадобится линейный режим – получим повышенное энергопотребление.

Но подход имеет право на жизнь, хотя и потребует кучу теоретической работы (ключевые слова: устойчивость, жесткие системы дифференциальных уравнений).

amartology 19 июн 2024 в 10:16

Так я говорю в тексте, что от floating point в цифре отказываются в пользу малых разрядностей, вплоть до 1.5 бит
"построите нейронную сеть на аналоговых компонентах, и окажется, что маленькие отклонения в одном месте приводят к большим изменениям в результате" - это будет означать, что ваша сетка плохо обучена, и ее надо дообучить, чтобы такого не происходило. Эта возможность, собственно, делает именно нейросетки радикально привлекательнее, чем любые другие вычисления, которые теоретически можно проводить аналоговым образом.
Во-первых, примерно вся статья - о том, что для MAC-операции не нужен транзистор. Во-вторых, вы не правы, потому что мы сравниваем не один транзистор и один транзистор, а сотни ключей против одного транзистора в линейном режиме. Да и в линейном ли? Транзисторы дступа в память - это ключи)

aamonster 19 июн 2024 в 10:51

Речь не про продакшн, а про отладку. Рано или поздно вы придёте к тому, что вам для отладки понадобится макет вашей сети, работающий каждый раз строго одинаково. В этом плане интересно будет что-то смакетировать на цифре, а потом попробовать оптимизировать быстродействие или энергопотребление частичным уходом в аналог.
Следом за MAC-операцией вам надо передать сигнал на следующий нейрон. Причём, скорее всего, понадобится его усилить (можно, конечно, в первые нейроны вогнать массу энергии, и пусть растекается дальше, но это неэффективно и плохо масштабируется). Тут вам и понадобится транзистор – и (для усиления) в линейном режиме.

amartology 19 июн 2024 в 12:12

Так схема сетки в симуляторе будет работать строго одинаково, что в виде поведенческой модели, что на транзисторном уровне.
На пятом рисунке ("Структурная схема вычислительного блока in-memory computing") показано, как оно выглядит на практике. Между слоями есть даже не единичные транзисторы, а усилители или АЦП-ЦАП. И даже в этом случае чипы получаются более энергоэффективными, чем цифровые аналоги.

gleb_l 19 июн 2024 в 10:20

В принципе, аналоговая схемотехника действительно хорошо подходит для реализации искусственных нейронов. Высокая точность вывода здесь не нужна, большой динамический диапазон - тоже (на выходе все равно компрессор). Нормировать диапазон входных сигналов можно стандартными АЦП.

Тепловой шум будет играть скорее положительную роль - как естественный фактор отстройки от переобучения, а непрерывность передаточной функции нейрона и ее производной (внутри - никакой дискретности!), могут сделать процесс обучения многослойных сетей более качественным.

amartology 19 июн 2024 в 10:27

Про функцию активации, кстати, все не так однозначно) В аналоговом виде удобно делать только RelU (и еще крайне неудобно делать обратные связи, то есть все LSTM и GRU сходу идут лесом). Поэтому типовоцй подход прямо сейчас - подавать входные сигналы на слой с ЦАП, получать результаты MAC, цифровать взвешенные суммы и делать активацию в цифровом виде.
Аналоговые активации и отказ от громоздких и прожордивых ЦАП и АЦП - это то, чего всем очень хочется, но пока что не очень получается. Скажем, на упомянутом в статье чипе Mythic стоят десятки тысяч ЦАП и АЦП.

gleb_l 19 июн 2024 в 15:42

Да, если учить на цифровых моделях, а потом грузить коэффициенты в аналог - то из-за аналоговой природы будет все, как у людей - лекцию слушают все одну, а понимают каждый по-разному ;)

amartology 19 июн 2024 в 22:11

Аналоговая сетка, обеспечивающая точность в четыре бита, ведёт себя ничуть не хуже цифровой четырехбитной сетки. Аккуратное уменьшение точности параметров без потери качества работы сети - это хорошо понятная и хорошо проработанная задача.

AiratGl 19 июн 2024 в 10:28

Ждем возрождения в КМОП аналоговых гидравлических интеграторов для решения диффуров
https://ru.wikipedia.org/wiki/Гидравлический_интегратор

amartology 19 июн 2024 в 17:52

Вот что, а интеграторы в каждой второй аналоговый микросхеме стоят)

Но дифуры маленькие, и результат хочется знать точно, поэтому в цифровом виде это делать гораздо разумнее.

Gryphon88 19 июн 2024 в 12:55

Каждый раз, когда читаю про те уровни, где цифровая техника становится аналоговой, разрываюсь между желаниями громко воскликнуть что-то нецензурное и заорать "сжечь ведьму!"

gleb_l 19 июн 2024 в 15:51

Во-первых никто не обещал бесконечного цифрового будущего; во-вторых встреча прогресса искусственного и прогресса природы произойдет (судя по закону Мура) на таких уровнях микромира, когда результат функций, сделанных человеком на кристалле, будет не детерминированным, но статистическим - собственно, как сейчас и работают биологические системы. А дальше - теория эволюции. Если мелкий, но неточный имеет преимущество перед большим, но точным - то он и будет существовать. Сознательно противиться этому контрэволюционно - Вас растопчут и съедят на обочине эволюции.

Gryphon88 19 июн 2024 в 16:45

Не о том речь. Когда решают задачи высокоскоростной обработке сигналов, приходится учитывать настолько большую кучу разных факторов, о которых обычно схемотехники не задумываются, что это официально считается черной магией.

amartology 20 июн 2024 в 08:24

Да ладно ведьму, тут же в буквальном смысле схемотехника уровня закона Ома и смешного переиспользования уже существующих стандартных схем. Всё "сжечь ведьму" на самом деле в матаппарате, который нужен для того, чтобы сделать из этих каракулей работающую нейросеть.

almaz1c 19 июн 2024 в 17:45

С возвращением после долгой паузы

NickDoom 19 июн 2024 в 18:43

Идея очевидная уже лет 15 как, задолго до начала аи-хайпа.

Но есть одно «маленькое» «но»: воспроизводимость сетей будет в стиле «9 месяцев отладка, 7 лет учить говорить, 10 лет — думать, ещё пять лет учить что-то создавать и потом диплом» — и так с каждым экземпляром. Обучить один и распространить на все — не выйдет. Не тиражируемая в принципе вещица.

Ну, или добавлять какие-то бистабильные фиговины, которые притягивают результат аналогового умножения к одному из допустимых выходных уровней.

amartology 19 июн 2024 в 19:58

Обучить один и распространить на все — не выйдет.

Выйдет конечно, все так и делают. Точнее, есть отдельные компании, которые декларируют, что учат каждый чип индивидуально для того, чтобы радикально упростить схемотехнику за счёт отказа от компенсации неидеальностей компонентов, но большинство существующих чипов в принципе не способны к обучению, а могут только делать инференс, и в них принципиально надо одну и ту же модель грузить во все экземпляры.

добавлять какие-то бистабильные фиговины, которые притягивают результат аналогового умножения к одному из допустимых выходных уровней

Зачем? Можно просто АЦП поставить, если очень хочется точные уровни на выходе иметь.

Kreator_VA 29 окт 2024 в 22:56

“На практике в аналоговых вычислительных системах сложно достичь точности, соответствующей более чем четырем цифровым битам (здесь имеется в виду ENOB), а достижение точности выше 8 бит обычно требует радикального усложнения схемотехники и каких-то совсем нетривиальных решений.”

Крайне спорное утверждение. Нет ничего радикально сложного выше 8 бит, просто конкретно для вычислений это становится менее эффективно в сравнении с цифровыми решениями.

Довольно распространенный в статьях по теме график.

amartology 1 ноя 2024 в 09:08

Нет ничего радикально сложного выше 8 бит

Покажете эти несложные решения? А то я все больше вижу или многоступенчатую термокомпенсацию, или сложную и энергоемкую запись мемристоров в несколько приемов - и это самое простое, что люди делают, когда хотят больше 4-5 бит.

Kreator_VA 24 дек 2024 в 15:58

Куда уж проще?
https://patentimages.storage.googleapis.com/b0/01/22/6ea0a6d773ebbb/EP4358087A1.pdf

amartology 25 дек 2024 в 09:51

Я классифицирую то, что нужно сделать для прецизионного управления временем зарядки конденсаторов в такой схеме, как "существенное усложнение схемотехники" (которое ещё и потребление сильно увеличит). Сводить тайминги в такой конструкции врагу не пожелаешь.

Искренне надеюсь, что у вас в итоге получится, но к "куда уж проще" ваш подход не имеет никакого отношения, по этим граблям с конденсаторами уже пришлось какое-то количество желающих.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий