Читает ли кто-нибудь в современном мире диссертации или это считаетеся какой-то фигней чтобы поставить галочку? Вспомним что вся цифровая электроника, все айфоны, интернет-роутеры и ИИ-ускорители - построены на двух диссертациях: 1) магистерской диссертации Клода Шеннона, который в 1937 году повысил уровень абстракции проектировщиков с переключателей (на основе реле и ламп) до булевской логики и/или/не и 2) диссертации 1954 года Дэвида Хаффмана в MIT, который обобщил более ранние потуги и сформулировал модель Хоффмана для последовательностной логики: комбинационное облако вычисляет следующие значения элементов состояния (сейчас это в 99+% случаев D-триггеры), которые записываются по фронту тактового сигнала.
У истории были альтернативные ветки (например электроника могла бы строится на C-элементах Мюллера), но в нашей параллельной вселенной они не прижились.
Товарищи студенты из проживающих в США! Кто хочет отправиться на летнюю практику и/или программу для выпускников вузов в техасском отделении Самсунга? Вы можете сходить на сайт и подать заявку напрямую (ссылка 1, ссылка 2). Альтернативно, я могу сделать для вас внутреннюю рекомендацию, так как я член команды разработки GPU в телефонах. Но так как я стараюсь рекомендовать компании только кандидатов, в качестве которых (по своим критериям) я уверен, я предлагаю всем желающим сделать одно из двух вещей:
Если вы живете в Области Сан-Францисского Залива или в Сакраменто, то сделать какой-нибудь проект на FPGA платах в рамках разработки open-source примеров для non-profit клуба Verilog Meetup (не аффилиированного с Самсунгом, это просто малочисленная тусовка, куда заходят люди из Теслы, Intel, Apple итд). Наш клуб будет на выставке самоделкиных Maker Faire в Valejo 26-28 сентября. Вы можете подойти ко мне на стенде и мы обсудим ваш проект.
После того, как вы сделаете или (1) или (2), я занесу ваше резюме во внутреннюю базу данных, вам придет письмо с предложением подать заявку, после чего, если ваше резюме выберут, вам нужно будет пройти весь официальный процесс рекрутинга.
Повышает ли моя рекомендация ваши шансы? Этого я не знаю. Как говорил Остап Бендер, полную гарантию вам может дать только страховой полис.
Пишите мне на yuri@panchul.com если вас интересует такое предложение.
FFTW vs Ne10 на ARM Cortex-A9: кому отдать БПФ в embedded?
Недавно в одном проекте по спектральному анализу ЛЧМ-сигналов на моей AD/DA плате я столкнулся с тем, что FFTW на Cortex-A9 в Zynq рисует задержку в сотни микросекунд — критично для реального времени. Решил проверить лёгкую библиотеку Ne10: оказалось, что на средних размерах БПФ (128–512) Ne10 даёт до +10% производительности (905 MFLOPS против 817 MFLOPS у FFTW) благодаря оптимизациям под NEON.
График производительности FFTW vs Ne10 на Cortex-A9
Однако Ne10 выигрывает не во всём: для очень малых (≤ 64) и произвольных больших размеров FFTW остаётся лидером за счёт агрессивного планирования, double-точности и возможности сохранять «wisdom»-планы. Выбор между ними зависит от сценария: если нужна быстрая интеграция и фиксированные степени двойки — Ne10, а для универсального решения с поддержкой любых N и многопоточности — FFTW.
Более подробное описание соберу в статью. А какой библиотекой пользуетесь вы и какие удивительные кейсы встречали? Делитесь в комментариях, а в моём Telegram-канале DSP_labs вас ждут полные бенчмарки, скрипты и ещё больше примеров оптимизации DSP на embedded.
Аркадный автомат на RISC-V: сбиваем астероиды с микроконтроллером MIK32 АМУР
Вадим Новиков решил реализовать игровую физику в условиях bare metal, используя свой предыдущий опыт на C++/SFML. В проекте использовалась плата Elbear Ace-Uno на базе микроконтроллера MIK32 АМУР, SPI OLED-дисплей SSD1306 разрешением 128×64 и джойстик HW-504 (KY-023), а также модули SPI (цифровой интерфейс передачи данных), аналого-цифровой преобразователь для калибровки и чтения положения джойстика и GPIO для вывода настройки и ввода состояния кнопки.
Код на C включал непрозрачные типы, которые позволяют реализовать подобие инкапсуляции из ООП. С ними можно объявить в заголовочном файле указатель на некую структуру, но не определять ее. А в единственной трансляции определить структуру и статические функции для взаимодействия с внутренними полями, которые недоступны извне. И поместить туда, соответственно, реализацию открытого интерфейса. Вместо использования регистров напрямую Вадим подключил библиотеку hardware abstraction layer (HAL), чтобы впоследствии было проще портировать проект на STM32 и другие микроконтроллеры.
Результатом работы стала Asteroids — реинкарнация классической игры эпохи аркадных автоматов. Корабль игрока непрерывно выпускает снаряды. После столкновений снаряда с астероидом исчезают оба объекта, при столкновении с кораблем — только астероид. Астероиды, вышедшие за нижнюю границу, возвращаются сверху экрана. Корабль же выйти за границы экрана не может.
Это лишь один из интереснейших проектов, реализованных студентами по итогам последнего потока курса YADRO по программированию микроконтроллеров на RISC-V. Интересно узнать о других проектах? Мы уже рассказали о них в статье.
Уже в четвертый раз встречаю следующий психотип. Человек окончил университет в Канаде, где в программе были в том числе лабы по FPGA. Прилетел в Калифорнию чтобы говорить и тусоваться с людьми. С вопросом: "какие есть проблемы в дизайне электроники чтобы решить их с помощью AI?"
Для меня из его реакций на некоторые мои утверждения ясно как божий день, что у него нет достаточного трейнинга в проектировании чтобы видеть эти проблемы самому. Поэтому я ему предложил всю ту же задачку на SystemVerilog (1, 2), которую я в этом году даю всем и в которой как в микрокосме представлены проблемы дизайна электроники, по крайней мере в микроархитектурной части и в контексте проекта в большой компании с использованием кода и тестового стенда других людей. Типа "решишь - поймешь в чем проблема".
Вместо того, чтобы по моим рекомендациям решить задачку и понять о чем я говорю - человек продолжает тусоваться и задавать людям вопросы на основе информации которую он услышал у других людей. Например спросил меня, хожу ли я на выставки DAC, где все говорят что тулы (средства проектирования) ограничивают сложность дизайнов. Я ответил что хожу на эту выставку с 1996 года, и тогда тоже все так говорили. Спросил у меня, слышал ли я о Chisel. Ответил "его используют только SiFive и Беркли. То что Chisel за 10 лет не проник в другие компании - означает что он ничего принципиально не решает". Итд.
Я не понимаю - что человек пытается достичь тусованием и такими вопросами? Какая часть фразы "пока вы сами не попробуете решать микроархитектурные задачи на верилоге, вы не будете понимать что вам говорят люди о проблемах такой разработки" - какая часть этой фразы ему непонятна?
Единственная гипотеза которая приходит мне в голову - человек пытается с помощью тусования найти технических людей, которых потом перепродать VC, то есть возглавить стартап и получить под них инвестии от венчурных капиталистов. Проблема с такой идеей: для технического человека ясно-понятно, что кроме тусования у этого джентльмена ничего значимого нет, то есть такой скрипач не нужен. С таким же успехом технический человек может сам пойти к VC.
Причем это еще лучше чем технический человек понимают сами VC - они сразу идентифицируют и стараются выкинуть из сделки такого рода бессмысленных посредников.
Но возможно я усложняю и человек тусованием просто решает какие-то психологические проблемы или это для него что-то типа путешествий которые любит молодежь.
Зачем это пользователям — понятно. Они смогут оживить свои старые системы, используя в них современный процессор. Подозреваем, что клиентами будут не только и не столько игроки (AMD рассчитывает на Enthusiast Desktop — переводите, как хотите), как корпоративные пользователи и учёные, для которых возможность понять производительность процессора, сохранив старую систему, важнее использования более быстрой архитектуры Zen 4. Процессор Ryzen 5 5500X3D построен на предыдущей архитектуре Zen3, имеет 6 ядер с частотой от 3 ГГц и поддерживает память DDR4 и т.п. Обратим внимание, что данное ЦП не имеет встроенного видеоядра, так что придётся использовать прежнюю видеокарту.
Кто сможет использовать новый процессор? В первых новостях говорилось, что процессор можно будет использовать на системах с разъёмом АМ4. Но на сайте указаны чипсеты, поддерживающие процессор, — X570, X470, X370, B550, B450, B350, A520. Даже если у вас плата с таким чипсетом, скорее всего, использование процессора потребует обновление BIOS, так что в выигрыше окажутся владельцы продуктов, которые разработчики долго поддерживают. Кроме того, на сайте AMD указано, что процессор предназначен для Латиноамериканского сегмента, но, думаем, в России уже не привыкать использовать устройства со всего света.
Зачем это компании AMD? Компания взяла за практику продлять жизнь платформ ещё со времён 486 процессоров. Если на тот момент это была возможность не вкладываться в разработку новых платформ, то теперь это выглядит скорее как забота о пользователях. Компания так поступает во всех сегментах, например, в 2023 году AMD продлила жизненный цикл серверных процессоров EPYC Milan.
Конечно, может возникнуть впечатление, что таким образом AMD подрубает себе текущие продажи, но это маловероятно. В 2017 году доля процессоров этой компании на рынке составляла всего 13%. Вряд ли многие среди тех покупателей до сих пор имеют системы на АМ4 и откажутся от её обновления только из-за нового процессора. Зато AMD такими «недорогими» шагами борется за возвращение своей доли на рынке настольных ПК. В 2023 году она достигла 29,5%, но в следующем году упала до 24%. Видимо, усилия Пата Гелсингера и его последователей — сотрудничество с TSMC и переход на новые техпроцессы — наконец позволили стабилизировать спрос на Intel.
Процессор на RISC-V есть в Google Pixel 6. А когда в ноутбуках появится?
В 2024 году в продаже появились устройства с поддержкой векторного расширения RVV 1.0. RISE опубликовала гайд по оптимизации на RISC-V, провела адаптацию программных компонентов, запустила бонусную кампанию для разработчиков, портирующих на RISC-V. Canonical заявила, что с версии 25.10 ОС Ubuntu будут собирать под профиль RVA23. А Samsung продемонстрировала телевизор на RISC-V с Tizen.
Сейчас для RISC-V прорабатывают множество новых исследовательских идей и дальнейших расширений. Например, расширение формата команд до 48 и 64 бит, что в некоторых случаях поможет повысить эффективность архитектуры. За счет поддержки новых размеров констант, immediate-операндов и других нововведений в перспективе можно будет уменьшить размер кода. Развивается безопасность векторных расширений, а также расширенное профилирование для анализа сложных приложений, стеков и ПО.
Текущие наработки войдут в профиль RVA30, который, по всей видимости, станет следующим в развитии стандарта. На пути к этому большому обновлению увидит свет ABI для AOSP, а также платформы, определяющие дополнительные требования — например, в серверных сценариях.
Если выяснится, что в RVA23 не хватает каких-нибудь важных обязательных расширений, то придется выпускать новый major-профиль с ними раньше, чем хотелось бы. По пути к нему увидят свет и minor-профили: они содержат только опциональные расширения и не создают проблем с совместимостью.
На пятом митапе Российского Альянса RISC-V и YADRO эксперты в сфере RISC-V — Сергей Якушкин, Роман Хатько и Антон Афанасьев — обсудилиуспехи и перспективы RISC-V на рынке мобильных устройств в середине 2025 года.
15 лет назад я думал что образование в области компьютерной архитектуры поломано только в России, а на Западе с этим все хорошо. Что значит "поломано"? Студент может поговорить про суперскалярные процессоры и многоядерные кластеры, но не может ничего спроектировать.
Но потом я поинтервьировал кучу западных студентов, и обнаружил что такое явление есть даже в вузе X с хорошими учебниками и стоимостью образования $90 тысяч в год.
Просишь студента написать модуль на верилоге на десять строк строк с простой (хотя и не из учебника) функциональностью, и он начинает извиваться, как уж на сковородке: пишет какие-то временные переменные, пытаясь затянуть интервью чтобы вышло время и/или по моему выражению лица пробует угадать идет ли он в правильную сторону или пишет ерунду.
И я выдвинул теорию, что им профессор дает готовый код процессоров посимулировать и посинтезировать, а сами они на верилоге ничего не пишут. То есть у меня в голове образовалась модель такого студента, своего рода теоретический Бозон Хиггса, который умозрительно представили задолго до обнаружения.
И вот сегодня я такой Бозон Хиггса засек на LinkedIn. Выпускник этого самого вуза X написал пост, как он изучал учебник Хеннесси-Паттерсона. Он показал фото листка бумаги, испещренного заметками и диаграммами. Он просто сидел, читал по частям учебник и делал такие заметки.
Проблема с такого рода обучением заключается не только в том, что у студента может образоваться каша в голове - например он может путать обычный кэш с кэшем трансляций адресов в TLB. Он может также понять некоторые вещи наоборот и протащить такое понимание до конца, так как у него нет практики, которая бы отсекла такую ошибку сразу. Ну и то что он 90% информации забудет по пути - это тоже данность.
Ну я короче написал ему, что нужно каждую концепцию подтверждать для себя упражнением. Выучил статический конвейер CPU - написал процессорик с несколькими инструкциями на несколько сот строк. Выучил кэш - написал модуль на несколько сот строк. Предсказатель перехода итд. И ради бога, без чатгпт - с ним это не выучится.
А также брать процессоры с открытым кодом, запускать их в симуляции и смотреть как в нем инструкции ходят по конвейеру.
Для Бозона Хиггса эта идея была в новинку. А между тем такой же подход нужно делать и с курсами по компиляторам, и ядрам OS.
Хотя зачем я все это говорю. Сейчас грянет LLM и наша цивилизация исчезнет.
Генерация последовательностей случайных чисел с помощью DRAM — возможно ли это? Проверим с помощью RISC-V
На основе DRAM мы создали модель одноканального источника шума, который возвращает один случайный бит за один условный такт. Память разбита на два региона, которые не пересекаются. Первый отвечает за инициализацию одноканального сигнатурного анализатора (ОСА), который инициализирует второй подобный анализатор. Затем мы сможем взять другой регион памяти и заново инициализировать первый ОСА, что абсолютно случайным образом изменит выход второго ОСА. Такая схема позволит не перезагружать память после каждой генерации числовой последовательности — ведь в реальных проектах это, как правило, невозможно.
Далее мы направляем данные из DRAM PUF в два подмодуля — постобработки, а также тестирования, анализа и оценки качества данных. Первый частично запускается на «железе», второй — на собранных данных на машине хоста.
Для постобработки мы протестировали шесть комбинаций. Последняя нам кажется наиболее перспективной:
сырые данные,
чистый корректор фон Неймана,
одноканальный сигнатурный анализатор,
чистый корректор фон Неймана + одноканальный сигнатурный анализатор,
одноканальный сигнатурный анализатор + чистый корректор фон Неймана,
многоканальный сигнатурный анализатор (МСА).
Зимняя школа RISC-V дала начало множеству интересных проектов. В отдельной статье мы рассказали об одном из них, где команда из БГУИР проверила гипотезу о наличии PUF в динамической памяти и создала модель одноканального источника шума. А затем реализовала постобработку и тестирование, измерила производительность генератора и оптимизировала код.
О, сколько нам открытий чудных... готовит школа по RISC-V
Сегодня устройства на базе «молодой» архитектуры RISC-V, представленной в 2010 году, имеют ограничения по документации. Каждая инструкция в процессоре обладает двумя характеристиками исполнения, латентностью и пропускной способностью, которые зависят от реализации процессорного ядра. Латентность определяет время выполнения одной инструкции, а пропускная способность — количество инструкций, выполняемых за определенное время. Эти данные помогают разработчикам оптимизировать код и повысить эффективность выполнения алгоритмов процессором. Обычно характеристики предоставляются производителями ядер, но в настоящее время для актуальных ядер их не найти.
Существуют стандартные инструменты для измерения латентности и пропускной способности, например llvm-exegesis. Однако из-за быстрого развития архитектуры RISC-V не все инструкции включены в эти инструменты. В рамках образовательного проекта предлагалось изучить принципы создания микробенчмарков для таких задач и измерить новые реализации недавнего векторного расширения для RISC-V (RVV) на примере плат LicheePi 4A.
Изначально мы не знали, как вычислить латентность, но знали, что на современных архитектурах скалярное сложение должно выполняться за один такт. Поэтому решили найти такой метод, который на скалярном сложении покажет латентность в один такт.
Самый простой вариант измерения времени в тактах — вызвать инструкцию rdcycle, которая возвращает количество тактов, пройденных с определенного времени, выполнить инструкцию, которую мы хотим исследовать, и снова вызвать rdcycle. Мы сделали так и получили время выполнения скалярного сложения в десятки тактов...
Так начинается лишь один из 18 интересных проектов, которые подготовили студенты в рамках Зимней школы RISC-V. О том, что это за школа и что еще разработали ее участники, читайте в нашем блоге.
Собеседование инженера: взгляд со стороны нанимающих специалистов
Интересно бывает послушать, над какими проектами работал человек. Но эта часть биографии частенько оказывается приукрашена и в позиционировании кандидата не помогает. В резюме может быть 30 лет опыта с описанием задач, спрашиваешь по ним, а ответа нет. Потому что человек, например, все 30 лет копипастил одно и то же, не вдаваясь в суть. Вообще, обсуждение опыта снижает эффективность собеседований, делает их… расхлябанными, что ли.
Частая ситуация на собеседовании — недостаточно глубокое погружение в интерфейс, с которым у кандидата был опыт работы. Например, указан опыт работы с протоколом USB. На собеседовании после нескольких вопросов по архитектуре протокола оказывается, что кандидат просто вставлял готовый IP без понимания принципов его работы. Но в резюме это заявлено как полноценный опыт работы с протоколом.
Когда смотришь, где человек работал, это не значит, что он там таки работал и надо трепещать перед громкими именами или регалиями. Важно не где ты работал, а что и как ты делал. Иначе будет как в старом советском анекдоте: один хвалится, что у него тетя в исполкоме работает, а в конце все узнают, что работает она там уборщицей и ничего не решает...
Семеро специалистов YADRO по направлениям схемотехники, верификации, RTL-дизайна, FPGA и аппаратной разработки рассказали, как подготовиться к собеседованию инженера, как настроиться на диалог с компанией и получить дополнительные очки в свою пользу.
Прикончил, наконец, свою компиляцию документации DEC на разные машины PDP-11/LSI-11 и родил сие описание архитектуры, включающее все команды, кроме предназначенных для диагностики и тому подобных вещей. Сама DEC подобный документ, кажется, выпустить так и не удосужилась.
Интересно, до какой скорости можно разогнать 6502-е ядро с современными технологиями?
Допустим, у нас есть чиплет «6502 + 64К SRAM», выполненный в максимально быстром исполнении, вплоть до экзотики типа арсенида галлия (ядро проектировали не дураки и уложились в три с половиной тысячи транзисторов, что тогда было немало для кремния, а сейчас — для арсенида галлия тоже, насколько я знаю, очень до фига).
…и есть несколько кремниевых чиплетов с умножителем, DRAM и прочей веселухой. Или даже один кремниевый чиплет с этим всем, плюс с бутлоадером, который прогружает наши 64К с некоего SPI и после этого снимает с 6502-го ресет.
Собираем их в микросборку, цепляем к портам 6502-го, которые замаплены в ключевые адреса его крошечной памяти.
Команды 6502-го выполняются фиксированное время, причём довольно небольшое (в тактах. А арсенид галлия этих тактов нам даёт не просто много, а очень много). Пульнул той же DDR указание, занимается своими делами, через некоторое время прочитал от неё ответ. Мы с точностью до команды знаем, когда за ним лезть в порт.
Фактически мы получаем, что у нас в SRAM крутится микрокод. Но мы имеем к нему полный доступ и можем напихать туда команд типа «логарифм по основанию ква с половинкой кря и ограничением результата от гага до муму», смотря какие мы там нейросети, графоний или обработку звука мы там делаем.
Ну то есть в камментах я такое уже высказывал, но тут мне именно сама архитектура больно шибко зашла. Там даже система команд просто кричит — «сделайте на мне движок микрокода!!!»
Вопрос, правда, в количестве транзисторов в GaAs. SRAM шибко большая, но там за единицу времени переключается только одна ячейка, а остальные спят сном праведника. А вот три с половиной тысячи ключей самого 6502-го могут выдать огоньку, превышающего возможности технологии. Тут я не шибко великий технолог по чипам, увы.
Восставший из коррозии: реинкарнация одного «роботрона»
Лучший способ спасти печатную машинку — изготовить для нее новую материнскую плату взамен сгнившей. Тем более я нашел схему, инструкцию по эксплуатации, а также несколько сервисных мануалов для ее родственников. Нужно было только оцифровать схему в современной САПР и развести новую плату с некоторыми изменениями.
Вместо двух десятков мелких корпусов RAM и ROM я поставил по одной микросхеме памяти каждого типа, так как теперь это не дефицит. Особый интерес представлял последовательный порт RS-232 — на оригинальной плате он не был распаян, хотя функционал работы с ним в прошивке был! А значит, очень высок шанс, что интерфейс заведется.
Проект замерзает еще на пару лет, пока один из подписчиков, тов. Folk, не взялся за отрисовку платы в KiCAD. Месяц неспешной работы, и к январю 2022 года рождается она — новая плата для «Роботрона». Разрабатывалась плата один в один по габаритам старой, даже основные детали были на тех же самых местах. И тут я допустил три стратегических просчета...
Полная история восстановления и даже апгрейда Robotron S6130 — в статьеАртёма Кашканова.
Microsoft создала первый в истории человечества квантовый чип на топопроводниках. Это фундаментальный прорыв в технике и физике.
Microsoft потратила 20 лет на исследования и создала новый класс материалов — топопроводники. Топопроводники создают новое состояние материи — не твёрдое, жидкое или газообразное, а топологическое. Топологические кубиты не ограничены законами термодинамики и электродинамики. С ними человечество сможет создать квантовый компьютер с миллионом кубитов — он сможет решать задачи, которые занимают тысячи лет даже на современных суперкомпьютерах. Это не просто исследование: у Microsoft уже есть рабочий чип на топопроводниках — Majorana 1.
Majorana 1 оснащён восемью топологическими кубитами. Компания планирует использовать его в исследованиях, которые в будущем позволят создать чип с 1 млн кубитов. Новый процессор производится Microsoft в США. Это стало возможным благодаря тому, что он выпускается в небольших объёмах. В компании считают, что квантовый чип появится в облаке Azure до 2030 года. Однако для этого чип должен иметь хотя бы несколько сотен кубитов.
Трамп грозится отобрать производство микросхем у Тайваня. Реально ли это?
На днях президент США Дональд Трамп заявил, что передовые чипы должна производить только США. Буквально тут же Ву Ченг-вэнь, глава министерства науки и технологий Тайваня, написал в соцсетях, что производство полупроводников — интернациональный процесс и нет необходимости сосредотачивать его в одной стране. Реальна ли угроза Трампа?
Хотя Ву Ченг-вэнь не упомянул Трампа, понятно, почему он быстро среагировал. Именно на Тайване базируется компания TSMC, которая продаёт почти две трети полупроводников в мире. Она выиграла в технологической борьбе у Intel и Samsung — создаёт чипы по самым современным техпроцессам для Nvidia, Qualcomm и других американских компаний. Как результат — вносит существенный вклад в профицит Тайваня при торговле США. Прям двойной удар по стремлению Трампа сделать США высокотехнологичной и уменьшить госдолг.
Дальше всё сложно. На поверхности лежит стремление Трампа перенести в США передовое производство чипов. Ещё в 2020-м он начал программу постройки современных фабрик микроэлектроники, в которую вписался и Intel — и это стало одной из причин текущих рекордных убытков компании. Но TSMC тоже не смогла «откупиться». Компания пыталась построить современную фабрику в США, но американские рабочие отказываются вкалывать по 12 часов в день в невыносимых условиях и за скромную зарплату. Так что фабрику TSMC может и достроит, но расходы растут и сроки явно затягиваются.
Между тем Тайвань всё равно никуда не денется от контроля США. Самые современные установки для литографии он закупает в голландской компании ASML, а та в свою очередь использует сверхмощные лазеры из США. Получается, TSMC по цепочке зависит от штатов.
А вот технологии не так просто портировать. Но возможна сложная комбинация: TSMC инвестирует в Intel и модернизирует его уже существующие заводы в США. Интересно будет посмотреть, осуществится ли такой расклад.
🗓 10.02.2011 - Сoздaн пepвый в миpe пpoгpaммиpуeмый нaнoпpoцeccop [вехи_истории]
🗓 10.02.2011 - Сoздaн пepвый в миpe пpoгpaммиpуeмый нaнoпpoцeccop
Разработанный исследователями Гарвардского университета совместно с MIT, этот процессор был создан на основе нанопроводниковых транзисторов, что позволило значительно уменьшить размеры вычислительных устройств при сохранении их высокой производительности.
Этот прорыв открыл новые перспективы для создания сверхкомпактных и энергоэффективных процессоров, которые могут использоваться в медицине, биоинженерии и других передовых областях. Возможность программирования такого процессора означала, что нанотехнологии приблизились к практическому применению в сфере гибкой электроники и даже биочипов.
Что будет дальше? Посмотрим. Маск уже вживляет чипы в голову человеку...
📝 Напишите в комментарии, а какой у вас был процессор на первом компьютере?)
формулаВсем привет! Продолжаем занимать вас интеллектуальными задачами, и наша следующая — с уровнем уровень сложности «эксперт»:
Вы — Агент K, работающий в «Департамента мостов и тоннелей» («Люди в черном» / Men-in-Black). У вас 24 часа, чтобы обучить большую языковую модель для общения с аркелианцами. Сколько GPU NVIDIA A100 нужно для вашего суперкомпьютера, чтобы успеть обучить модель за это время и спасти Землю? Создайте формулу для вычисления машинного времени суперкомпьютера (в GFLOPS или в GPU-часах), затрачиваемого на обучение модели не хуже чем Llama 2 70B (с возможностью применения для оценки времени обучения других моделей).
Время обучения Llama 2 — 1720320 GPU-часов, для обучения модели использован датасет с 2 триллионами токенов. Другие необходимые данные возьмите в интернете.
Будет хорошо, если ваша формула будет учитывать размеры обучающего датасета, число параметров сети, число слоев, оценку количества эпох и другие необходимые вам параметры. Ожидаемая форма ответа — это методика / формула вашего расчета.
Варианты ответов оставляйте в комментариях 👇 В пятницу — 10 января — Павел Бузин (@pbuzin) — эксперт Cloud.ru по AI и машинному обучению, раскроет правильный ответ под этим постом.
И оставляйте реакции и предложения — как вам такой формат, что можно улучшить?
Главная новость минувших выходных, что Intel разучилась делать процессоры. Процент брака процессорных кристаллов по тестируемому новейшему техпроцессу Intel 18A (~2 нм) составляет аж 90%. Цифра относительная, но показывает, что серийный выпуск невозможен. При этом полтора года назад утверждалось, что массовое производство по 18А стартует в конце 2024 года.
Не буду расписывать причины (не всеми деталями владею), а лучше покажу пару слайдов из далекого 2005 года с калифорнийского IDF. Тогда Intel осваивала техпроцесс 65 нм. На первом слайде указан предел классической планарной технологии производства транзисторов в 20-30 нм (размер затвора), а пределом идеального транзистора обозначен размер 5 нм. Цифра 0,54 нм – это размер кристаллической решетки кремния.
Другими словами, в транзисторах сегодняшних передовых чипов есть места, где толщина проводников составляет дюжину атомов! В таких масштабах свойства материалов становятся несколько другими.
И что думала Intel про все это в 2005 году? Ответ на втором слайде. Начиная с 16 нм должна была произойти технологическая революция. Она произошла, но отчасти в маркетинге, когда техпроцесс перестал означать размер затвора транзистора и стал некой условной технологической величиной (реальный размер транзистора по 2 нм технологии ~30х20 нм).
P.S. Однако для нас это напоминалка, что в современных чипах (у TSMC тестовые прогоны технологии 2 нм показали выход годных кристаллов в 60%) производители оперируют уже на уровне атомов, и физический предел скоро будет достигнут.
Производители SoC, как правило, предоставляют окружение для разработки и документацию с примерами реализации универсальных решений. Но много важных деталей упускается или скрывается от пользователя. В итоге нетривиальная модификация системы требует долгих исследований и экспериментов.
Изучили все нюансы на практике за вас, реализовав проект запуска Embedded Linux на Hard- и Soft-процессорах Xilinx Zynq. Пойдем по этапам: