Обновить
256K+

Процессоры

Изучаем мозги вычислительных устройств

194,48
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Ставка на упаковку чипов: почему Intel меняет подход к разработке процессоров

Время на прочтение5 мин
Охват и читатели4.1K

В полупроводниковой отрасли последние годы наметился заметный сдвиг. Долгое время развитие шло за счет уменьшения техпроцесса: чем меньше транзисторы, тем выше плотность и производительность. Но сейчас этот подход дает все меньше прироста, тогда как требования к вычислительной мощности, особенно со стороны систем искусственного интеллекта, продолжают быстро расти.

Intel решила сделать серьезную ставку именно на продвинутую упаковку чипов. Компания сосредоточилась на технологиях, которые позволяют собирать сложные системы из нескольких кристаллов в одном корпусе, и это постепенно меняет правила игры во всей индустрии процессоров.

Читать далее

Новости

«Мозг в пробирке» и новая вычислительная парадигма: почему нейроморфные системы и биокомпьютеры уже не фантастика

Время на прочтение15 мин
Охват и читатели5.9K

Когда в медиа появилась новость, что выращенный в лаборатории мозговой органоид научили решать задачу управления, многие увидели в этом очередную научную сенсацию из серии «человечество создало живой компьютер». Другие, наоборот, отмахнулись: мол, это красивый эксперимент, который не имеет отношения к реальной индустрии и никогда не выйдет за пределы научной статьи. Обе реакции понятны, но обе упускают главное.

Ценность подобных работ в другом: они показывают, что на стыке вычислительной техники, нейронауки и биоинженерии постепенно формируется новое поле, в котором вычисление перестает быть исключительно задачей кремниевой электроники в ее привычном виде. Еще недавно разговор о нейроморфных системах воспринимался как смесь академической романтики и идеологического футуризма. Но теперь у этого разговора появляются собственные артефакты — метрики, архитектуры, платформы, ранние продукты и, что особенно важно, инженерные ограничения, которые уже можно обсуждать всерьез.

Поговорим о том, что такое нейроморфные вычисления, почему ими занимаются не только нейробиологи, но и крупнейшие технологические компании, почему между лабораторным прототипом и настоящим рынком лежит огромная дистанция и как, несмотря на разрыв, за развитием этой сферы уже стоит следить почти так же внимательно, как когда-то за первыми GPU-ускорителями, квантовыми компьютерами или edge AI.

Читать далее

Зачем нужна специализация варпов. Разбор сложных случаев

Время на прочтение20 мин
Охват и читатели8.4K

Апдейт: идеи, изложенные в этой статье, позволили сформулировать оптимальные стратегии warp-специализации, описанные в научной публикации, которую можно посмотреть здесь.

Недавно я глубоко задумался о специализации варпов в контексте высокопроизводительных ядер для современных графических процессоров (GPU) на тензорных ядрах. Примеры таких процессоров — H100 и B200 от NVIDIA. Я стал полнее понимать, чего можно добиться при помощи специализации варпов, а также задался интересным вопросом: а нужна ли нам вообще специализация варпов (и вся та сложность, которую она с собой влечёт)? В итоге я пришёл к выводу, что, да, нуждаемся, но она не столь обязательна, как может показаться. В этом посте обсудим, в каких случаях без специализации варпов действительно не обойтись, а также я опишу, на каком пространстве компромиссов она зиждется, и какие границы этого пространства я вижу. Притом, что я обрисую некоторый контекст, касающийся графических процессоров, необходимый для обсуждения тем, которые мы взялись здесь рассмотреть, эту статью нельзя считать туториалом. Предполагается, что читатель имеет некоторый опыт работы с GPU и имеет опыт параллельного программирования.

Читать далее

DMA в userspace на Zynq US+: собираем данные AXI-Stream для CPU

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели8.2K

Привет! Меня зовут Данил, я разрабатываю прикладное ПО для радиочастотных систем YADRO. В этой статье я расскажу об одном из вариантов сбора данных AXI-Stream для обработки на CPU, рассмотрю в этом контексте возможности и требования блока AXI DMA, а напоследок порассуждаю о когерентности кешей и о том, что на самом деле здесь требуется от драйвера ядра.

Читать далее

SIMD-парсер CSV

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели6.9K

Год назад я написал парсер CSV, способный обрабатывать 64 символа за раз. Он создан исключительно в исследовательских целях и в нём не учтены важнейшие этапы продакшен-парсера наподобие валидации. Сегодня я расскажу о базовом алгоритме, использующем SIMD и побитовые операции для групповой фильтрации структурных символов.

Читать далее

Многопоточный софт-процессор с архитектурой RISC-V… немного размышлений

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели9.1K

Предполагается, что многопоточный вариант софт-ядра, позволит эффективнее встраивать его в FPGA-проекты в качестве управляющего, контролирующего блока. Выделенные теневые регистры состояний позволят упростить переключение контента между программными задачами и, дополнительно, упростят блок обработки прерываний. Следование концепции архитектуры RISC-V в некоторых моментах упрощает написание и поддержку программного кода на языках высокого уровня хотя в практике относительно небольших, или сильно специфических проектов выгоднее работать в рамках виртуальных языковых машин, или разрабатывать DSL. В предложенной реализации микроархитектуры контексты потоков сохраняются в наборах т.н. теневых регистров, отображаемых в момент выполнения потока на регистры общего назначения x0-x31 и программный счетчик (PC). Предлагаемая концепция управления потоками выполнения предназначена, прежде всего, для софт-процессоров, и для систем с одним уровнем привилегий – машинным – уровень микроконтроллерных встраиваемых систем. Все потоки предполагаются равноправными и работающими в едином адресном пространстве. Защита данных потоков и контроль за доступом к общим переменным выносится на уровень программного обеспечения. Рассмотрение ведётся для минимального набора инструкций I+Zicsr (целочисленные операции плюс работа с регистрами специального назначения (CSR). Для управления и настройки параметров потоков предлагается задействовать набор CSR-регистров.

Читать далее

CLI через Segger J-Link RTT на ARM Cortex-M (или однопортовая лапароскопия)

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели8.6K

В этом тексте я написал про то как наладить интерфейс командной строки (CLI) по двухпроводному синхронному отладочному интерфейсу SWD.

Посылать в прошивку команды и получать ответ.

Чтобы можно было работать примерно как с UART, только по SWD.

Это когда прошивка в коде асинхронно получает текстовую строку от PC и отправляет текст обратно в сторону PC.

Читать далее

1,5 года ожиданий впустую? Intel Core Ultra 200S Plus и 200HX Plus

Время на прочтение5 мин
Охват и читатели9.7K

В 2024 году Intel представили линейку Intel Core Ultra 200S Arrow Lake-S. Она состоит из пяти процессоров в конфигурации от 14 до 24 ядер. Революционных изменений в продукте не случилось, заметное отличие — только в отдельном позиционировании GPU XE ядер.

Наконец, спустя полтора года сразу после анонса рассказываю вам об обновленных десктопных Core Ultra 200S Plus и Core Ultra 200HX Plus. Достаточно ли они хороши, чтобы начать обновляться? Или это не более чем набор косметических изменений? Подробности в статье.

Читать далее

SD карта как память программ для RISC-V ядра YRV на FPGA Tang Nano 9K

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели8.4K

Решаем вопрос нехватки оперативной памяти на недорогих отладках в домашнем софтядерном процессоростроении. Попытка реализовать прототип PicoSoC, но на ядре YRV и с SD картой на отладке Tang Nano 9K.

Читать далее

Шахматная партия архитекторов: Arm разрушает 35-летний нейтралитет для собственных ИИ-процессоров

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели8.7K

Представьте себе автоспортивное конструкторское бюро, которое тридцать пять лет чертило безупречные двигатели для всего пелотона Формулы-1, но никогда не выставляло на трассу собственный болид. Британская Arm Holdings десятилетиями была такой абсолютной «Швейцарией» Кремниевой долины. Она была невидимым фундаментом вычислений, продавая интеллектуальную собственность и лицензии на архитектуру всем: от Apple до Qualcomm и Nvidia. Никакого физического производства, только идеальные чертежи.

Но эволюция технологий сломала эти правила. Пока нейросети были относительно простыми, их задача сводилась к генерации: выдать текст, написать код в окне чата, нарисовать картинку. Для этой математики идеально подходили графические ускорители (ГПУ), где ИИ фактически и обитает. Однако по мере взросления модели становятся умнее. Им уже мало просто отвечать на вопросы — они начинают активно использовать внешние инструменты для выполнения десятков задач пользователей.

Чтобы искать данные в реальном времени, запускать тяжелые скрипты в изолированных средах и управлять сторонними программами, ИИ нужен быстрый исполнитель. Этим исполнителем выступает центральный процессор (ЦПУ). И чем сложнее становятся ИИ-агенты, тем острее им требуется сверхмощная процессорная логика для работы их инструментов.

Видя взрывной спрос на классическую логику, руководство осознало, что продавать концепты больше недостаточно. Во вторник, на конференции «Arm Everywhere» в Сан-Франциско, архитекторы отложили циркуль и взялись за кремний.

Читать далее

FOOF. Воспроизводим легендарный баг в процессоре Pentium

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели12K

Приветствую всех!

Думаю, при упоминании знаменитого бага в процессоре Intel Pentium на ум сразу приходит ошибка деления. Но, как оказывается, она была не единственным косяком этих чипов.

Первые «пеньки» имели ещё одну интересную особенность: существовали «роковые» четыре байта, выполнение которых заставляло компьютер зависнуть намертво. Что же это была за ошибка, как она проявлялась и как её воспроизвести? Сейчас и узнаем.

Press F1 to continue

Процессоры для ноутбуков от NVIDIA: что известно о характеристиках N1/N1X

Время на прочтение5 мин
Охват и читатели6.1K

Во втором квартале 2026 года ожидается выход процессоров NVIDIA новой линейки N1/N1X, которая создается в партнерстве с MediaTek. Чипы объединяют 20-ядерный ARM-процессор и интегрированную графику Blackwell с 6144 CUDA-ядрами, как у настольной RTX 5070. Одними из первых устройств ожидаются ноутбуки Dell и Lenovo, включая игровые Alienware и трансформеры Yoga.

Разберемся, как устроена архитектура N1/N1X, для каких задач эти чипы подходят лучше всего и когда они появятся в продаже.

Читать далее

Черная магия FPGA-разработчика: как мы превращаем идеи в железо

Уровень сложностиПростой
Время на прочтение19 мин
Охват и читатели14K

Привет, Хабр! Меня зовут Кирилл Алексеев, я старший инженер по разработке аппаратного обеспечения в отделе интеграции систем на кристалле радиочастотного центра YADRO. В мире FPGA я уже больше 10 лет. 

В учебных программах разработка под FPGA (ПЛИС, программируемые логические интегральные схемы) освещается довольно мало. Может возникнуть ощущение, что это «странная» область предназначена только для радиофизиков или гиков. Но и в эту сферу уже давно пришел прогресс с системами контроля версий, таскбордами, VS-кодом, Python-скриптами и даже с элементами объектно-ориентированного программирования при верификации цифровых схем. Этой статьей я хочу «десакрализировать» тему FPGA-разработки, обозначив крупными мазками стек используемых технологий и отразив повседневные задачи, которые стоят перед FPGA-разработчиком. Для примера возьмем workflow нашего отдела. 

Статья будет полезна молодым специалистам, которые только определяются с карьерным треком. А еще это отличная шпаргалка, которая поможет быстро (ну или не совсем быстро) объяснить непрофильным коллегам, чем конкретно вы занимаетесь. Более опытных читателей приглашаю в комментарии для холивара обмена лучшими практиками.

Читать далее

Ближайшие события

Декодирование инструкций в сопроцессоре с плавающей точкой Intel 8087

Уровень сложностиСложный
Время на прочтение21 мин
Охват и читатели6.9K

Как именно чип понимает, какую инструкцию он должен выполнить? В случае с Intel 8087 этот вопрос оказывается гораздо глубже, чем просто разбор опкодов. За внешне компактным набором команд скрывается многослойная система декодирования: наблюдение за шиной, работа с ESCAPE-опкодами, комбинация логики, PLA и микрокода, а также отдельные аппаратные ветки для специальных случаев.

В статье — разбор того, как это реализовано на уровне кристалла: от структуры инструкций и роли ModR/M до выбора микрокодовых процедур и нестандартных инженерных решений, продиктованных ограничениями того времени.

Как это работает

Процессор в вашем компьютере угадывает будущее. И ошибается в 5% случаев

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели24K

В прошлую пятницу я объяснял джуну, почему его код на отсортированном массиве работает в шесть раз быстрее, чем на неотсортированном. Тот же массив, тот же алгоритм, и те же данные. Просто в другом порядке. Джун смотрел на меня как на сумасшедшего и, честно говоря, я его понимаю.

Потому что ответ звучит безумно: процессор внутри вашего ноутбука постоянно пытается предсказать будущее. Буквально. Он гадает, какая ветка if выполнится ещё до того, как условие будет вычислено. И на отсортированных данных ему угадывать проще.

Ну, давайте разбираться.

Читать далее

Intel возвращается к старой архитектуре процессоров — без гибридных ядер

Время на прочтение5 мин
Охват и читатели35K

В последние годы производители процессоров постоянно балансируют между желанием выжать максимум скорости и необходимостью держать энергопотребление в разумных рамках. Intel, как один из лидеров рынка, пробовала разные подходы, чтобы оставаться конкурентоспособной в мире, где задачи становятся все сложнее и разнообразнее.

После нескольких лет экспериментов компания сделала неожиданный поворот. Вместо того чтобы продолжать усложнять конструкцию чипов, она представила линейку, где все ядра снова стали одинаковыми. Это возвращение к старым принципам выглядит как шаг назад, но на деле может оказаться продуманным, рациональным решением для определенных задач. Давайте разбираться.

Читать далее

Пять новых мини-ПК весны 2026: от CM5 и RK3588 до Strix Halo и Panther Lake

Время на прочтение5 мин
Охват и читатели13K

В этой подборке несколько новых устройств разного уровня. Есть компактные платы на CM5 и RK3588 с упором на сеть и простые задачи. А есть мини-ПК на Strix Halo и Panther Lake с поддержкой до 128 ГБ памяти, быстрыми накопителями и встроенными ИИ-ускорителями. По этим моделям хорошо видно, насколько разными сейчас делают компактные системы: от базовых до вполне производительных конфигураций. Что ж, поехали!

Читать далее

Структуры данных на практике. Глава 7: Хэш-таблицы и конфликты кэша

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели8.4K

Миф про O(1)

Говорят, что хэш-таблицы обеспечивают поиск за O(1) — константное время, вне зависимости от размера. В теории они идеальны.

На практике я сталкивался с тем, что производительность хэш-таблиц оказывалась ниже, чем у линейного поиска по массиву.

Я оптимизировал таблицу символов для компилятора. Таблица символов использовала хэш-таблицу с 1024 бакетами, и у нас было примерно 500 символов. Расчёты выглядели отлично: средний размер бакета = 500/1024 ≈ 0,5, поэтому большинство операций поиска должно выполняться за один запрос.

Но профилировщик рассказал иную историю...

Читать далее

Умножение матриц: пример использования расширения ARM SME2 в Apple M4 Pro

Уровень сложностиСредний
Время на прочтение33 мин
Охват и читатели12K

В конце 2020 года я купил MacBook Pro 13 на процессоре Apple M1, очень хотелось испытать процессоры на архитектуре ARM. Почти сразу на чипе Apple M1 был найден вычислительный блок для матричных операций Apple AMX. Для Apple AMX не было документации, он не использовался в Apple Accelerate, но несколько энтузиастов занимались реверс-инжинирингом и анализом производительности ("https://github.com/corsix/amx"). 

В 2024 году вышли компьютеры на базе семейства процессоров Apple M4, у которых блок AMX задействован для выполнения инструкций из Scalable Matrix Extension 2 (сайт ARM недоступен в РФ) (ARM SME2). 

В статье рассмотрим использование расширения ARM SME2 на примере умножения заполненных матриц. Увидим, как выжать максимум из процессора и получить прирост производительности в десятки раз.

Читать далее

Российский микроконтроллерный блок управления судовыми преобразователями частоты. Часть 1

Уровень сложностиСложный
Время на прочтение13 мин
Охват и читатели12K

Статья посвящена микроконтроллерным системам управления преобразователями частоты для электродвигателей переменного тока. Рассмотрены различные варианты структуры и конструкции систем управления преобразователями частоты. Приводится описание российского микроконтроллерного блока управления БУПЧ, который входит в состав преобразователей частоты концерна «Русэлпром»: его технические характеристики, особенности, преимущества и недостатки по сравнению с западными аналогами. Рассматривается преобразователь частоты мощностью 1,67 МВА, управляемый блоком БУПЧ, который является базовым преобразователем частоты для судовых систем электродвижения концерна «Русэлпром».

Статья предназначена главным образом для специалистов в области микроконтроллерного управления электроприводами, но может быть полезна всем, интересующимся микропроцессорной и преобразовательной техникой, а также электроприводом.

Первая часть статьи
1
23 ...