Обновить
113.3

Процессоры

Изучаем мозги вычислительных устройств

Сначала показывать
Порог рейтинга
Уровень сложности

Обучение ИИ-моделей на обычном ЦП

Время на прочтение16 мин
Охват и читатели3.3K

Ещё раз о ЦП для машинного обучения в эпоху дефицита мощностей GPU

Недавние успехи в области ИИ зачастую связывают с появлением и эволюцией графических процессоров (GPU). Архитектура GPU, как правило, включает тысячи ядер для многопроцессорной обработки, высокоскоростную память, выделенные тензорные ядра и пр. Такая архитектура особенно хорошо подходит для рабочих нагрузок, связанных с ИИ и машинным обучением, которые отличаются высоким потреблением ресурсов. К сожалению, из-за резкого роста разработок в области ИИ также наблюдается всплеск потребности в  GPU, из-за чего возник их дефицит. В результате разработчики систем машинного обучения всё активнее изыскивают альтернативные аппаратные платформы, на которых можно было бы обучать и эксплуатировать модели. В таком качестве используются, например, выделенные специализированные интегральные схемы (ASIC) для работы с искусственным интеллектом, такие как облачные тензорные процессоры GoogleHaban Gaudi и AWS Trainium. Притом, что эти варианты позволяют значительно сэкономить, они подходят для работы не со всеми моделями машинного обучения и, подобно GPU, также остаются дефицитными. В этом посте мы вновь обратимся к старым добрым классическим процессорам (CPU) и вновь поговорим о том, насколько они адекватны применительно к современным ML-моделям. Безусловно, ЦП обычно не так хороши для обслуживания связанных с машинным обучением рабочих нагрузок как графические процессоры, зато их гораздо проще приобрести. Если бы удалось гонять на ЦП (хотя бы некоторые) из таких рабочих нагрузок, то продуктивность разработки в целом удалось бы значительно повысить.

Читать далее

Новости

Acemagic M1A Pro+: новый мини-ПК с Ryzen AI Max+ 395. Что за зверь?

Время на прочтение5 мин
Охват и читатели6.1K

Сегодня мини-ПК уже не воспринимаются как слабые офисные системы. Нет, конечно, есть и такие, но вообще спектр миниатюрных компьютеров очень широк. Среди них есть модели, которые тянут игры, монтаж видео и прочие тяжелые задачи. Один из примеров — новая модель, Acemagic M1A Pro. У него процессор AMD RyzenTM AI Max+ 395, 128 ГБ оперативной памяти LPDDR5X, графика уровня RTX 4070 Mobile и аккуратный кубический корпус.

Решил о нем написать, поскольку я сам уже больше года пользуюсь предыдущей моделью, Acemagic Tank 03. Его я приобрел по случаю, просто потому, что понравился форм-фактор. Ну и, конечно, характеристики тоже вполне себе. Полноценный десктоп я тогда брать не хотел, а мини-ПК оказался идеальным компромиссом. Можно даже сказать, я стал поклонником этого модельного ряда. В общем, в статье расскажу, о своем Tank 03. Оценим, что умеет M1A Pro+ и посмотрим, чем они отличаются. Поехали!

Читать далее

Может ли устареть инкремент: обзор выполнения оператора на современных вычислительных платформах

Уровень сложностиСредний
Время на прочтение19 мин
Охват и читатели5.1K

Привет, Хабр! В ходе своей работы я часто изучаю сам и обучаю других писать и оптимизировать код. Однако когда я рекомендую в своих материалах «делайте так», я не всегда уверен, что тиражирую актуальную и достоверную информацию.

Для подтверждения своих слов я изучаю и цитирую авторитетные источники, рекомендуемые в подборках книг, материалах конференций и курсах по C и C++.

Тем не менее этого оказывается недостаточно. Скачав и углубившись в руководства по архитектуре, системам команд и оптимизации с официальных сайтов производителей вычислительных устройств, я обнаруживаю, что информация расходится. Возникает проблема: я перестаю чувствовать уверенность в своём опыте и в материале, который хотел тиражировать другим.

В этой статье мы разберём один из таких примеров. Возьмём небольшой пример кода, сформируем рекомендации по его эффективному написанию и оценим, насколько сложно (и возможно ли вообще) обосновать их применение.

Для этого мы проанализируем рекомендации учебников по программированию, оценим их качество и актуальность. Если они окажутся недостаточными, то обратимся к руководствам производителей «железа».

Рассмотрим «простой» пример цикла, выполняющего сложение двух массивов. Слово «простой» взято в кавычки не случайно. Даже тезисное обсуждение эффективных методов сложения массивов на GPU (NVIDIA или AMD) с коллегами занимает несколько часов. Полноценно раскрыть эту тему в одной статье невозможно.
Поэтому сосредоточимся лишь на части примера – операции инкремента «i++» в управляющей части цикла.

Для анализа обратимся к книгам, рекомендованным на профильных it-ресурсах: Хабр, Яндекс.Практикум, Proglib и др.

Чтобы уточнить информацию, рассмотрим официальные руководства следующих производителей вычислительных устройств: CISC (Intel, AMD), VLIW (МЦСТ, Texas Instruments), RISC (Apple, Qualcomm, MediaTek и др.) и GPU (NVIDIA, AMD).

Читать далее

Структуры данных на практике. Глава 1: Разрыв в производительности

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели8.3K

Часть I: Основы

«В теории теория и практика одинаковы. На практике это не так». — авторство приписывается разными специалистам по computer science

Загадка

Два часа утра. Я смотрю на совершенно нелогичные данные профилирования.

В процессе работы над загрузчиком для SoC RISC-V у нас возникла проблема с производительностью. Загрузчик должен был искать конфигурации устройств в таблице: примерно пятьсот элементов, каждый с 32-битным ID устройства и указателем на данные конфигурации. Всё просто.

Мой коллега реализовал эту систему с помощью хэш-таблицы. «Поиск за O(1), — сказал он уверенно, — лучше уже некуда».

Но загрузчик работал медленно. Недопустимо медленно. Время загрузки должно было находиться в пределах 100 мс, но превышало это значение на три порядка.

Я попробовал использовать очевидную оптимизацию: заменить хэш-таблицу двоичным поиском по отсортированному массиву. Двоичный поиск занимает O(log n), что теоретически хуже, чем O(1). Так написано в учебниках. Мой преподаватель алгоритмов был бы разочарован.

Но в результате загрузчик оказался на 40% быстрее.

Как O(log n) смогло победить O(1)? Что происходит?

Читать далее

Что показали вендоры в 2025 году? Самые интересные железные новинки

Время на прочтение12 мин
Охват и читатели9.4K

Каждый месяц мы публиковали дайджесты с обзорами новинок серверного железа — от процессоров до систем хранения. И настало время подвести итоги и выделить, какие компоненты действительно задали вектор развития индустрии.

Привет! Меня зовут Сергей Ковалёв, я менеджер выделенных серверов в Selectel. В этой статье я собрал самые интересные видеокарты, процессоры, диски и другие технологии за 2025 год. Подробности под катом!

Узнать подробности

А не замахнуться ли нам на Вильяма нашего Аккермана?

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели6.3K

Продолжение статьи о разработке стекового процессора с оригинальной архитектурой.
Здесь мы занимаемся инфраструктурой - ассемблером, компилятором С и эмулятором процессора.

Про функцию Аккермана тоже будет, она используется в качестве теста.
Уж извините за кликбейтный заголовок.

Читать далее

By the pricking of my thumbs, something wicked this way comes

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели5.6K

Эту фразу из "Макбета" Шекспира автор осмелится перевести как "благодаря зуду на кончиках моих пальцев может появиться что-то очень странное".

Изначально хотелось всего-лишь ознакомиться с Verilog, но, "опасное это дело, выходить за порог: стоит ступить на дорогу и, если дашь волю ногам, неизвестно куда тебя занесет".

Занесло в сторону процессора с собственной архитектурой. Автор давно неровно дышит в сторону стековых процессоров, здесь так же присутствуют раздельные конвейеры для потоков управления/исполнения и расширяемая упаковка кода.

Надеюсь, это окажется кому-то полезным, так же как когда-то автору был полезен игрушечный hoc из книги Кернигана и Пайка "Unix - программное окружение".

Читать далее

Core i9 vs Apple M2: как честно сравнивать калькуляторы с суперкомпьютерами

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели12K

Представьте ситуацию: вы выбираете между Intel Core i9 и Apple M2 (как пример двух мощных систем). Один потребляет 300 Ватт и греется как печка, другой — 30 Ватт и работает от батареи 20 часов. Один показывает 200 FPS в играх, другой — 90, но в три раза эффективнее. Один стоит $600, другой — встроен в ноутбук за $800. Кого вы выберете?

Читать далее

Процессор, которого не существует. Читаем и пишем ПЗУ

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели12K

Автомобильные блоки управления полны компонентов, промаркированных нестандартно. Например, встречались микросхемы, на которых выбито "Toyota", хотя ежу понятно, что Toyota никаких процессоров не производит. Но в мире электроники при больших партиях производители чипов имеют возможность выбить на чипе ваш логотип, или маркировку, и разработчики ЭБУ этим активно пользуются, хотя цели их не совсем ясны.

Но нестандартная маркировка - это еще цветочки! Существует огромный пласт кастомных компонентов, выполненных "под заказ" для конкретного производителя ЭБУ. Такие проприетарные компоненты зачастую не только не имеют открытой документации, но и отсутствуют в линейке производителя.

Не так давно мы разбирались с процессором TMS470R1A256, очень популярный в блоках SRS 2007-2010 г.в.. На нём выбивают маркировки: TMS470R1VF3482 или TMS470AVF3482, однако достаточно подключиться к этому процессору посредством отладчика чтобы понять, что это процессор TMS470R1A256. Дело в том, что согласно datasheet на эти процессоры, в каждом процессоре есть device identification code register, прочитав который, вы сможете узнать part number данного процессора, который уже можно отыскать в datasheet.
Например, для TMS470R1A256: `The assigned device-specific part number for the A256 device is 0001010` что при переводе в hex = 0x0A. Много разработчиков написало программы для чтения данных процессоров, но почему-то блоки с процессорами, записанными этими программами, не выходили на связь. Пришлось разбираться с этим вопросом самостоятельно, результатом чего стала версия программы JLinkZReader, в которой проблема чтения и записи данных CPU была решена.

Читать далее

Что было на FPGA-Systems 2025: пятерка лучших докладов по оценкам зрителей

Время на прочтение3 мин
Охват и читатели8.3K

В этом году традиционная совместная конференция FPGA-Systems и YADRO получилась максимально насыщенной. RTL-разработка и синтез, верификация и тестирование — в двух потоках спикеры целый день сменяли друг друга, что вылилось в целых 16 разнообразных выступлений. Мы попросили зрителей оценить их, и в этом посте собрали пятерку топовых и популярных. За видео и прочим — добро пожаловать под кат.

Что там по FPGA?

Пошаговая GDB отладка прошивки STM32 из консоли cmd

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели9K

Порой бывает так, что вы скачиваете open-source репозиторий, а там нет файлов .project и .сproject для eclipse или файлы .project и .сproject есть, но они по каким-то причинам повреждены и IDE их не может открыть.

Тем не менее прошивка собирается командой make all. Ты ее прошиваешь и LED не мигает. Очевидно, что прошивка зависла. Где-то свалилась в HardFault_Handler.

В этом случае надо просто взять и запускать пошаговую отладку из консоли. Это классический способ разобраться, где же произошла осечка.

Читать далее

Оптимизируем программный декодер JPEG для архитектуры RISC-V

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели9.8K

Графический формат JPEG уменьшает размер изображений без особо заметной для глаза потери качества — упрощая тем самым их хранение и передачу. Студенты из БГУИР — Артём Подгайский, Сергей Буйвид, Юрий Наскевич и Дмитрий Степанчук — в  в рамках Зимней школы RISC-V YADRO изучили работу декодера JPEG для архитектуры RISC-V, нашли пути для его оптимизации и далее расскажут о своем проекте.

Читать далее

Exynos 2600: Samsung представил 2-нм процессор. Что за чип?

Время на прочтение5 мин
Охват и читатели12K

Компания Samsung недавно показала Exynos 2600. На минуточку, это первый в мире мобильный процессор, созданный по 2-нанометровому техпроцессу. Конечно, эти нанометры маркетинговые, но все же новинка — заметный шаг вперед для отрасли. Samsung первой довела новый техпроцесс до серийного мобильного чипа, тогда как Apple, Qualcomm и MediaTek пока что используют 3-нанометровые решения в массовых продуктах. Exynos 2600, скорее всего, станет основой для смартфонов Galaxy S26, релиз которых ожидается в феврале 2026 года. Чем интересен этот чип, как Samsung удалось вырваться вперед и какие вопросы остаются? Давайте разберемся.

Читать далее

Ближайшие события

Схемотехника стека сопроцессора Intel 8087 для чисел с плавающей запятой: реверс-инжиниринг

Уровень сложностиСложный
Время на прочтение14 мин
Охват и читатели7.7K

В 1980-м Intel 8087 превратил «плавающую точку» из мучения в рабочий инструмент для IBM PC — и заодно задал архитектурные решения, отголоски которых мы чувствуем до сих пор. В этой статье автор делает то, что обычно остаётся за пределами даташитов: вскрывает 8087, фотографирует кристалл и по слоям восстанавливает, как физически реализованы стековые регистры x87 и логика, которая двигает вершину стека, адресует ST(i) и ловит переполнения. Это разбор на уровне транзисторов, где дизайн ISA встречается с RC-задержками, SRAM-матрицами 8×80 и микрокодом, который реально «крутит» железо.

Читать разбор

Ламповый компьютер, аппаратная трассировка, логика на пневмонике: «Битовые маски» с Артёмом Кашкановым

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели8.6K

«Битовые маски» — это подкаст о системном программировании, разработке процессоров и связанных темах. Недавно мы завершили первый сезон подкаста — 25 выпусков, насыщенных интересными беседами. В новой серии статей мы вспоминаем яркие моменты прошедших эпизодов. И начнем с 24-го, где гостем стал инженер YADRO Артём Кашканов, известный энтузиаст в области ретроэлектроники, создатель проектов BrainfuckPC и DekatronPC.

Читать далее

Разрушая миф: «Из-за санкций США Китай создаст новую архитектуру RISC-X, потому что доступ к RISC-V будет заблокирован»

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели7.2K

Представьте заголовок: “Китай запускает новую архитектуру RISC-X - ответ на санкции США”. Хороший кликбейт: есть драма, геополитика и слово "архитектура". Но если выключить кликбейт-режим, остаётся классический рецепт жареной утки: берём "а вдруг?", вырываем из контекста, добавляем три щепотки паники - и подаём как "уже решили!". 

Спойлер: блокировать RISC‑V нельзя так же, как нельзя «отозвать» таблицу умножения. Это открытый стандарт (ISA), тексты опубликованы и лицензированы так, чтобы ими мог пользоваться любой, кто умеет читать и проектировать железо. Данная организация представляет собой швейцарскую ассоциацию RISC‑V International, что в значительной степени снижает геополитические риски. Хотите — форкните, назовите хоть RISC‑XXL, но экономически это как «играть в хоккей на льду в роликах с мячом, которого нет»: красиво звучит, играть неудобно, выиграть невозможно.

И этот миф мы разберем более подробно в нашем следующем материале. Всем заинтересованным - добро пожаловать под кат!

Читать далее

Моё знакомство с процессором Эльбрус-8СВ. Оптимизирую сложение массива байтов

Уровень сложностиСредний
Время на прочтение28 мин
Охват и читатели18K

Месяц назад мне в телеграм написал человек и предложил доступ к системе с процессором Эльбрус-8СВ.

И, конечно же, я согласился. Так как мне интересно.
Не каждый день неизвестные люди в Интернете предлагают доступ к удалённым хостам.

Разве может что-то пойти не так?

Возвращение «Легенды». Оживляем раритетный ПК Packard Bell

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели13K

Приветствую всех!

Вообще, брендовые ретро-ПК не так популярны у любителей, как обычные компьютеры. Несоответствие комплектующих каким-либо стандартам, отсутствие нормальной документации, отсутствие софта (типа утерянных утилит конфигурации) и неочевидные глюки - вот далеко не полный список проблем, с которыми можно столкнуться.

Но всё-таки есть экземпляры, лишённые практически всех этих косяков. И сегодня поговорим именно об одном из них - о брендовом слим-десктопе Packard Bell Legend. Как оказалось, этот девайс собрал в себе лучшее что от брендов, что от самых обычных самосборных машин...

Press <F2> to enter SETUP

Мегагерцы против 64 бит: эпическая битва AMD и Intel, которая изменила всё

Время на прочтение8 мин
Охват и читатели9.5K

В начале 2000-х годов AMD выпустила первый массовый 64-битный процессор для потребителей. В это же время Intel увязла в проблемах с архитектурой Pentium 4 NetBurst, где гонка за мегагерцами обернулась TDP до 115 Вт и производительностью ниже, чем у конкурентов.

Эта история о том, как AMD с Athlon 64 X2 доминировала на рынке, Pentium 4 Prescott превращал системные блоки в обогреватели, а Core 2 Duo вернул Intel лидерство на целое десятилетие. Разберем, почему концепция IPC стала важнее частоты и как это противостояние изменило индустрию.

Читать далее

Платы и байты #7: “Если начнут воровать наши технологии, значит, мы победили”, – Трамплин Электроникс о микроэлектронике

Уровень сложностиПростой
Время на прочтение17 мин
Охват и читатели5.1K

На каналах КЕДР Solutions вышел 7-й выпуск подкаста “Платы и байты”. Ниже представлена его текстовая версия. В этот раз директор КЕДР Solutions Егор Гуторов беседовал с Василием Воробушковым, директором по развитию компании “Трамплин Электроникс”. Говорили о состоянии и перспективах российской микроэлектроники. Если вы следите за импортозамещением и развитием наукоемких отраслей нашей страны, вы найдете материал полезным. 

Читать далее
1
23 ...

Вклад авторов