Комментарии / Профиль ErmIg / Хабр

Ермолаев Игорь@ErmIg

Пользователь

Подписчики

ПрофильСтатьи11ПостыНовостиКомментарии227

Как Nvidia может случайно уничтожить 90% собственного рынка (и даже не заметить этого)

ErmIg 11 дек 2025 в 08:01

А вот я не очень понимаю, откуда возьмется резкое увеличение производительности GPU в ближайшее время. Последнее время основной прирост был за счет внедрения форматов пониженной точности: FP16 -> FP8 -> FP4, а также за счет внедрения матричных ускорителей (предыдущий этап). Дальше уменьшать размерность уже наверно особенно некуда. Остается только рост числа вычислителей на чипе, но он тоже не быстрый в последнее время в лучшем случае 10-15% в год.

Я — идеальный программист

ErmIg 14 сен 2025 в 15:00

Он с восходом на работе,
А домой уходит в ночь,
На работу в выходные
Тоже он придти не прочь!

За троих всегда он пашет,
Перекур не для него,
В отпуск палкой не загонишь,
А здоровье - ого-го!

Это мастер на все руки,
Он старателен, сметлив,
И жару, и холод терпит,
И в еде не прихотлив!

Десять лет имеет стажа,
Два диплома, кандидат,
Но при этом его возраст -
Двадцать пять и не женат!

Как собака фирме предан
И конечно лично вам,
Ну и главное конечно -
Равнодушен он к деньгам!

Ни одна реализация элементарных функций не соответствует стандарту IEEE 754

ErmIg 15 фев 2025 в 07:59

Полная идентичность операций с плавающей запятой не достижима уже на уровне A×B+C != FMA(A,B,C). Т.е. код с AVX2 и без него даёт разную погрешность.

Теоретическая и реальная производительность Intel AMX

ErmIg 30 сен 2024 в 10:48

Блок AMX в каждом ядре стоит. Так что если задача достаточно большая, то AMX практически всегда обгоняет AVX-512. Если смотреть на более реальных задачах задачах инференса моделей целиком, то AMX обгоняет AVX-512 в 2-3 раза.

Что из себя представляет российский литограф

ErmIg 30 июл 2024 в 06:27

Водород получают из природного газа. Электролизом будет дороже в разы. Но это так для уточнения.

Панорама матричных расширений: от x86 до RISC-V

ErmIg 12 июл 2024 в 10:33

Если интересует практика использования AMX и как его применять для реального умножения матриц, то могу порекомендовать: https://habr.com/ru/articles/807033/

Панорама матричных расширений: от x86 до RISC-V

ErmIg 12 июл 2024 в 10:29

Если смотреть на Intel AMX, то по умолчанию матричные регистры отключены. Их включают перед использованием и выключают после них. На сколько я понимаю, как раз чтобы избежать указанные вами проблемы с переключением контекста.

Волевые качества. Почему одни люди более волевые, чем другие?

ErmIg 16 июн 2024 в 09:15

Я ни разу не сварщик, но предположу вариант: нарушение механизма блокировки по каким-то причинам?

Теоретическая и реальная производительность Intel AMX

ErmIg 25 апр 2024 в 07:24

Тут не поспоришь.

Теоретическая и реальная производительность Intel AMX

ErmIg 25 апр 2024 в 06:44

В следующем (шестом) поколении серверных процессоров Granite Rapids ожидается добавление в AMX поддержки формата FP16 (5 бит экспонента, 10 бит мантисса), а также комплексных (тоже FP16) чисел.
Искал, но ничего не нашел. С одной стороны, АМД только недавно внедрили полноценный AVX-512. С другой стороны, если они через несколько лет внедрят AMX сразу за один раз (INT8, BF16, FP16) может будет даже лучше с точки зрения поддержки. А вообще, как мне кажется, AMX в той или иной форме - это практически единственный путь дальнейшего повышения производительности, если не считать дальнейшее увеличение числа ядер.

Теоретическая и реальная производительность Intel AMX

ErmIg 22 апр 2024 в 07:55

Да судя по результатам тестов блок AMX один на ядро. Я пробовал запускать команды AMX последовательно и с возможностью их одновременного исполнения. Если бы там было больше одного исполняемого устройства, то это было бы видно, но результат идентичен для обоих случаев.
Операции AMX выполняются синхронно. Операция матричного умножения выполняется 16 тактов. Судя по содержанию конфигурационного регистра, ОС может прервать выполнение этой инструкции и потом продолжить исполнение с произвольной позиции (за это отвечает параметр startRow). На пользовательском уровне что-либо подобное сделать нельзя. При любом изменении конфигурации происходит очистка регистров с данными.
AMX регистры могут работать только с памятью (кэшем). Из обычных регистров туда что-либо загрузить или выгрузить нельзя, хотя было бы очень удобно для ряда операций (подготовка данных на лету, пост обработка результатов).

Теоретическая и реальная производительность Intel AMX

ErmIg 11 апр 2024 в 14:19

А нет ли смысла (и возможно ли) использовать и то и другое одновременно?

Я первым делом померял производительность AVX512_BF16 на Sapphire Rapids. Может я его не правильно использовал, но получилось, что он работает в 2 раза медленнее обычного AVX512. По сути бесполезен. Я так огорчился, что даже выпилил весь код с ним из Simd.

Да, для самообразования (и образования других) работа отличная. Но стоит посмотреть, сколько ещё могут выжать профессионалы (всё таки нюансов там много, скажем даже при обычном умножении матриц на SSE/AVX/AVX512 кроме обычного кеша надо думать ещё про TLB).

Смотрю разное, изучаю. Если будут какие нюансы обнаружены, добавлю в статью.

Пока писал статью, нашел нюансы позволяющие выжать дополнительные 20% :)

Теоретическая и реальная производительность Intel AMX

ErmIg 11 апр 2024 в 13:39

Тут такое дело, что AVX512_BF16 отдельно от AMX достаточно редко встречается (в Cooper Lake есть, в следующем поколении Ice Lake его уже нет). Но в целом с замечанием согласен.

С oneDNN пока не сравнивал. Было желание самому разобраться с тем как это работает.

Рассекреченное видео демонстрирует лазерное оружие DragonFire в действии

ErmIg 15 мар 2024 в 08:43

10 см пучка в диаметре я лично не видел :) - это у очень мощных лазеров, таких в нашей лаборатории не было. Но вообще диаметр пучка ограничивается диаметром активной зоны и диаметром зеркала резонатора. Других причин нет.

Рассекреченное видео демонстрирует лазерное оружие DragonFire в действии

ErmIg 14 мар 2024 в 12:32

Не совсем так. Дифракционное рассеяние лазерного пучка (угловое расхождение) обратно пропорционально диаметру пучка: ~(длина волны) / (диаметр пучка). А расстояние на котором лазерный пучок расходится в двое ~(диаметр пучка)^2 / (длина волны). 1 мм лазерный луч расходится на расстоянии 1 м, а 10 см на расстоянии -10 км.

Как калькуляторы вычисляют синус?

ErmIg 11 мар 2024 в 11:13

Да к стати. Недавно нужно было реализовать быструю SIMD версию функций cos() и sin().

Использовал полиномы Чебышева. Если кому интересно: версии SSE/AVX/AVX-512 : https://github.com/ermig1979/Simd/blob/master/src/Simd/SimdTrigonometric.h

Ода бесполезности споров

ErmIg 9 янв 2024 в 08:41

Хоть картошка и не теплокровная, но вполне себе живая и дышит. И выделяет тепло, особенно при гниении.

Химический ракетный двигатель с высоким удельным импульсом

ErmIg 28 дек 2023 в 10:00

Действительно: E=q*U=m*V^2/2 => V = Sqrt(q*U * 2 / m ), Скорость истечения обратно пропорциональна корню молярной массы вещества. Однако изменение импульса P = V*m = Sqrt(E * 2 * m ) уже пропорционально корню молярной массы при заданной энергии. Так как все современные ионные двигатели ограничены в основном со стороны источников питания, то естественно, что в качестве рабочего тела логично использовать наиболее тяжелые ионы для создания наибольшей тяги.

Мой заржавелый мозг кипел. Я думал, что в 40+ лет нет смысла даже пытаться. Зачем предпринимателю идти в IT

ErmIg 24 дек 2023 в 22:54

Как бы существует большая разница между прототипом распознавания какой-либо ситуации или объекта при помощи нейросети, которое сейчас достаточно легко на коленке реализуется любым студентом и законченным продуктом, когда задача дожна быть решена с заданной точностью и эффективностью.

Как оптимизировать код на С для x86-процессоров: подсистема кэша и памяти, инструкции AVX-512

ErmIg 16 дек 2023 в 16:04

Спасибо за статью. Я бы добавил небольшой раздел про то, как определить наличие этого самого расширения AVX-512VBMI (далеко не каждый сервер его поддерживает, не говоря уже про десктоп). А так же что, делать если такого расширения нет.

2 3 ...

11 12