Comments / Profile of ErmIg / Habr

Ермолаев Игорь@ErmIg

Пользователь

Subscribers

Как я написал движок распознавания лиц на C, который обогнал ONNX Runtime

Здравствуйте. А это какая-то квантизированная модель? (Иначе к чему тут AVX-512VNNI).

Если это не какая-то внутренняя разработка, то можете на нее ссылку кинуть? Хотелось бы ее потестировать на своем движке.

Как Nvidia может случайно уничтожить 90% собственного рынка (и даже не заметить этого)

ErmIg Dec 11 2025 at 08:01

А вот я не очень понимаю, откуда возьмется резкое увеличение производительности GPU в ближайшее время. Последнее время основной прирост был за счет внедрения форматов пониженной точности: FP16 -> FP8 -> FP4, а также за счет внедрения матричных ускорителей (предыдущий этап). Дальше уменьшать размерность уже наверно особенно некуда. Остается только рост числа вычислителей на чипе, но он тоже не быстрый в последнее время в лучшем случае 10-15% в год.

Я — идеальный программист

ErmIg Sep 14 2025 at 15:00

Он с восходом на работе,
А домой уходит в ночь,
На работу в выходные
Тоже он придти не прочь!

За троих всегда он пашет,
Перекур не для него,
В отпуск палкой не загонишь,
А здоровье - ого-го!

Это мастер на все руки,
Он старателен, сметлив,
И жару, и холод терпит,
И в еде не прихотлив!

Десять лет имеет стажа,
Два диплома, кандидат,
Но при этом его возраст -
Двадцать пять и не женат!

Как собака фирме предан
И конечно лично вам,
Ну и главное конечно -
Равнодушен он к деньгам!

Ни одна реализация элементарных функций не соответствует стандарту IEEE 754

ErmIg Feb 15 2025 at 07:59

Полная идентичность операций с плавающей запятой не достижима уже на уровне A×B+C != FMA(A,B,C). Т.е. код с AVX2 и без него даёт разную погрешность.

Теоретическая и реальная производительность Intel AMX

ErmIg Sep 30 2024 at 10:48

Блок AMX в каждом ядре стоит. Так что если задача достаточно большая, то AMX практически всегда обгоняет AVX-512. Если смотреть на более реальных задачах задачах инференса моделей целиком, то AMX обгоняет AVX-512 в 2-3 раза.

Что из себя представляет российский литограф

ErmIg Jul 30 2024 at 06:27

Водород получают из природного газа. Электролизом будет дороже в разы. Но это так для уточнения.

Панорама матричных расширений: от x86 до RISC-V

ErmIg Jul 12 2024 at 10:33

Если интересует практика использования AMX и как его применять для реального умножения матриц, то могу порекомендовать: https://habr.com/ru/articles/807033/

Панорама матричных расширений: от x86 до RISC-V

ErmIg Jul 12 2024 at 10:29

Если смотреть на Intel AMX, то по умолчанию матричные регистры отключены. Их включают перед использованием и выключают после них. На сколько я понимаю, как раз чтобы избежать указанные вами проблемы с переключением контекста.

Волевые качества. Почему одни люди более волевые, чем другие?

ErmIg Jun 16 2024 at 09:15

Я ни разу не сварщик, но предположу вариант: нарушение механизма блокировки по каким-то причинам?

Теоретическая и реальная производительность Intel AMX

ErmIg Apr 25 2024 at 07:24

Тут не поспоришь.

Теоретическая и реальная производительность Intel AMX

ErmIg Apr 25 2024 at 06:44

В следующем (шестом) поколении серверных процессоров Granite Rapids ожидается добавление в AMX поддержки формата FP16 (5 бит экспонента, 10 бит мантисса), а также комплексных (тоже FP16) чисел.
Искал, но ничего не нашел. С одной стороны, АМД только недавно внедрили полноценный AVX-512. С другой стороны, если они через несколько лет внедрят AMX сразу за один раз (INT8, BF16, FP16) может будет даже лучше с точки зрения поддержки. А вообще, как мне кажется, AMX в той или иной форме - это практически единственный путь дальнейшего повышения производительности, если не считать дальнейшее увеличение числа ядер.

Теоретическая и реальная производительность Intel AMX

ErmIg Apr 22 2024 at 07:55

Да судя по результатам тестов блок AMX один на ядро. Я пробовал запускать команды AMX последовательно и с возможностью их одновременного исполнения. Если бы там было больше одного исполняемого устройства, то это было бы видно, но результат идентичен для обоих случаев.
Операции AMX выполняются синхронно. Операция матричного умножения выполняется 16 тактов. Судя по содержанию конфигурационного регистра, ОС может прервать выполнение этой инструкции и потом продолжить исполнение с произвольной позиции (за это отвечает параметр startRow). На пользовательском уровне что-либо подобное сделать нельзя. При любом изменении конфигурации происходит очистка регистров с данными.
AMX регистры могут работать только с памятью (кэшем). Из обычных регистров туда что-либо загрузить или выгрузить нельзя, хотя было бы очень удобно для ряда операций (подготовка данных на лету, пост обработка результатов).

Теоретическая и реальная производительность Intel AMX

ErmIg Apr 11 2024 at 14:19

А нет ли смысла (и возможно ли) использовать и то и другое одновременно?

Я первым делом померял производительность AVX512_BF16 на Sapphire Rapids. Может я его не правильно использовал, но получилось, что он работает в 2 раза медленнее обычного AVX512. По сути бесполезен. Я так огорчился, что даже выпилил весь код с ним из Simd.

Да, для самообразования (и образования других) работа отличная. Но стоит посмотреть, сколько ещё могут выжать профессионалы (всё таки нюансов там много, скажем даже при обычном умножении матриц на SSE/AVX/AVX512 кроме обычного кеша надо думать ещё про TLB).

Смотрю разное, изучаю. Если будут какие нюансы обнаружены, добавлю в статью.

Пока писал статью, нашел нюансы позволяющие выжать дополнительные 20% :)

Теоретическая и реальная производительность Intel AMX

ErmIg Apr 11 2024 at 13:39

Тут такое дело, что AVX512_BF16 отдельно от AMX достаточно редко встречается (в Cooper Lake есть, в следующем поколении Ice Lake его уже нет). Но в целом с замечанием согласен.

С oneDNN пока не сравнивал. Было желание самому разобраться с тем как это работает.

Рассекреченное видео демонстрирует лазерное оружие DragonFire в действии

ErmIg Mar 15 2024 at 08:43

10 см пучка в диаметре я лично не видел :) - это у очень мощных лазеров, таких в нашей лаборатории не было. Но вообще диаметр пучка ограничивается диаметром активной зоны и диаметром зеркала резонатора. Других причин нет.

Рассекреченное видео демонстрирует лазерное оружие DragonFire в действии

ErmIg Mar 14 2024 at 12:32

Не совсем так. Дифракционное рассеяние лазерного пучка (угловое расхождение) обратно пропорционально диаметру пучка: ~(длина волны) / (диаметр пучка). А расстояние на котором лазерный пучок расходится в двое ~(диаметр пучка)^2 / (длина волны). 1 мм лазерный луч расходится на расстоянии 1 м, а 10 см на расстоянии -10 км.

Как калькуляторы вычисляют синус?

ErmIg Mar 11 2024 at 11:13

Да к стати. Недавно нужно было реализовать быструю SIMD версию функций cos() и sin().

Использовал полиномы Чебышева. Если кому интересно: версии SSE/AVX/AVX-512 : https://github.com/ermig1979/Simd/blob/master/src/Simd/SimdTrigonometric.h

Ода бесполезности споров

ErmIg Jan 9 2024 at 08:41

Хоть картошка и не теплокровная, но вполне себе живая и дышит. И выделяет тепло, особенно при гниении.

Химический ракетный двигатель с высоким удельным импульсом

ErmIg Dec 28 2023 at 10:00

Действительно: E=q*U=m*V^2/2 => V = Sqrt(q*U * 2 / m ), Скорость истечения обратно пропорциональна корню молярной массы вещества. Однако изменение импульса P = V*m = Sqrt(E * 2 * m ) уже пропорционально корню молярной массы при заданной энергии. Так как все современные ионные двигатели ограничены в основном со стороны источников питания, то естественно, что в качестве рабочего тела логично использовать наиболее тяжелые ионы для создания наибольшей тяги.

Мой заржавелый мозг кипел. Я думал, что в 40+ лет нет смысла даже пытаться. Зачем предпринимателю идти в IT

ErmIg Dec 24 2023 at 22:54

Как бы существует большая разница между прототипом распознавания какой-либо ситуации или объекта при помощи нейросети, которое сейчас достаточно легко на коленке реализуется любым студентом и законченным продуктом, когда задача дожна быть решена с заданной точностью и эффективностью.

2 3 ...

11 12