Comments / Profile of DustCn / Habr

DustCn@DustCn

User

ProfileArticles9PostsNewsComments675

Фортран: пишем параллельные программы для суперкомпьютера

@DustCn Apr 10 2023 at 22:26

На 40 ядер вы в любом случае вряд ли сможете смасштабировать smp код

Что этому помешает?

Фортран: пишем параллельные программы для суперкомпьютера

@DustCn Apr 10 2023 at 20:49

Вообще-то при написании реальных программ как раз надо стремиться написать алгоритм таким образом, чтобы обрабатывать данные порциями, более-менее умещающимися в кеш, поэтому бенчмарк вполне репрезентативен. Размер массива в тесте выбран таким образом, чтобы не делать лишних настроек в Linux, связанных со стеком OpenMP.

Ну тогда зачем вы пишете что у вас "расшивка параллельных процессов по адресам памяти ускоряет работу с оперативной памятью" если в память вы не ходите, а все сидит в кэше? Если вам настройки OpenMP мешают ну... Ну тогда что вы меряете? Считать там нечего, в память бенчмарк не ходит.

К сожалению, вы не указываете на каком процессоре вы получили свой результат (очевидно, с помощью компилятора ifort).

Intel Fortran (ifort) OneAPI2023.0. Тестовая машина: IceLake 8380 Processor 2x40 cores, 60M Cache, 2.30 GHz; 256Gb DDR4. И то что я получил 10х ускорения это вообщем то ни о чем. У вас тест без зависимостей, там только закольцовка последовательная, и ее можно тоже распараллелить. А это значит что тест должен масштабироваться линейно, с увеличением количества используемых ядер. Я еще 4х где то потерял.

Ваши догадки насчет окружения я пожалуй пропущу мимо ушей. Если вы пишете бенчмарк, то придерживайтесь хотя бы здравого смысла. А он, лично мне, говорит о том что ваш вывод - неверен.
Если сравнить OpenMP версию без зависимостей и coarray где вам нужно еще склеивать границы, то во втором дополнительной работы больше, и он должен быть медленнее. Будет время я промеряю ее на увеличенном размере, т.к. на размере L2 кэша особого смысла замерять нет. Да и характерное время работы бенчмарка должно быть больше погрешности измерения. А в коде дискретность таймера 1 секунда.

Фортран: пишем параллельные программы для суперкомпьютера

@DustCn Apr 10 2023 at 13:25

При датасете 1000х1000 интов общий размер массива примерно 4Мб для 32-битных интов и 8Мб для 64-хбитных. О какой работе с памятью идет речь, если это все помещается в кэш? Да и считать там мягко говоря нечего, о чем косвенно говорит время работы замеряемого цикла.

Замер на сервере вашего примера дает 2 сек для автопараллельного варианта и 6 секунд для последовательного. Что дает 3х ускорение, вместо Nx, где N - количество ядер (синхронизацией пренебрегаем в первом приближении).
Теперь смотрите за руками. Увеличиваем датасет в 4 раза (2000х2000). Получаем:
27сек - последовательный вариант;
3 сек - автопараллелизатор;
3 сек - OpenMP.
Что в принципе ожидаемо - автопараллелизатор это и так автоматическое распараллеливание на OpenMP. А ускорение? Уже почти 10х. Что это нам говорит? Это нам говорит что бенчмарк не репрезентативен. На мелком датасете можо измерять краевые эффекты от работы кеша, но не более. Ни о качестве кода, ни о качестве распараллеливания это нам ничего не говорит.

Ремонт игрового ноутбука с прогаром в плате без схемы: возвращаем к жизни «похороненный» сервисными центрами CLEVO P970

@DustCn Apr 9 2023 at 16:53

Там в начале ролика бутеры с черной икрой как бы намекают

Давид и Голиаф: плюсы работы в маленьких стартапах

@DustCn Apr 9 2023 at 14:31

Завуалированное приглашение на собеседование

Законно ли хранить код на GitHub?

@DustCn Apr 9 2023 at 14:18

Пугалки от фстэк оставьте себе.

+25

Как я неделю просидел над десятью строками кода

@DustCn Apr 6 2023 at 05:34

Если документация говно, а сторонний код преставляет собой черный ящик, то можно просидеть и больше.

+46

Elбрус, или Как дела с микроэлектроникой в России в 2023 году

@DustCn Apr 5 2023 at 12:46

А предикаты как в Итаниуме там есть? Должно облегчить чет мелкое в принципе.
В х86 эхо этих предикатов - инструкция cmov.

Elбрус, или Как дела с микроэлектроникой в России в 2023 году

@DustCn Apr 5 2023 at 08:57

У «Эльбруса» компилятор действует от обратного: сначала он анализирует весь код, предполагает, где будут переходы, а после компилирует на основании того, что он знает весь код.

Ну да, ну да...
Сегодня я нажал кнопку 1, и переход пошел в одну сторону, а завтра 0 и переход пошел в противоположную. Но у нас же есть магический компилятор.

Идеальная рабочая станция Linux на процессоре Apple M1 (ARM64)

@DustCn Apr 4 2023 at 09:52

Да за такую цену можно два воркстейшна поставить. И еще на зп сисадмину хватит, который будет этот линукс и в хост и в гриву ставить. Хотите - по понедельникам Слес, по вторникам - РедХат, и так далее. Убунту оставим на выходные...

-1

Учёные зафиксировали звуки от томатов, табака и кактусов во время стресса

@DustCn Apr 1 2023 at 08:01

От табака? То то я думаю, кто это пищит, когда курю...

NORVI GSM AE02-V: просто добавь GSM

@DustCn Mar 29 2023 at 06:41

Еще лучше. Был бы там полугибкий шлейф, это ок. Но там и так жесткая конструкция. Небольшой перекос и ой. А еще лучше цикличные нагрузки. Вот какого хрена так проектировать?

NORVI GSM AE02-V: просто добавь GSM

@DustCn Mar 28 2023 at 14:57

Я правильно понимаю что верхняя плата механически стоит на двух высоких разъемах, упираясь в верхнюю пластиковую панель? Это все её элементы крепления?

Будет ли строительство сферы Дайсона энергетически выгодным? Считаем вместе

@DustCn Mar 28 2023 at 14:35

Может, только из-за электроэррозии менять проводники придется непрерывно.

Made at Intel. Дела продажные

@DustCn Mar 26 2023 at 03:28

Так пытался. Делали на атомах, а почему бросили? Хз. Интел кроме ЦПУ бросал на моей памяти все. Кое что поднимал и снова бросал.
Arm - Atom - мобильные маложрущие процы
IOT - всякие галлилео и иже с ними
Larrabe, KNF - попытка в видяху-ускоритель
KNC/KNL - попытка в ускоритель не видяху
OPA - попытка в Infiniband

+11

Слышали ли вы про язык «e»? А ведь он был продан за $315 миллионов долларов

@DustCn Mar 25 2023 at 01:54

Вот ваш Гаврилов:
https://il.linkedin.com/in/yoav-hollander-aa565630?original_referer=https%3A%2F%2Fwww.google.com%2F

"I created the e verification language, and founded Verisity to commercialize the related tools and methodologies for HW verification. "

Не очень, как то на Гаврилова смахивает...

E2K: от истоков до нюансов Российской архитектуры [ч. 1]

@DustCn Mar 21 2023 at 15:43

И что вы хотели этим сказать - разверните мысль...

E2K: от истоков до нюансов Российской архитектуры [ч. 1]

@DustCn Mar 20 2023 at 17:50

Всмысле имплементированная в железо инструкция LZO? Или что вы имеете ввиду? Любой современный процессор это полная тьюринг машина, значит на ней можно реализовать любой алгоритм. Даже без векторных расширений. Думаю даже на Z80 его можно написать.

Так что значит ваше "архитектура представляет алгоритм"?

E2K: от истоков до нюансов Российской архитектуры [ч. 1]

@DustCn Mar 20 2023 at 09:44

У меня мозги закипели на " Архитектура Эльбрус 2000 предоставляет несколько алгоритмов". Как это вы себе представляете? Вот есть сферический алгоритм в вакууме - тот же LZO. Каким образом он привязан к архитектуре? Что x86 не умеет в LZO? Или какой нибудь ARM?

Как мы нейросеть в браузер тащили

@DustCn Mar 19 2023 at 22:58

Это смотря где вы компилируете. Собрано будет под тот сет инструкций, на котором у вас билдовая система, а у пользователя может быть и получше.

1 2 ...

6 7

9 10 ...

33 34