Comments / Profile of Vadikus / Habr

How to become an author

Вадим Карпусенко @Vadikus

Пользователь

ProfileArticles11PostsNewsComments147

Modern Code. Программируй современно

Vadikus Jul 29 2016 at 22:24

Субтитры уже залиты на ютьюб — можно просто влючить нажав на СС кнопку.
Файлы достаточно большие, и пока отдельно кроме ютьюба не выкладывались.

Modern Code. Программируй современно

Vadikus Jul 28 2016 at 23:35

Планировались. Но я не стал этого делать, т.к. качество перевода на русский было не очень…
Есть предположение, что перевод будет пользоваться популярностью?

Modern Code. Программируй современно

Vadikus Jul 28 2016 at 23:33

Держи:
https://www.youtube.com/playlist?list=PLqKQk2j2Il5mMqNHwJM9CLUAHLW5XFtw3

Планы переводить на русския язык были. Но переводчики плохо справились с техническими терминами и т.д.
Если кто-то хочет заняться переводом — дайте знать. Могу скинуть субтитры отдельными файлами.

Распараллеливание алгоритма Штрассена на Intel® Xeon Phi(TM)

Vadikus Dec 22 2015 at 21:38

У Интела сейчас задача заставить программистов переписать старый legacy код, который разрабатывался в 80х-90х без учета векторных операций и мульти- и много-ядерности под новые архитектуры. И мы говорим о коде в сотни тысяч строк или даже нескольких миллионов строк. Переписывать все это богатство с нуля отвыжится только сумасшедший. Поэтому стратегически было принято решение поддерживать х86 инструкции и устоявшуюся инфроструктуру, векторизацию спихнуть на компилятор, а параллелизм нитей реализовать с помощью OpenMP стандарта — прагмы проще вставлять, чем переписывать сам код. Это далеко не идеальное решение, но уж какое Интел придумал. MIC первого покаления — это первый шаг в направлении такое системы, где без векторизации и нитей нифига летать не будет. Со вторым поколением (KNL) схожая ситуация, хотя и чуть ускорился одно-поточный код. И плюс в KNL с memkind библиотекой специальными аллокаторами можно будет управлять где выделяется памить: в MCDRAM или DDR4, если чип во flat mode памяти находится.

Распараллеливание алгоритма Штрассена на Intel® Xeon Phi(TM)

Vadikus Dec 22 2015 at 09:19

Вопрос автору, при использонии алгоритма Штрассена, чем/как перемножались малые матрицы?
MKL тем и хорош, что исбользует правильные алгоритм кеш-блокинга/рекурсивное деление матриц, что бы запихнуть правильные плитки (tiles) матриц в разные уровни кешей. Без этого мы говорим не о compute-bound имплементации, а намного замедленном коде, т.к. в нем будет слишком много кеш промохов.
А еще для Xeon Phi 1.2 TFLOP/s — это только максимально возможная производительность на double precision, для FMA инструкций при использовании 512-битных векторных инструкций на всех ядрах. Только одна нить из 4-х на ядро смоежет использовать VPU за цикл. Но это я отвлекся. Т.е нужно еще думать как векторизовать весь код, если он не bandwidth-bound.
Если есть желание побеседовать по этой теме — прошу в личку.

Простая методика оптимизации с использованием Intel System Studio

Vadikus Sep 17 2015 at 11:38

Если очень кратко, то у них разный механизм расписаний (scheduling). Cilk Plus использует подход work-stilling, когда освободившийся рабочий лезет в очередь соседа и перетягивает себе неначатые елементы работы.
Кроме того Cilk Plus был задуман как детерменистический, в то время как OpenMP таким может и не быть.

Пилотный выпуск видео курса «Параллельное Программирование и Оптимизация для Intel Xeon Phi копроцессоров»

Vadikus Dec 18 2014 at 23:14

Прошу прощения, описочка вышла. Хотя, если честно, я его имени даже и не помнил. Будучи тогда студентом аспирантуры я осмелился его называть только «мистером Дреппером». До обращения к нему по первому имени я тогда ещё не дорос.

Пилотный выпуск видео курса «Параллельное Программирование и Оптимизация для Intel Xeon Phi копроцессоров»

Vadikus Dec 18 2014 at 10:51

Да, это хорошая статья. Я её всем рекомендую, тем более, что с Уричем Дреппером я лично знаком, с тех пор когда он ещё работал в Red Hat, и приезжал к нам на кампус в North Carolina State University, где главный офис «красных шапочек» и находился. Но опять, это только работа памяти. А где векторизация, где неоднородные распределённые вычисления, я спрашиваю?..

Пилотный выпуск видео курса «Параллельное Программирование и Оптимизация для Intel Xeon Phi копроцессоров»

Vadikus Dec 18 2014 at 00:37

Учтём.

Я согласен, сейчас это странно выглядит. Связано это с тем, что в начале были сняты два отдельных видео ролика: теоретическая часть отдельно от практической. Они были просто склеены вместе, когда я занялся русской озвучкой.
В дальнейшем, я думаю, стоит объединять их в месте. Т.е. при показе слайда с теоретическим объяснением можно сбоку ещё показывать изменение исходного кода программы.

В любом случае, спасибо за комментарий.

Пилотный выпуск видео курса «Параллельное Программирование и Оптимизация для Intel Xeon Phi копроцессоров»

Vadikus Dec 17 2014 at 11:42

Префикс «со-» произошёл от латинского «cum», который читается как «кум» — cum laude (кум лауде) с похвалой. Как в русском «к» стало «с» — ума не приложу. Но я и не филолог, так что мне можно.

Предлагаю лучше на темы производительных вычислений поговорить.

Пилотный выпуск видео курса «Параллельное Программирование и Оптимизация для Intel Xeon Phi копроцессоров»

Vadikus Dec 17 2014 at 10:32

Спасибо за поправку. Учту при дальнейших переводах. Хотя себя будет сложно переучить, т.к. в ангийской транскрипции это слово читается именно как «ко-», а не «со-». Это как в названии штата «Техас» отродясь не было буквы «х» (американцы произносят его как «Тексыс»), но в русском произношении — появилась, думаю из-за схожего написания ;)

Пилотный выпуск видео курса «Параллельное Программирование и Оптимизация для Intel Xeon Phi копроцессоров»

Vadikus Dec 17 2014 at 08:42

Упомянутая книга рассматривает особенности реализации параллельного доступа к С++11 структурам данных. При этом векторизация, распределённые вычисления в кластерах, оптимизация траффика, оптимизация доступа к памяти, и остальные 90% материала нашего учебного курса она не рассматривает. Так что можете, конечно, сомневаться, но я расскажу намного больше, чем покрыто в упомянутой книге.

Пилотный выпуск видео курса «Параллельное Программирование и Оптимизация для Intel Xeon Phi копроцессоров»

Vadikus Dec 17 2014 at 08:35

Вы правы. Данный пример очень прост. Хуже дела, например, обстоят с кодом для оптимизации использования кеша. там снипет кода может не помочь, и проще будет выслушать чьё-то объяснение. В нашей книге (xeonphi.com/book) есть и такие примеры. А в целом, видео лекции создаются с двойной целью: 1) некоторые ученики предпочитают видео материал, чем чтение книг. 2) дальнейшее распространение учебного материала в странах не говорящих по-английски можно сделать просто переведя субтитры на нужный язык.

Пилотный выпуск видео курса «Параллельное Программирование и Оптимизация для Intel Xeon Phi копроцессоров»

Vadikus Dec 17 2014 at 07:56

А если по сути вопроса, пожалуйста?

Пилотный выпуск видео курса «Параллельное Программирование и Оптимизация для Intel Xeon Phi копроцессоров»

Vadikus Dec 17 2014 at 06:30

Если кратко, то пока только в тех случаях, где есть compute-bound или bandwidth-bound задачи. Т.е. много вычислений на каждое число, так как доступно до 2.2 TFLOP/s для одинарной точности; или же последовательный доступ к памяти — т.к. 8 контроллеров памяти с прифетчингом справятся с этой задачей лучше (реальные 160 GB/s), чем CPU (~60GB/s). Проблемы возникают, если есть случайный доступ к данным. Тут пиши — «пропало!». Прифетчинг становится бесполезным и наблюдается резкое падение пропускной способности. Такая же картина будет на GPGPU, если у вас есть опыт программирования для этих архитектур.

Можно ещё добавить, что пока Xeon Phi имеют только in-order ядра, т.е. параллелизм на уровне инструкций, как при out-of-order buffers — отсутствует. Это поменяется со следующим поколением Xeon Phi — Knights Landing.

Ну и пока мы ограничены шириной PCIe шины, которая для 2ого поколения устройств (PCIe v2 with 16 lanes) может пропускать до 7 GB/s (реальных я видел только 6.5 GB/s). Т.е. из простого расчёта можно прикинуть, что нужно минимум где-то 1200 FLOPs на каждый double, что бы оправдать перегон этих данных по шине. Опять таки это поменяется со следующим поколением, т.к. Интел решил выпустить Knights Landing как CPU чип, т.е. все куча ядер будут сидеть прям на материнской плате с доступом к сотням гигабайт памяти.

Как-то так… Я об этом буду подробно в курсе говорить.

Бесплатный CppCat для студентов

Vadikus Nov 13 2014 at 22:34

На сайте для англоязычных товарищей найдено следующее: «transcript or other document confirming that you are a higher school student.»
Просто поясню, что этим словом у них называется средняя школа с 10 по 12 классы. Я бы поменял фразу на следующее:
«transcript or other document confirming that you are a higher school, college, or grad school student.» — что вы ученик школы, университета или аспирантуры. И для примера, студак будет выглядеть вот так:

Игры ради науки

Vadikus Aug 1 2014 at 21:55

Неа, не проходится. Попробуйте сами.

Эксперимент по теории вероятностей в жизни

Vadikus Jul 31 2014 at 15:36

Т.е.
1) придумайте случайную выборку из 10 чисел
2) выберете одно из них.

Это как минимум — другая задача. И придуманное число, по теории вероятности, скорее окажется больше 10.

Google купила Deepmind за 500 миллионов долларов

Vadikus Jan 29 2014 at 09:04

После визита Lockheed Martin в Fort Worth, TX, USA, я начинаю думать, что это весьма возможно…

Google оценивает работу интернет-провайдеров

Vadikus Jan 23 2014 at 20:35

Проверил из дома (Санта Клара) — та же песня.
ЗЫ: Приятно познакомиться, сосед!

1

2 3 ...