Все потоки

GPGPU *

Технология Nvidia для реализации алгоритмов

СтатьиПостыНовостиАвторыКомпании

Magn 4 июл 2018 в 08:03

CUDA и удалённый GPU

7 мин

21K

GPGPU * Высоконагруженные системы * Параллельное программирование *

Из песочницы

CUDA всем хороша, пока под рукой есть видеокарта от Nvidia. Но что делать, когда на любимом ноутбуке нет Nvidia видеокарты? Или нужно вести разработку в виртуальной машине?

Я постараюсь рассмотреть в этой статье такое решение, как фреймворк rCUDA (Remote CUDA), который поможет, когда Nvidia видеокарта есть, но установлена не в той машине, на которой предполагается запуск CUDA приложений. Тем, кому это интересно, добро пожаловать под кат.

TLDR

rCUDA (Remote CUDA) — фреймворк, реализующий CUDA API, позволяющий использовать удалённую видеокарту. Находится в работоспособной бета-версии, доступен только под Linux. Основная цель rCUDA — полная совместимость с CUDA API, вам не нужно никак модифицировать свой код, достаточно задать специальные переменные среды.

Читать дальше →

+14

m1rko 29 апр 2018 в 14:10

Сравнение Google TPUv2 и Nvidia V100 на ResNet-50

7 мин

17K

GPGPU * Google Cloud Platform * Высоконагруженные системы * Машинное обучение * Облачные вычисления *

Перевод

Недавно Google добавила к списку облачных услуг Tensor Processing Unit v2 (TPUv2) — процессор, специально разработанный для ускорения глубокого обучения. Это второе поколение первого в мире общедоступного ускорителя глубокого обучения, который претендует на альтернативу графическим процессорам Nvidia. Недавно мы рассказывали о первых впечатлениях. Многие просили провести более детальное сравнение с графическими процессорами Nvidia V100.

Объективно и осмысленно сравнить ускорители глубокого обучения — нетривиальная задача. Но из-за будущей важности этой категории продуктов и отсутствия подробных сравнений мы чувствовали необходимость провести самостоятельные тесты. Сюда входит и учёт мнений потенциально противоположных сторон. Вот почему мы связались с инженерами Google и Nvidia — и предложили им прокомментировать черновик этой статьи. Чтобы гарантировать отсутствие предвзятости, мы пригласили также независимых экспертов. Благодаря этому получилось, насколько нам известно, самое полное на сегодняшний день сравнение TPUv2 и V100.

Читать дальше →

+31

1cloud 27 апр 2018 в 12:01

Новая «работа» для графических процессоров: GPU защитит от вирусных атак

3 мин

6.4K

Блог компании 1cloud.ruСистемное администрирование * Информационная безопасность * Высоконагруженные системы * GPGPU *

В прошлом месяце компания Intel объявила, что собирается перепроектировать свои процессоры на кремниевом уровне, чтобы исключить уязвимости Spectre и Meltdown.

Однако на этом работа компании по увеличению защищенности систем не закончилась. Недавно стало известно, что ИТ-гигант собирается внедрить технологии, которые будут бороться с вирусными угрозами на аппаратном уровне.

Речь идет о системах Accelerated Memory Scanning и Advanced Platform Telemetry. Подробнее о нововведениях расскажем далее.

Читать дальше →

+10

m1rko 27 фев 2018 в 08:01

Бенчмарк нового тензорного процессора Google для глубинного обучения

5 мин

17K

GPGPU * Google Cloud Platform * Машинное обучение * Облачные вычисления *

Перевод

Каждое устройство Cloud TPU состоит из четырёх «чипов TPUv2». В чипе 16 ГБ памяти и два ядра, каждое ядро с двумя юнитами для умножения матриц. Вместе два ядра выдают 45 TFLOPS, в общей сложности 180 TFLOPS и 64 ГБ памяти на один TPU

Большинство из нас осуществляет глубинное обучение на Nvidia GPU. В настоящее время практически нет альтернатив. Тензорный процессор Google (Tensor Processing Unit, TPU) — специально разработанный чип для глубинного обучения, который должен изменить ситуацию.

Через девять месяцев после первоначального анонса две недели назад Google наконец-то выпустила TPUv2 и открыла доступ первым бета-тестерам на платформе Google Cloud. Мы в компании RiseML воспользовались возможностью и прогнали парочку быстрых бенчмарков. Хотим поделиться своим опытом и предварительными результатами.

Давно мы ждали появления конкуренция на рынке оборудования для глубинного обучения. Она должна разрушить монополию Nvidia и определить, как будет выглядеть будущая инфраструктура глубинного обучения.

Читать дальше →

+28

Dumbris 1 фев 2018 в 15:21

Бесплатная GPU Tesla K80 для ваших экспериментов с нейросетями

6 мин

76K

Машинное обучение * Google Cloud Platform * GPGPU * *nix *

Около месяца назад Google сервис Colaboratory, предоставляющий доступ к Jupyter ноутбукам, включил возможность бесплатно использовать GPU Tesla K80 с 13 Гб видеопамяти на борту. Если до сих пор единственным препятствием для погружения в мир нейросетей могло быть отсутствие доступа к GPU, теперь Вы можете смело сказать, “Держись Deep Learning, я иду!”.

Я попробовал использовать Colaboratory для работы над kaggle задачами. Мне больше всего не хватало возможности удобно сохранять натренированные tensorflow модели и использовать tensorboard. В данном посте, я хочу поделиться опытом и рассказать, как эти возможности добавить в colab. А напоследок покажу, как можно получить доступ к контейнеру по ssh и пользоваться привычными удобными инструментами bash, screen, rsync.

Читать дальше →

+37

it_man 17 янв 2018 в 12:30

ЦОД без GeForce и Titan: в NVIDIA изменили лицензионное соглашение

3 мин

43K

Блог компании MWSGPGPU * IT-инфраструктура * Высоконагруженные системы * Системное администрирование *

Компания NVIDIA изменила лицензионное соглашение для драйвера, и теперь использовать графические процессоры GeForce и Titan в дата-центрах запрещено. Почему так получилось, кого коснутся изменения и какие есть альтернативы, читайте под катом.

Читать дальше →

+46

Magistr 10 янв 2018 в 23:46

Что ещё необходимо узнать про OpenCL C перед тем, как на нём писать

13 мин

17K

GPGPU * Высоконагруженные системы * Параллельное программирование *

Как было написано	`float4 val = (0, 0, 0, 0);`
Что хотел написать автор	`float4 val = (float4)(0, 0, 0, 0);`
Как нужно было написать	`float4 val = 0;`

Если Вы сталкивались с OpenCL или планируете столкнуться и не видите разницы между первым и вторым вариантом, а третий вызывает у Вас сомнения — «А скомпилируется ли вообще?» — добро пожаловать под кат, там много нюансов языка и совсем ничего про API и оптимизацию производительности.

Читать дальше →

+40

ThisIsZolden 8 янв 2018 в 18:26

Физическое моделирование на GPU с использованием compute shader в среде Unity3D

17 мин

40K

C# * GPGPU * Unity * Параллельное программирование * Программирование *

Туториал

В этом руководстве я расскажу, как использовать compute shader для реализации вычислений на видеокарте — на примере модели волос:

+48

ThisIsZolden 8 янв 2018 в 16:45

Вычисления на видеокарте, руководство, лёгкий уровень

3 мин

36K

C# * GPGPU * Unity * Параллельное программирование * Программирование *

Туториал

Это руководство поясняет работу простейшей программы, производящей вычисления на GPU. Вот ссылка на проект Юнити этой программы:

ссылка на файл проекта .unitypackage

Она рисует фрактал Мандельброта.

Я не буду пояснять каждую строчку кода, укажу только необходимые действия для реализации вычислений на GPU. Поэтому, лучше всего открыть код программы в Юнити и там смотреть, как используются поясняемые мной строчки кода.

Шейдер, который рисует фрактал, написан на языке HLSL. Ниже приведён его текст. Я кратко прокомментировал значимые строки, а развёрнутые объяснения будут ниже.

Читать дальше →

+27

ThisIsZolden 19 дек 2017 в 16:10

Доделал игру, работающую на видеокарте

3 мин

88K

GPGPU * Unity * Дизайн игр * Параллельное программирование * Разработка игр *

Наконец-то я доделал игру, которая работает на видеокарте. Она несколько месяцев повисела в раннем доступе на стиме, и теперь я её окончательно выпустил. Основная фишка игры в том, что она представляет собой физическую симуляцию, которая выполняется на графическом процессоре. Основной код игры — это огромный compute shader, 6 тысяч строк на HLSL. Десятки тысяч взаимодействующих частиц обрабатываются параллельно, и выходит довольно быстро. Всё в игре сделано из этих частиц. Вот несколько гифок о том, как это работает:

Читать дальше →

+262

feel_OS_off 18 дек 2017 в 07:03

Multi-pattern matching на GPU миф или реальность

9 мин

7.9K

Реверс-инжиниринг * Алгоритмы * GPGPU *

Из песочницы

Немного лирики

В те давние времена, когда трава была зеленее и деревья были выше, я твёрдо верил, что такие страшные слова, как дивергенция потоков, cache missing, coalescing global memory accesses и прочие не позволяют эффективно реализовать задачу множественного поиска на GPU. Годы шли, уверенность не исчезала, но в один прекрасный момент я наткнулся на библиотеку PFAC. Если интересно, на что она способна — добро пожаловать под кат.

Читать дальше →

+27

ALEX_k_s 11 дек 2017 в 09:19

Самая быстрая и энергоэффективная реализация алгоритма BFS на различных параллельных архитектурах

20 мин

11K

C++ * GPGPU * Алгоритмы * Высоконагруженные системы * Параллельное программирование *

Оффтоп

В названии статьи не поместилось — данные результаты считаются таковыми по версии рейтинга Graph500. Также хотелось бы выразить благодарность компаниям IBM и RSC за предоставленные ресурсы для проведения экспериментальных запусков во время исследования.

Введение

Поиск в ширину (BFS) является одним из основных алгоритмов обхода графа и базовым для многих алгоритмов анализа графов более высокого уровня. Поиск в ширину на графах является задачей с нерегулярным доступом к памяти и с нерегулярной зависимостью по данным, что сильно усложняет его распараллеливание на все существующие архитектуры. В статье будет рассмотрена реализация алгоритма поиска в ширину (основного теста рейтинга Graph500) для обработки больших графов на различных архитектурах: Intel х86, IBM Power8+, Intel KNL и NVidia GPU. Будут описаны особенности реализации алгоритма на общей памяти, а также преобразования графа, которые позволяют достичь рекордных показателей производительности и энергоэффективности на данном алгоритме среди всех одноузловых систем рейтинга Graph500 и GreenGraph500.

Нажми и прочитай про самый быстрый BFS в мире!

+10

dsmv2014 13 сен 2017 в 23:57

SDAccel — проверяем передачу данных

9 мин

5.1K

Параллельное программирование * Высоконагруженные системы * GPGPU * FPGA *

В предыдущей статье «SDAccel – первое знакомство» я попытался описать основы применения OpenCL на ПЛИС Xilinx. Теперь настало время поделиться результатами экспериментов по передаче данных на модуле ADM-PCIe-KU3. Проверяется передача данных в обоих направлениях. Исходный код программ размещён на GitHub: https://github.com/dsmv/sdaccel

Читать дальше →

+12

avsmal 10 апр 2017 в 12:21

Курсы Computer Science клуба, весна 2017

4 мин

7K

Блог компании Образовательные проекты JetBrainsBig Data * GPGPU * Функциональное программирование *

Computer Science клуб вот уже 10 лет проводит открытые курсы по компьютерным наукам. Большинство лекций стараниями Лекториума записаны на видео и лежат в открытом доступе. В этом семестре выложены уже три новых курса, которые до этого не читались в клубе: «Программирование с зависимыми типами на языке Idris», «Вычисления на GPU. Основные подходы, архитектура, оптимизации», «Методы и системы обработки больших данных».

Читать дальше →

+26

tangro 21 мар 2017 в 11:17

Руководство начинающего программиста графических шейдеров

8 мин

47K

Блог компании Инфопульс УкраинаРазработка игр * Обработка изображений * WebGL * GPGPU *

Туториал

Перевод

Умение писать графические шейдеры открывает перед вами всю мощь современных GPU, которые сегодня уже содержат в себе тысячи ядер, способных выполнять ваш код быстро и параллельно. Программирование шейдеров требует несколько иного взгляда на некоторые вещи, но открывающийся потенциал стоит некоторых затрат времени на его изучение.

Практически каждая современная графическая сцена являет собой результат работы некоторого кода, написанного специально для GPU — от реалистичных эффектов освещения в новейших ААА-играх до 2D-эффектов и симуляции жидкости.

Сцена в Minecraft до и после применения нескольких шейдеров.

Цель этой инструкции

Программирование шейдеров иногда кажется загадочной черной магией. Тут и там можно встретить отдельные куски кода шейдеров, которые обещают вам невероятные эффекты и, возможно, вправду способны их обеспечить — но при этом совершенно не объясняют, что именно они делают и как добиваются столь впечатляющих результатов. Данная статья попробует закрыть этот пробел. Я сфокусируюсь на базовых вещах и терминах, касающихся написания и понимания шейдерного кода, так что впоследствии вы сами сможете менять код шейдеров, комбинировать их или писать свои собственные с нуля.

Читать дальше →

+83

ALEX_k_s 17 янв 2017 в 07:41

Конкурс GraphHPC-2017 на самую быструю реализацию задачи Betweenness Centrality

4 мин

5.3K

Спортивное программирование * Параллельное программирование * Высоконагруженные системы * Алгоритмы * GPGPU *

Лаборатория DISLab (ОАО «НИЦЭВТ») совместно с НИВЦ МГУ проводят четвертую ежегодную научно-практическую конференцию по проблемам параллельной обработки больших графов с использованием суперкомпьютерных комплексов и кластерных систем.

Цель конференции — привлечение внимания к тематике задач по суперкомпьютерной обработке графов и предоставление площадки для общения разработчиков технологий суперкомпьютерной обработки графов и разработчиков графовых приложений, обсуждения перспектив данного направления.

Совсем скоро, в рамках данной научно-технической конференции GraphHPC-2017, стартует конкурс GraphHPC, посвященный проблемам параллельной обработки больших графов с использованием суперкомпьютеров. В этот раз участникам предстоит получить самую быструю реализацию задачи Betweenness Centrality (Центральность по посредничеству) в неориентированном графе.

Интересно - жми сюда!

+13

madrugado 29 дек 2016 в 13:03

Почему этой зимой мы снова приглашаем всех поиграть в компьютерные игры при помощи искусственного интеллекта

6 мин

14K

Блог компании Московский физико-технический институт (МФТИ)GPGPU * Машинное обучение * Ненормальное программирование * Спортивное программирование *

Хабр, МФТИ приветствует тебя! Как истинные технари, сразу переходим к делу и приглашаем всех, кому интересно, принять участие в новом хакатоне DeepHack, который пройдет на Физтехе с 6 по 12 февраля. Отборочный этап уже начался и продлится до 22 января. Это мы всё к чему… Если вы не понаслышке знаете, что такое DQN, deep RL и DeepHack сразу регистрируйтесь на очередную научную школу-хакатон — rl.deephack.me.

DeepHack

А если вы не до конца в теме и вам, например, не ясно, почему компьютерные игры, какое отношение они имеют к управлению дата-центрами и что на самом деле будет в феврале, то срочно идите под кат — там максимальное погружение в жизнь искусственного интеллекта от древности и до наших дней. Ну вы же не думаете, что всё это изобрели только в XXI веке?

Читать дальше →

+24

f_rom 11 дек 2016 в 08:05

Сравнение производительности GPU-расчетов на Python и C

7 мин

62K

C * GPGPU * Python *

Из песочницы

Python обладает рядом привлекательных преимуществ к которым относится простота реализации программных решений, наглядность и лаконичность кода, наличие большого числа библиотек и многочисленного активного комьюнити. В то же время, известная всем медлительность питона часто ограничивает его применимость для “тяжелых” вычислений. Для ряда задач можно добиться существенного ускорения расчетов путем использования технологии CUDA для параллельных вычислений на GPU. Цель этого небольшого исследования — анализ возможностей эффективного использования python для расчетов на GPU и сравнение производительности различных python-решений с реализацией на C.

Читать дальше →

+31

urock 21 ноя 2016 в 13:19

Применение FPGA для расчета деполимеризации микротрубочки методом броуновской динамики

24 мин

16K

FPGA * GPGPU * Высоконагруженные системы * Параллельное программирование *

Все готово, чтобы рассказать Хабр аудитории о применении FPGA в сфере научных высокопроизводительных вычислений. И о том, как на данной задаче надо удалось значительно обскакать GPU (Nvidia K40) не только в метрике производительность на ватт, но и просто с точки зрения скорости вычисления. В качестве FPGA платформы использовался кристалл Xilinx Virtex-7 2000t, подключенный по PCIe к хост компьютеру. Для создания аппаратного вычислительного ядра использовался язык C++ (Vivado HLS).

Под катом текст нашей оригинальной статьи. Там, как обычно бывает, сначала идет долгое описание зачем это все надо и модели, если нет желания это читать, то можно переходить сразу к реализации, а модель посмотреть потом при необходимости. С другой стороны без хотя бы беглого ознакомления с моделью читатель не сможет получить впечатление о том, какие сложные вычисления можно реализовать на FPGA.

Читать дальше →

+39

YuriPanchul 9 сен 2016 в 06:01

Про интернет вещей и полупроводниковую индустрию в краю, где пьют верблюжье молоко. День первый

8 мин

8.5K

Ненормальное программирование * GPGPU * FPGA * Программирование микроконтроллеров * Интернет вещей

Несколько месяцев назад мой коллега Тимур Палташев, менеджер в графическом отделении Advanced Micro Devices (AMD) в Саннивейл, Калифорния, предложил мне съездить и устроить семинар в Казахстане. Он будет рассказывать про гетерогенный компьютинг и большие процессоры AMD для игровых приставок и виртуальной реальности, а я буду рассказывать про маленькие процессоры MIPS для встроенных процессоров и машинного видения. Кроме этого мне было обещано попробовать конину, ферментированное молоко кобылицы (кумыс) и ферментированное молоко верблюдицы (шубат). «А тянь-шанские ели там будут?», — спросил я, и получив утвердительный ответ, воскликнул «я готов».

«А под каким соусом будет делаться данное мероприятие?», — спросил я у Тимура и его казахской одноклассницы Гульфариды Тулемиссовой, которая делала всю работу по организации в Almaty Management University. Выяснилось, что казахский народ в настоящее время заинтересовала тематика интернета вещей. Сети из сенсоров с беспроводной связью уже используются чтобы присматривать за шахтерами в казахстанских шахтах, не случилось ли с ними чего. Кроме этого в стране есть качественные программисты микроконтроллеров и инженеры встроенных систем, которые делают сейсмоанализаторы и телекоммуникационные ящики (в кооперации с россиянами и китайцами).

«Хорошо», — сказал я, у Imagination Technologies и ее отделения MIPS Business Unit, в котором я работаю, есть продукты в области интернета вещей, в частности ядра MIPS microAptiv, которые Samsung использует в платформе для интернета вещей Samsung Artik 1. Кроме этого, у нас есть и материалы по микроконтроллерам, а также то, чего в Казахстане пока не хватает — знание ПЛИС-ов и проектирования микросхем, чем казахстанцы могли бы заняться в кооперации с россиянами, которые сейчас хорошо прогрессируют в данном направлении.

После этой беселы я поймал в коридоре нашего компанейского аналитика в области интернета вещей и спросил у него, что собственно такое интернет вещей.

Читать дальше →

+20

5