Pull to refresh
  • by relevance
  • by date
  • by rating

CUDA: с места в карьер

GPGPU *
Многие видели моё введение в современные технологии высокопроизводительных вычислений и оценки производительности, теперь я продолжу тему более подробным рассказом о технологии CUDA.
Для тех кто не смотрел предыдущие серии: CUDA позволяет писать и запускать на видеокартах nVidia(8xxx и выше) программы написанные на С++ со специальными расширениями. На правильных задачах достигается значительное превосходство по производительности на $ по сравнению с обычными CPU.
Достижимая производительность — 1 трлн и выше операций в секунду на GTX295.

NB: Статья — краткое введение, покрыть все ньюансы программирования под CUDA в одной статье вряд ли возможно :-)
Читаем дальше CUDA crash course
Total votes 39: ↑37 and ↓2 +35
Views 26K
Comments 26

AMD Brook+: с места в карьер

Computer hardware
Про nVidia CUDA хабровчане уже наслышаны, теперь настал черед и AMD Brook+. Brook+ позволяет вам писать программы на С и запускать их на видеокартах AMD (ну и как опция — автоматически можно сгенерировать CPU версию со средним качеством кода). Достижимая производительность — порядка 600млрд операций на AMD 4870.

NB: Статья — краткое введение, не стоит ожидать освещения тут всех аспектов программирования на Brook+ :-)
Читать дальше
Total votes 32: ↑29 and ↓3 +26
Views 1.5K
Comments 14

Математик vs. Ферзь

Lumber room
Статья адресована читателям, которые имеют опыт решения задач перечислительной комбинаторики, а также тем, кому нравятся трудные задачи по программированию.

Речь пойдёт о сражении, которое длится уже более 150 лет. Математики давно начали войну с шахматными фигурами, и, пожалуй, наиболее упорной фигурой в этой битве является ферзь. Последние 50 лет на помощь математикам приходят компьютеры, однако и этого оказывается недостаточно.

Читать дальше →
Total votes 39: ↑34 and ↓5 +29
Views 993
Comments 5

Сравнение OpenCL с CUDA, GLSL и OpenMP

High performance *
image
На хабре уже рассказали о том, что такое OpenCL и для чего он нужен, но этот стандарт сравнительно новый, поэтому интересно как соотносится производительность программ на нём с другими решениями.

В этом топике приведено сравнение OpenCL с CUDA и шейдерами для GPU, а также с OpenMP для CPU.

Тестирование проводилось на задаче N-тел. Она хорошо ложится на параллельную архитектуру, сложность задачи растёт как O(N2), где N — число тел.
Читать дальше →
Total votes 95: ↑94 and ↓1 +93
Views 38K
Comments 43

Распределенные вычисления на платформе .NET

.NET *
Широкое распространение параллельных архитектур вычислительных систем вызывает повышение интереса к средствам разработки программного обеспечения, способного максимально полно использовать аппаратные ресурсы данного типа.

Однако к текущему моменту имеется определенный разрыв между имеющимися на потребительском рынке технологиями аппаратной реализации параллелизма и программными средствами их поддержки. Так, если многоядерные компьютеры общего назначения стали нормой в середине текущего десятилетия, то появление OpenMP — популярного стандарта разработки программ для подобных систем — отмечено почти десятью годами ранее [1]. Практически в то же время возник и стандарт MPI, описывающий способы передачи сообщений между процессами в распределенной среде [2].

Развитие обоих данных стандартов, выражающееся только в расширении функциональности без адаптации парадигм к объектно-ориентированному подходу, приводит к тому, что они оказываются несовместимы с современными платформами программирования, такими как Microsoft .NET Framework. Поэтому разработчикам этих платформ приходится прилагать дополнительные усилия по внедрению средств параллелизма в свои продукты.

В [3] автором была рассмотрена одна из таких технологий, Microsoft Parallel Extensions, позволяющая достаточно простым способом внедрять параллелизм в изначально последовательный управляемый код для компьютеров с общей памятью. Там же была показана возможность и целесообразность использования платформы .NET Framework для проведения научных расчетов. Тем не менее, остается открытым вопрос о применимости данной платформы для разработки программ, используемых для проведения сложных расчетов на системах с распределенной памятью, например, вычислительных кластеров. Данные системы базируются на совокупности соединенных между собой вычислительных узлов, каждый из которых является полноценным компьютером со своим процессором, памятью, подсистемой ввода/вывода, операционной системой, причем каждый узел работает в собственном адресном пространстве.
Читать дальше →
Total votes 57: ↑44 and ↓13 +31
Views 18K
Comments 28

Серверы HP ProLiant DL980

Hewlett Packard Enterprise corporate blog
HP ProLiant 980Летнее обновление модельных линеек HP в этом году не прошло мимо мощных серверов масштаба предприятия. Почему «не прошло мимо»? Дело в том, что некоторые особо производительные модели серверов от НР строятся со столь серьезным запасом по мощности и плотности памяти, что компания обновляет их реже, чем другие линейки. Такие серверы, как правило, принимают в себя все актуальные процессоры и имеют солидный запас по наращиванию производительности.

Однако закон Мура еще никто не отменял, время на месте не стоит, и почивающий на лаврах рискует отстать от высококонкурентного рынка. HP, очевидно, к таковым не относится, и постоянно отслеживает ситуацию. Возможно, отчасти поэтому Intel, словно по заказу, выпустила восьмиядерные серверные Xeon'ы серий 6500 и 7500. Надо же их куда-то устанавливать?

Теперь их можно установить в новый ProLiant DL980, причем до восьми штук одновременно. Простым умножением получаем 64 процессорных ядра, а такая цифра, согласитесь, внушает уважение даже сама по себе. Под стать процессорам и память. Поддерживаются 16-гигабайтные модули, что на фоне 128 слотов под память дает нам добрые два терабайта. Емкость весьма внушительная, но и задачи перед сервером должны стоять нешуточные: DL980 рассчитан на работу в масштабах крупного предприятия, под виртуализированной нагрузкой, либо в рамках одного, но весьма интенсивно работающего с данными приложения.
Читать дальше →
Total votes 25: ↑17 and ↓8 +9
Views 9.3K
Comments 32

Метод динамического программирования для подсчёта числа циклов на прямоугольной решетке

Algorithms *
Эта статья адресована тем читателям, кто занимается программированием алгоритмов, и особенно интересуется труднорешаемыми задачами. Тем хабралюдям, которые против размещения алгоритмов на Хабре следует немедленно прекратить читать данную работу.

В статье я покажу как использовать метод динамического программирования по профилю для решения задачи о подсчёте количества гамильтоновых циклов на прямоугольной решётке размером m на n. На Хабре есть несколько статей, посвященных теме динамического программирования (например, эта), но нигде не идёт речь о более сложном применении метода. Данный подход также можно называть методом матрицы переноса, кому как нравится.

Предупреждаю, что статья содержит около 2000 слов (8 страниц А4), но дорогу осилит идущий.

Читать дальше →
Total votes 100: ↑94 and ↓6 +88
Views 11K
Comments 16

Высокопроизводительные вычисления: проблемы и решения

High performance *
Компьютеры, даже персональные, становятся все сложнее. Не так уж давно в гудящем на столе ящике все было просто — чем больше частота, тем больше производительность. Теперь же системы стали многоядерными, многопроцессорными, в них появились специализированные ускорители, компьютеры все чаще объединяются в кластеры.
Зачем? Как во всем этом многообразии разобраться?
Что значит SIMD, SMP, GPGPU и другие страшные слова, которые встречаются все чаще?
Каковы границы применимости существующих технологий повышения производительности?

Введение


Откуда такие сложности?

Компьютерные мощности быстро растут и все время кажется, что все, существующей скорости хватит на все.
Но нет — растущая производительность позволяет решать проблемы, к которым раньше нельзя было подступиться. Даже на бытовом уровне есть задачи, которые загрузят ваш компьютер надолго, например кодирование домашнего видео. В промышленности и науке таких задач еще больше: огромные базы данных, молекулярно-динамические расчеты, моделирование сложных механизмов — автомобилей, реактивных двигателей, все это требует возрастающей мощности вычислений.
В предыдущие годы основной рост производительности обеспечивался достаточно просто, с помощью уменьшения размеров элементов микропроцессоров. При этом падало энергопотребление и росли частоты работы, компьютеры становились все быстрее, сохраняя, в общих чертах, свою архитектуру. Менялся техпроцесс производства микросхем и мегагерцы вырастали в гигагерцы, радуя пользователей возросшей производительностью, ведь если «мега» это миллион, то «гига» это уже миллиард операций в секунду.
Но, как известно, рай бывает либо не навсегда, либо не для всех, и не так давно он в компьютерном мире закончился. Оказалось, частоту дальше повышать нельзя — растут токи утечки, процессоры перегреваются и обойти это не получается. Можно, конечно, развивать системы охлаждения, применять водные радиаторы или совсем уж жидким азотом охлаждать — но это не для каждого пользователя доступно, только для суперкомпьютеров или техноманьяков. Да и при любом охлаждении возможность роста была небольшой, где-то раза в два максимум, что для пользователей, привыкших к геометрической прогрессии, было неприемлемо.
Казалось, что закон Мура, по которому число транзисторов и связанная с ним производительность компьютеров удваивалась каждые полтора-два года, перестанет действовать.
Пришло время думать и экспериментировать, вспоминая все возможные способы увеличения скорости вычислений.
Читать дальше →
Total votes 79: ↑79 and ↓0 +79
Views 26K
Comments 43

CUDA: аспекты производительности при решении типичных задач

High performance *
Перед тем как начать переносить реализацию вычислительного алгоритма на видеокарту стоит задуматься — получим ли мы желаемый прирост производительности или только потеряем время. И несмотря на обещания производителей о сотнях GFLOPS, у современного поколения карт есть свои проблемы, о которых лучше знать заранее. Я не буду глубоко уходить в теорию и рассмотрю несколько существенных практических моментов и сформулирую некоторые полезные выводы.
Читать дальше →
Total votes 86: ↑84 and ↓2 +82
Views 23K
Comments 67

Графические процессоры NVIDIA Tesla в новых серверах HP ProLiant SL390s G7

Hewlett Packard Enterprise corporate blog
Сервер HP ProLiant SL390s G7 в 4U исполненииСвежая серия серверов SL от HP активно набирает обороты – идея объединения питания и охлаждения в одной корзине и установки в нее серверов половинной и полной ширины в различных сочетаниях оказалась весьма удачной. Это, в общем, неудивительно: за сравнительно небольшие деньги можно построить высокоплотную систему, которая, может быть, в чем-то проигрывает традиционным блейд-решениям, но взамен предоставляет отличную производительность в пересчете на объем занимаемой стоечной емкости.

А с выходом новых серверов половинной ширины под индексом SL390s G7 и без того радужная картина стала еще более красочной. Теперь в дополнение к верным Xeon’ам счастливый обладатель SL390s G7 получает в свое распоряжение самые свежие графические вычислители NVIDIA Tesla третьего поколения. При желании в прохладе серверной можно устроить чемпионат по Crysis 2 на максимальных настройках *, но лучше поступить иначе: «заточить» используемые программные инструменты под работу с Tesla и наслаждаться выросшей в разы производительностью.

Кому это может понадобиться в первую очередь? Если не учитывать популярный в последнее время Bitcoin-майнинг в качестве достойного занятия для компаний малого и среднего бизнеса, лучше всего SL390s G7 могут проявить себя там, где требуется производить серьезные распараллеливаемые вычисления.
Читать дальше →
Total votes 19: ↑17 and ↓2 +15
Views 11K
Comments 19

25000$ грант от Nvidia для исследовательских проектов связанных с графикой и GPGPU

High performance *
Несколько дней назад Nvidia начала принимать заявки для получения гранта в размере 25k$ для исследовательских проектов на тему графики и высокопроизводительных вычислений "Graduate Fellowship Program".

Надеюсь на Хабре есть коллеги, которым это пригодится.

Немного деталей и личные впечатления прошлого года под катом
Читать дальше →
Total votes 16: ↑16 and ↓0 +16
Views 1.1K
Comments 3

Disruptor — новая парадигма многопоточного программирования

High performance *
На прошлой неделе компания LMAX, где я работаю, получила приз Java Duke's Choice Award 2011 за фреймворк Disruptor. Ранее об этой технологии писал Martin Fowler, известный многим читателям публикациями об объектном программировании.

В этой статье я хотела бы вкратце рассказать об этой технологии, а так же о конкретной проблеме, которую эта технология решает в компании LMAX.

Читать дальше →
Total votes 33: ↑26 and ↓7 +19
Views 30K
Comments 25

Быстрое сжатие изображений по алгоритму JPEG на CUDA

High performance *GPGPU *Image processing *
Краткое содержание: Создан быстрый кодер FVJPEG для сжатия изображений по алгоритму JPEG на видеокартах NVIDIA. Значительное ускорение получено при распараллеливании алгоритма, его реализации и оптимизации с помощью технологии CUDA. По скорости сжатия кодер FVJPEG превосходит все существующие в настоящее время программные и аппаратные решения для компрессии изображений по алгоритму Baseline JPEG.
Читать дальше →
Total votes 74: ↑59 and ↓15 +44
Views 19K
Comments 49

Карта Интернета

Self Promo
Привет всем!

Хочу представить вам Карту Интернета или результат кластеризации более чем 350 тысяч сайтов в соответствии с переходами пользователей между ними. Размер круга определяется посещаемостью сайта, цвет – национальной принадлежностью, а положение на карте – его связями с другими сайтами. Если два сайта имеют стабильный поток пользователей между ними, то они будут «стараться» расположиться ближе друг к другу. После завершения работы алгоритма, на карте можно наблюдать скопления сайтов (кластеры) объединенные общими пользователями.

image

Например, если ввести в поиск habrahabr.ru, то можно увидеть, что dirty.ru и leprosorium.ru в том же «созвездии», а еще подальше livejournal.ru. Это говорит о том, что тот, кто сейчас читает этот текст, также с высокой вероятностью посещает эти сайты (относительно усредненного пользователя Рунета конечно).

Еще более интересный пример кластеризации можно увидеть внизу карты, между фиолетовой Японией и желтоватой Бразилией: там расположилась целая порнострана по размерам сопоставимая со всем Евронетом. Интересно, что будучи достаточно компетентным в рассматриваемом вопросе, внутри большого порнокластера можно различить тематические подкластеры меньшего размера.

Тем, кого интересует краткое техническое описание – добро пожаловать под кат
Читать дальше →
Total votes 224: ↑217 and ↓7 +210
Views 13K
Comments 146

2013: пора прекратить погоню за флопсами

High performance *
Translation
От переводчика: Exascale computing — это такой амбициозный проект по достижению производительности порядка ExaFLOPS к 2018 году. Есть мнение, что наукоемким вычислениям уже сейчас тесно в петафлопсах. Так ли это на самом деле? Размышления на эту тему Уильяма Гроппа, директора Parallel Computing Institute, были опубликованы в The Exascale Report.

2013: TIME TO STOP TALKING ABOUT EXASCALE
William D. Gropp


Каждый, кто читает это, верит в силу вычислительных технологий. Нам кажется само собой разумеющимся, что производительность самых мощных вычислительных систем должна продолжать расти с прежней скоростью, чтобы удовлетворять потребности общества. Тем не менее, это не так уж и бесспорно.
Читать дальше →
Total votes 57: ↑46 and ↓11 +35
Views 28K
Comments 52

Что мы знаем о серверах высокой плотности

CloudMTS corporate blog High performance *
Блейд-сервера RLX Technologies

Комментарии к некоторым постам хабра заставили задуматься, есть ли понимание у народа о серверах высокой плотности и их возможностях. Целью написания данного поста является внесение определенности по этому вопросу. Также планируется, что этот пост станет первым в череде статей на тему HPC (high performance computing, высокопроизводительные вычисления).

Сервера высокой плотности наиболее востребованы в технологиях построения суперкомпьютеров кластерного типа, систем виртуализации и организации облаков, систем параллельного доступа к системам хранения, систем аналитических расчётов, поисковых системах и др. Их применение обусловлено, прежде всего, невозможностью выполнить все предъявляемые требования, используя иные технологии. Рассмотрим варианты решений, их плюсы и минусы.
Читать дальше →
Total votes 45: ↑39 and ↓6 +33
Views 42K
Comments 44

В Университете Иннополис стартовала бесплатная Школа по высокопроизводительным вычислениям

Innopolis University corporate blog
Сегодня, 8 сентября, на казанской площадке Университета Иннополис состоялось открытие Летней школы по высокопроизводительным вычислениям и их приложениям к задачам современной биологии и медицины.

Соорганизатором мероприятия выступил Московский Физико-Технический Институт (Физтех).
Читать дальше →
Total votes 10: ↑6 and ↓4 +2
Views 13K
Comments 5

Вебинары Enterprise Group

Hewlett Packard Enterprise corporate blog
Департамент корпоративных решений HP приглашает на очередную серию вебинаров, стартовавших 15 мая.
Вебинары посвящены обсуждению существующих продуктов, решений, сервисов и новинок HP и наших партнеров для корпоративного применения.
В этой серии мы коснемся тем виртуализации, сетевого оборудования, систем хранения данных, конвергентной системы для SAP HANA, комплексного подхода к резервному копированию и архивированию, а также представим новую линейку продуктов в области высокопроизводительных вычислений.
На вебинаре у вас будет возможность обсудить интересующие вопросы с другими участниками и получить консультацию экспертов по корпоративным решениям HP.
Присоединяйтесь и приглашайте друзей и коллег!
Total votes 7: ↑6 and ↓1 +5
Views 2.8K
Comments 1

Летняя школа высокопроизводительных вычислений в области биологии и медицины доступна онлайн

Innopolis University corporate blog

Вот уже второй год подряд Университет Иннополис проводит на своей базе Летнюю школу высокопроизводительных вычислений в области современной биологии и медицины. Соорганизатор мероприятия — МФТИ (Московский физико-технический институт). В этом году школа пройдет при поддержке Российского Фонда Фундаментальных Исследований.
21 августа стартуют занятия у 40 слушателей, прошедших конкурсный отбор. Мы ждем участников из Москвы, Казани, Ростова-на-Дону, Нижнего Новгорода, Волгограда, Екатеринбурга, Воронежа, Омска, Перми, Уфы, Красноярска, Перевальска (Луганская обл. Украины), Альметьевска, Елабуги, Инсара, Советска (Тульская обл.)
Читать дальше →
Total votes 9: ↑7 and ↓2 +5
Views 3.9K
Comments 4

Как мы провели Летнюю Школу высокопроизводительных вычислений

Innopolis University corporate blog High performance *

С 21 по 30 августа на казанской площадке нового российского ИТ Университета Иннополис прошла VI Летняя Школа высокопроизводительных вычислений в области современной биологии и медицины. Соорганизатором выступил Московский физико-технический институт. Мероприятие проведено при финансовой поддержке Российского фонда фундаментальных исследований, грант № 14-37-10076 мол_г.
Мы готовы поделиться презентационными материалами приглашенных профессоров и записью с онлайн трансляций. Подробности под катом.
Читать дальше →
Total votes 17: ↑13 and ↓4 +9
Views 5.9K
Comments 4