GPGPU *

Технология Nvidia для реализации алгоритмов

СтатьиПостыНовостиАвторыКомпании

Dasha_Ilyanova 19 дек 2024 в 08:48

Гетерогенные вычисления: проектирование и разработка вычислительной системы для нейросетей

Средний

4 мин

2.5K

Блог компании VKFPGA * GPGPU * IT-инфраструктура * Машинное обучение *

Кейс

Всем привет! Меня зовут Дарья Ильянова, и сегодня я хочу поделиться с вами опытом создания гетерогенной вычислительной системы для нейросетей, над которой мы работали в команде студентов Инженерно-математической школы НИУ ВШЭ и VK. Вместе с Филиппом Баулиным и Артемом Минеевым мы спроектировали прототип аппаратно-программного ускорителя для машинного обучения.

+24

YuriPanchul 2 дек 2024 в 05:53

Метод «Безумного Макса» для тренировки проектировщиков кастомных вычисляющих структур

6 мин

2.2K

FPGA * СуперкомпьютерыПрограммирование микроконтроллеров * GPGPU * Алгоритмы *

Когда студент устраивается на работу в электронную компанию, очень здорово, если он уже умеет строить одну и ту же электронную схему разными способами, в зависимости от требований пропускной способности, максимальной тактовой частоты, размера и энергопотребления.

Как натренировать такое умение? Для новых домашних работ в программе Школы Синтеза Цифровых Схем мы решили разодрать на блоки реальный процессор и дать студентам задачу собирать разные специализированные вычислительные устройства из этих блоков, примерно как герои фильма "Безумный Макс: Дорога ярости" собирали свои боевые драндулеты из частей реальных автомобилей.

В качестве первой жертвы мы выбрали ...

+16

vsnikolaev 11 ноя 2024 в 10:15

Ускорение LUP-разложения матрицы с помощью OpenCL

Простой

5 мин

1.5K

C * C++ * GPGPU * Open source * Параллельное программирование *

Из песочницы

Я являюсь автором проекта по математическому моделированию прикладной механики и в работе моей программы до 90% вычислительного времени уходит на решение системы линейных уравнений. Цель этой статьи сугубо практическая - найти оптимальный метод решения системы линейных уравнений с точки зрения производительность/трудозатрат для небольшого проекта и рассказать о результате.

В прошлом я уже несколько раз обращал внимание на вычисления на GPU, но всегда что-то останавливало. И вот у меня накопился достаточный практический опыт программирования на C/C++ и наконец дошли руки, чтобы протестировать OpenCL.

GPU_GuRu 26 окт 2024 в 08:00

«Да будет свет!», — подумали мы. И стал свет. Краткая история обучения нейросветодизайнера нейросветодизайну

Средний

6 мин

1.1K

Будущее здесьIT-компанииGPGPU * Big Data *

Кейс

Давным-давно, скажем, этим летом, нас посетила удачная мысль включить повсюду свет и озарить ночные города. Так родился проект по обучению нейросети сложному искусству светодизайна.

Разумеется, мы были не первыми, кто до этого додумался, но поскольку бум ИИ удачно наложился на развитие инфраструктуры и появление новых зданий в разных городах РФ (а еще осень, темно, холодно) – было решено взяться за дело. Светодизайн зданий – сложная область, которая удачно сочетает в себе архитектурное проектирование, инженерные достижения, дизайн и человеческий гений. В помощь последнему мы решили добавить искусственный интеллект. Оказалось, что после долгих тренировок он способен:

mr-pickles 23 сен 2024 в 08:30

Никакого праздника без GPU: дообучение BERT на Vertex AI

Средний

17 мин

3.3K

Блог компании Wunder FundGPGPU * Программирование * Python * Машинное обучение *

Перевод

Этот материал посвящён ускорению обучения моделей с использованием бессерверных заданий. В частности, речь пойдёт о том, как запускать обучение с применением Pytorch, GPU и платформы Vertex.

+13

itglobalcom 5 авг 2024 в 16:48

Графические ускорители: битва между AMD и NVIDIA

Простой

7 мин

6.6K

Блог компании ITGLOBAL.COMGPGPU * Машинное обучение * Компьютерное железоИскусственный интеллект

Аналитика

Графические процессоры (GPU) стали важной частью современной вычислительной техники, превратившись из устройств для рендеринга графики в критически важные компоненты для ИИ, обработки данных и высокопроизводительных вычислений. GPU состоят из множества вычислительных блоков, в основном простых арифметико-логических устройств (ALU), которые часто дополняются специализированными ядрами, такими как тензорные и RT ядра. Эти специализированные ядра позволяют параллельно обрабатывать сложные уравнения с векторами, матрицами и тензорами. В этой статье мы рассмотрим конкуренцию между AMD и NVIDIA, выясняя, почему AMD постоянно отстает от NVIDIA в ускорении GPU и гонке ИИ, и изучим исторические, технологические и стратегические факторы, которые сформировали это соперничество.

+10

CodeInsideTeam 30 июл 2024 в 11:57

Портируем видеоаналитику на новые платформы: 8 простых шагов

Простой

3 мин

858

GPGPU * Обработка изображений * Машинное обучение * Управление разработкой * DevOps *

Туториал

Упаковали свой опыт развертывания системы мониторинга транспортного потока — Smart Traffic System — на Rockchip и SOPHON в один стройный R&D пайплайн. Пошагово, со сроками. Как от сердца отрываем.

Сохраняйте, чтобы под рукой иметь план на случай, если задумаете исследовать возможность развертывания системы видеоаналитики на целевом устройстве.

izard 25 июл 2024 в 20:30

Ускорение генерации токена LLM в два раза для больших контекстов

Средний

3 мин

3.6K

GPGPU * Высоконагруженные системы * Искусственный интеллектПрограммирование *

Кейс

Помимо ChatGPT и многочисленных конкурентов в облаке с веб-мордами и/или API, существует огромная экосистема для запуска LLM на собственном железе. На Huggingface на любой бюджет найдется модель для скачивания, которая влезет в видеопамять (или в RAM, можно и на CPU запускать, если пользователь терпеливый). Вчера здесь на Хабре была очень неплохая обзорная статья.

Самые популярные open source тулы для локального запуска LLM — llama.cpp и vllm (и их многочисленные обертки). У них немного разные ниши, и дальше я буду писать о llama.cpp. Она поддерживает все возможные комбинации железа и ОС — Linux, MacOS, Windows; x86 CPU, Arm, Apple Silicon CPU & GPU, Nvidia, AMD,… Но автор и мейнтейнер — Георгий Герганов использует для разработки Mac Studio. Почему такой выбор железа?

Производительность генерации каждого токена LLM в одном потоке ограничена вычислительной мощностью в процессе построения KV-кэша (анализ промпта до генерации первого токена), и пропускной способностью памяти при генерации последующих токенов. При этом в обоих случаях очень полезно уметь быстро загружать веса из видеопамяти в ALU видеокарты (или CPU).

Читать дальше →

+14

SolarDozor 8 июл 2024 в 09:00

Как в Solar Dozor внедрили новую технологию детектирования графических объектов с использованием GPU

Средний

4 мин

1.4K

Блог компании СоларМашинное обучение * GPGPU *

Обзор

Solar Dozor – это не просто DLP-система, а настоящий страж корпоративных данных, с более чем 20-летним опытом на рынке. Благодаря своей отказоустойчивости, масштабируемости и высокой производительности система востребована крупнейшими организациями России и СНГ.

Суперсила Solar Dozor – умение распознавать графические данные. С помощью технологии нейронной сети или, так называемого компьютерного зрения Dozor детектирует изображения и «понимает», что на них изображено. Система умеет идентифицировать паспорта, банковские карты, печати и даже технические чертежи, оформленные по ГОСТу. Это позволяет системе эффективно защищать корпоративные данные от утечек, распознавая и блокируя передачу конфиденциальных документов.

rebuilder 16 мая 2024 в 12:57

Коммивояжер на GPU

Средний

8 мин

4.3K

GPGPU * Алгоритмы * Python *

Мы уже решали задачу коммивояжёра точно методом динамического программирования. С тех пор прошло немало времени. Мне бы хотелось поделиться некоторыми соображениями по улучшению алгоритма, а также представить алгоритм пригодный для расчёта задачи коммивояжера на GPU.

Динамическое программирование — это метод решения сложных задач путём разбиения их на более мелкие подзадачи, решение которых легче и проще.

Основная идея метода заключается в том, чтобы не решать одну и ту же подзадачу многократно, а сохранять результаты решения подзадач и повторно использовать их для ускорения общего процесса решения.

+10

Sh1Fu 29 мар 2024 в 14:31

Часть 1. GPU-Based Fuzzing. Что за зверь такой?

Средний

9 мин

Информационная безопасность * GPGPU * Параллельное программирование *

Аналитика

Из песочницы

Всем привет!

При изучении темы фаззинг‑тестирования всегда возникает вопрос, насколько сильно можно увеличить количество выполнений приложения в секунду. Иначе говоря — как ускорить фаззинг?

В последнее время одно из популярных направлений — искусственный интеллект, его создание и обучение. Лично я от этой темы далек, однако имею представление, что лучшего всего он (ИИ) обучается на видеокартах. Более того, обучение может происходить с использованием облака.

И так, с одной стороны мы имеем фаззинг, который надо ускорить, с другой — большое количество вычислительных ресурсов на основе видеокарт из‑за активного развития ИИ. Так почему бы не попробовать использовать эти ресурсы во благо ИБ?

dasafyev 11 мар 2024 в 09:00

Как AI помогает побороть монополию в спортивной рекламе и при чем тут GPU и выделенные серверы

Простой

6 мин

Блог компании HOSTKEYBig Data * Машинное обучение * GPGPU * Медийная реклама *

Кейс

Спортивные соревнования сегодня переполнены рекламой — от роликов на экранах до статичных логотипов компаний на рекламных щитах стадионов. Эфир охватывает множество стран, в которых представлены различные бренды и действуют разные законы о рекламе. Благодаря прорыву в развитии ИИ и AR-технологий появляется возможность замены информации на поле под каждую аудиторию, причем непосредственно во время трансляции матча.

agroskololo 11 дек 2023 в 12:55

Вот как vega 3 показала себя в тестах с athlon gold 3150u в моих играх в сравнении с amd 780m

2 мин

5.2K

GPGPU *

Из песочницы

Привет, друзья! Сегодня я хочу рассказать вам о своем опыте с AMD Vega 3 - лучшей энергоэффективной игровой встройкой от AMD или вот как Vega 3 показала себя в тестах с Athlon Gold 3150U в моих играх в сравнении с AMD 780M.?

Для начала, что такое Vega 3 и AMD 780M? Vega 3 - это встроенный графический процессор, который используется в недорогих процессорах Ryzen 3 и Athlon Gold. Он основан на архитектуре Vega (5-е поколение GCN) и имеет 3 CU (= 192 из 704 шейдеров), работающих на частоте до 1200 МГц. AMD 780M - это новый интегрированный графический процессор в процессорах Ryzen 7040 серии (Phoenix, например, Ryzen 9 7940HS). Он основан на новой архитектуре RDNA3 и имеет 12 CU (= 768 шейдеров), работающих на частоте до 3 ГГц.

Как вы можете видеть, AMD 780M выглядит намного мощнее и современнее, чем Vega 3. Но не спешите делать выводы! Я решил проверить, как они справляются с моими любимыми играми на ноутбуке с Athlon Gold 3150U (2 ядра, 4 потока, базовая частота 2.4 ГГц, максимальная частота 3.3 ГГц) и на ноутбуке с Ryzen 7 7840U (8 ядер, 16 потоков, базовая частота 3.3 ГГц, максимальная частота 5.1 ГГц). Вот что у меня получилось:

-2

Sivchenko_translate 2 авг 2023 в 14:53

Как сделать контекстное окно на 100K в большой языковой модели: обо всех фокусах в одном посте

17 мин

12K

GPGPU * Машинное обучение * Искусственный интеллектПроцессорыNatural Language Processing *

Перевод

От переводчика: выражаю огромную искреннюю благодарность Дмитрию Малову @malovdmitrijза консультации по ходу этого перевода, помощь в подборе формулировок, пояснение рисунков и незаменимую человеческую поддержку.

tldr; в статье рассмотрены приёмы, позволяющие ускорить обучение больших языковых моделей (LLM) и нарастить в них логический вывод. Для этого нужно использовать большое контекстное окно, в котором умещается до 100K входных токенов. Вот эти приёмы: ALiBi с подмешиванием в вектор позиции слова в последовательности (positional embedding), разреженное внимание (Sparse Attention), мгновенное внимание (Flash Attention), многозапросное внимание, условные вычисления и GPU A100 на 80 ГБ.

+18

rokuz 24 мая 2023 в 10:22

taichi.js: Программируем на WebGPU без боли

Средний

10 мин

WebGL * GPGPU * Разработка игр * JavaScript *

Туториал

Перевод

Привет, Хабр! Сегодня хочу предложить вашему вниманию перевод на русский язык статьи моего коллеги и хорошего приятеля Dunfan Lu. Он создал taichi.js - open-source фреймворк для программирования графики на WebGPU, и написал подробный туториал как его использовать на примере знаменитой "Игры жизни". Уверен, эта сложная и красивая работа на стыке технологий рендеринга и компиляции не оставит вас равнодушными. - пр. переводчика.

+14

Bright_Translate 31 дек 2022 в 10:00

Как можно ускорить Python сегодня

10 мин

24K

Блог компании RUVDS.comGPGPU * Python *

Перевод

Python не перестаёт удивлять многих своей гибкостью и эффективностью. Лично я являюсь приверженцем С и Fortran, а также серьёзно увлекаюсь C++, поскольку эти языки позволяют добиться высокого быстродействия. Python тоже предлагает такие возможности, но дополнительно выделяется удобством, за что я его и люблю.

Этот инструмент способен обеспечивать хорошее быстродействие, поскольку имеет в арсенале ключевые оптимизированные библиотеки, а также возможность динамической компиляции основного кода, который предварительно не компилировался. Однако скорость Python значительно падает, когда дело доходит до обработки крупных датасетов или более сложных алгоритмов. В текущей статье мы разберём:

Почему столь важно думать о «будущем разнородных вычислений».
Две ключевых сложности, которые необходимо преодолеть в открытом решении.
Параллельное выполнение задач для более эффективного задействования CPU.
Использование ускорителя для дополнительного повышения быстродействия.

Один только третий пункт позволил увеличить быстродействие в 12 раз притом, что четвёртый позволяет добиться ещё большего за счёт ускорителя. Эти простые техники могут оказаться бесценными при работе с Python, когда требуется добиться дополнительного ускорения программы. Описанные здесь приёмы позволяют нам уверенно продвигаться вперёд без длительного ожидания результатов.

Читать дальше →

+46

Shyhartskoi 30 ноя 2022 в 08:01

Пишем кастомные CUDA-ядра на Triton

7 мин

5.4K

Блог компании Timeweb CloudGPGPU * Высоконагруженные системы * Программирование *

Перевод

Triton – это языковой компилятор для создания сильно оптимизированных ядер CUDA. Здесь будут изложены основы программирования для GPU и рассказано, как для этой цели используется Triton.

Учитывая нынешний успех глубокого обучения и вал исследовательских статей на эту тему, часто возникает такая ситуация: рождается какая-нибудь новая идея, и выясняется, что для нее не поддерживается аппаратное ускорение. Точнее, стоит вам изобрести новую функцию активации или механизм самовнимания – нам сразу приходится прибегать к возможностям PyTorch/Tensorflow для обработки прямого и обратного прохода через модуль.

В таких случаях применим, например, PyTorch JIT. Но PyTorch JIT – это высокоуровневый компилятор, способный оптимизировать лишь некоторые части кода, но непригодный для написания специализированных ядер CUDA.

Читать дальше →

+12

vasyash 25 ноя 2022 в 16:53

Запуск кода CUDA на видеокартах AMD

3 мин

49K

GPGPU *

Из песочницы

Recovery Mode

Большая часть приложений использующих ускорение при помощи видеоускорителей основаны на платформе CUDA. Есть ли выход из этой ситуации у владельцев видеокарт от AMD?

+69

Acer 9 ноя 2022 в 12:44

Нужен ли вам GPU-сервер

5 мин

8.5K

Блог компании AcerGPGPU * Серверная оптимизация * Высоконагруженные системы *

Recovery Mode

Сегодня никого не удивляет, что процессоры видеокарт обладают большей вычислительной мощностью, чем процессоры компьютеров. Эту особенность давно оценили все, кто нуждается в высокопроизводительных вычислениях, тем более, что сами производители видеокарт поддерживают такой режим их использования, выпустив библиотеки для использования видеопроцессора в так называемом General Purpose режиме.

Тенденцию подхватили и производители оборудования. На волне популярности криптовалют в продаже появились майнинговые фермы, а когда восторги поутихли, обнаружились и более сбалансированные решения для высокопроизводительных вычислений — GPU-сервера.

В этом посте поговорим о том, чем GPU-сервер отличается от майнинг-фермы и о том, как устроен GPU-сервер.

YuriPanchul 2 ноя 2022 в 15:05

Как подготовиться к собеседованию в Samsung Advanced Computing Lab

7 мин

12K

Алгоритмы * GPGPU * FPGA * Программирование микроконтроллеров * Карьера в IT-индустрии

Я работаю проектировщиком аппаратного блока графического процессора в телефонах Samsung, в рамках совместного проекта с AMD. Сейчас наш менеджмент расширяет команду и поощряет инженеров распостранять информацию о новых позициях среди своих знакомых. Я решил написать это пост для более широкой аудитории, так как множество людей, способных пройти интервью на RTL или DV позицию - больше, чем множество моих знакомых. Если вы сможете прислать мне ответ на задачку в моем посте вместе с вашим резюме, я перешлю его нанимающему менеджеру и рекрутеру нашей группы (в комментах прошу ответ не писать). Если резюме им понравится, вам нужно будет пройти стандартное собеседование на несколько часов, с несколькими инженерами, у каждого из которых свой набор задачек.

Также я покажу материалы, по которым можно готовиться к собеседованию, особенно если вы студент или у вас ограниченный опыт в микроэлектронной промышлености.

+11

3 4 ...

8 9

GPGPU *

Гетерогенные вычисления: проектирование и разработка вычислительной системы для нейросетей

Метод «Безумного Макса» для тренировки проектировщиков кастомных вычисляющих структур

Ускорение LUP-разложения матрицы с помощью OpenCL

«Да будет свет!», — подумали мы. И стал свет. Краткая история обучения нейросветодизайнера нейросветодизайну

Никакого праздника без GPU: дообучение BERT на Vertex AI

Графические ускорители: битва между AMD и NVIDIA

Портируем видеоаналитику на новые платформы: 8 простых шагов

Ускорение генерации токена LLM в два раза для больших контекстов

Как в Solar Dozor внедрили новую технологию детектирования графических объектов с использованием GPU

Коммивояжер на GPU

Часть 1. GPU-Based Fuzzing. Что за зверь такой?

Как AI помогает побороть монополию в спортивной рекламе и при чем тут GPU и выделенные серверы

Вот как vega 3 показала себя в тестах с athlon gold 3150u в моих играх в сравнении с amd 780m

Ближайшие события

Как сделать контекстное окно на 100K в большой языковой модели: обо всех фокусах в одном посте

taichi.js: Программируем на WebGPU без боли

Как можно ускорить Python сегодня

Пишем кастомные CUDA-ядра на Triton

Запуск кода CUDA на видеокартах AMD

Нужен ли вам GPU-сервер

Как подготовиться к собеседованию в Samsung Advanced Computing Lab

Вклад авторов