Все потоки

GPGPU *

Технология Nvidia для реализации алгоритмов

СтатьиПостыНовостиАвторыКомпании

@3draven 17 ноя в 21:58

Личное облако на Proxmox: нейронки, LLM и embedding

Средний

24 мин

15K

GPGPU * Linux * TensorFlow * Машинное обучение * Системное администрирование *

Туториал

В прошлой статье я описывал как построить сетевую часть самодержавного сервера, пора принести в него что-то отдаленно разумное. Это руководство описывает весь процесс: от подготовки хоста Proxmox и настройки LXC-контейнера до поиска, конвертации и запуска embedding-моделей (на примере BAAI/bge-large-en-v1.5) с использованием Intel GPU для работы модели. Но будет легко запустить не одну модель или полноценного чатбота на этой основе. Главное, что будет ясно как использовать даже простое имеющееся железо домашнего сервера для этого.

Читать далее

+7

@runity 2 окт в 11:30

RAG на практике: как мы в Рег.облаке на базе ИИ-ассистента собрали бота для поддержки в Rocket.Chat

Простой

5 мин

6.5K

Блог компании РунитиData Engineering * Искусственный интеллектGPGPU * Облачные сервисы *

Кейс

Привет, Хабр! На связи команда Рег.облака. Мы давно следим за развитием Retrieval-Augmented Generation (RAG) и хотели проверить, как эта технология работает в живых сценариях. У нас есть ИИ-ассистент — это образ виртуальной машины с предустановленными Ollama, Open WebUI и набором моделей. Его можно развернуть в пару кликов и сразу работать с LLM в приватном окружении. Но мы решили пойти дальше и проверить, как он справится в прикладной задаче: собрать чат-бота для нашей техподдержки.

Читать далее

+9

@shtock 22 сен в 09:00

Почему в космосе (пока) нет дата-центров. Часть первая: главные проблемы и их решения

10 мин

5.9K

Блог компании Конференции Олега Бунина (Онтико)КосмонавтикаВысоконагруженные системы * GPGPU *

Пользователям нужны данные в реальном времени, а не с задержкой в сутки, но законы физики против. Ведь огромные объёмы информации нужно передавать по нестабильным каналам связи, да ещё и на ограниченный по периодам наблюдений наземный сегмент.

В этой серии статей разберёмся, почему на орбите до сих пор нет полноценных дата-центров, какие технологии приближают их появление, а что всё ещё остаётся фантастикой. Поговорим о лазерах и ретрансляторах, о проектах Китая, США и России, и реально ли охлаждать серверы в космосе.

Читать далее

+4

@WebSlave 18 сен в 19:06

NVIDIA CMP – микроскопы для забивания гвоздей? Копаем глубже…

Простой

17 мин

12K

GPGPU * Компьютерное железоСтарое железоВидеокартыИскусственный интеллект

Почему видеокарта, имеющая неплохие вычислительные возможности, в Stable Diffusion работает в 20 раз медленнее, чем RTX 3060? Почему в LM Studio она становится фаворитом, а в ComfyUI карета превращается в тыкву? Почему FurMark на CMP 90HX тормозит, а на CMP 50HX «бублик» крутится почти нормально? Разгадки в разных программных ограничениях, которые можно найти с помощью экспериментов. Я купил три майнинговые карты NVIDIA, чтобы понять, можно ли заставить их эффективно работать.

В этот раз мы рассмотрим: статистику производительности в LM Studio, как всё печально в ComfyUI и Stable Diffusion, анатомию программного кода GPU, почему оптимизации производительности дают на CMP обратный эффект, какие режимы вычислений могут раскрыть их потенциал.

Читать далее

+24

@ollalala 1 сен в 16:05

Vulkan с использованием Rust. Часть 1

Средний

15 мин

9.9K

GPGPU * Rust * Разработка игр *

Используем Vulakn API на Rust! На В этом руководстве мы шаг за шагом разберём, как создать Logical Device - основу для общения с вашей видеокартой. Без лишней магии, только чёткие объяснения и работающий код. Убедимся, что сложность Vulkan - это не страшно, а очень даже логично!

Читать далее

+12

@WebSlave 24 авг в 12:11

Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP 40HX, CMP 50HX, CMP 90HX

Простой

13 мин

15K

Старое железоКомпьютерное железоИскусственный интеллектВидеокартыGPGPU *

Теоретическая производительность майнинговых карт весьма высока, но синтетические тесты показывают, что они в 10 раз слабее игровых - где же правда?

На практике с LLM они оказались на уровне RTX 2060/3060. Эта статья для тех, кто хочет сделать дешёвый LLM-сервер и любителей хардкорных экспериментов.

Так что же они могут?

+38

@Sivchenko_translate 16 авг в 18:04

Как правильно вызывать CUDA

16 мин

13K

GPGPU * C++ * Программирование * Компиляторы *

Перевод

Вероятно, вам уже попадались подобные руководства по CUDA: хрестоматийный пример «Hello World», в котором перемешан код для ЦП и графического процессора. Всё это сложено в один гетерогенный файл с исходниками на CUDA C++, а для запуска ядра применяется синтаксис NVCC с тройными угловыми скобками <<<>>>, который уже стал культовым:

Читать далее

+31

@Mik42 7 авг в 13:07

Учимся разрабатывать для GPU на примере операции GEMM

Средний

18 мин

14K

Блог компании YADROGPGPU * C++ * Алгоритмы *

Обзор

Привет, Хабр! Сегодня я расскажу про реализацию матричного умножения и особенности разработки для GPU. Познакомлю вас с устройством GPU, объясню, чем отличается программирование от привычного для CPU, какие нюансы нужно учитывать для эффективной реализации операций GEMM. А затем сравним производительность разных подходов к реализации.

Читать далее

+38

@mr-pickles 8 июл в 08:25

Flame-графики Doom для GPU

8 мин

2.1K

Блог компании Wunder FundПрограммирование * Алгоритмы * Игры и игровые консолиGPGPU *

Код AI Flame Graphs теперь открыт, этот проект поддерживает GPU Intel Battlemage. Это значит, что AI Flame Graphs теперь способен генерировать flame-графики (Flame Graph, граф пламени, диаграмма пламени), охватывающие полный стек GPU — это даёт пользователям новые аналитические данные о производительности игр. Особенно полезным AI Flame Graphs выглядит в связке с FlameScope (это — мой опенсорсный проект, созданный несколько лет назад). Вот — пример профилирования игры GZDoom. Тут показаны результаты визуализации использования CPU и GPU, проведённые с помощью FlameScope и снабжённые комментариями.

Читать далее

+9

@technofeya 30 мая в 11:17

В Москве идет Datafest 2025

5 мин

663

Исследования и прогнозы в IT * Big Data * GPGPU * КонференцииМашинное обучение *

Обзор

Примерно через каждый день проходит то или иное событие в Москве в даты с 25 мая по 2 июня 2025 года. Видимо, мероприятия от организаторов Data Fusion не одноразовое, и что-то подобное планируется проводить ежегодно, поэтому интересно посмотреть программу данного фестиваля.

Читать далее

0

@Sivchenko_translate 17 апр в 11:25

Обзор CUDA: сюрпризы с производительностью

6 мин

6.6K

Алгоритмы * GPGPU * Параллельное программирование * C++ * Программирование *

Перевод

Наверное, я очень опоздал с изучением CUDA. До недавнего времени даже не знал, что CUDA — это просто C++ с небольшими добавками. Если бы я знал, что изучение её пойдёт как по маслу, я бы столько не медлил. Но, если у вас есть багаж привычек C++, то код на CUDA у вас будет получаться низкокачественным. Поэтому расскажу вам о некоторых уроках, изученных на практике — возможно, мой опыт поможет вам ускорить код.

Читать далее

+51

@T1_IT 9 апр в 05:53

Из чего сделаны GPU от Т1 Облако? Фотообзор и примеры применения

Средний

6 мин

1.3K

Блог компании ИТ-холдинг Т1Облачные сервисы * GPGPU * IT-инфраструктура * Компьютерное железо

Обзор

Привет, Хабр. На связи команда Т1 Облако. Если вы следите за новостями в мире серверных видеокарт для ML, то точно знаете об Nvidia H100 — вычислительной молотилке на GPU, даже не имеющей видеовыхода. Она играет важную роль в области машинного обучения, анализа больших данных, 3D‑моделирования и много другого. Устройство корпоративного уровня, то есть домой себе такое купят разве что полтора энтузиаста.

Сегодня поделимся небольшим аппаратным обзором серверов с этими графическими ускорителями и расскажем, для каких задач их используют наши коллеги, клиенты и другие компании.

Читать далее

+11

@Mik42 3 апр в 11:45

Виноград, Фурье и немного наивности: 4 подхода к реализации сверток с простыми примерами

Средний

9 мин

6.9K

Блог компании YADROМашинное обучение * C++ * GPGPU *

Привет, Хабр! Меня зовут Кирилл Колодяжный, я работаю в YADRO и продолжаю изучать машинное обучение на С++. Я уже писал, как реализовать модели для распознавания лиц на фото и для поиска объекта в пространстве с помощью computer vision. Ссылки на материалы ищите в конце статьи.

Сегодня затрону «математическую» тему и расскажу о реализации сверток: что это за операция и какие есть алгоритмы для вычисления. Приведу простые примеры с кодом, чтобы вы могли опробовать решения.

У статьи будет вторая часть: про особенности реализации одного из этих алгоритмов с использованием CUDA в рамках фреймворка PyTorch и про то, как адаптировать его под свои задачи.

Читать далее

+65

@malyazin_2010 1 апр в 11:07

ПК из трех майнинговых GPU для работы с 3D

Простой

4 мин

5.2K

GPGPU * Анализ и проектирование систем * ВидеокартыГеоинформационные сервисы * Компьютерное железо

Кейс

Несколько лет назад попалась статья на хабре про сборку ПК для фотограмметрии из четырех GPU 3090 за миллион рублей. Тот компьютер собрала компания, чтобы экономить на покупке вычислительной мощности. Для меня фотограмметрия (построение 3d моделей из фотографий) это просто одно из хобби, на которое миллион я тратить не готов. Самой дорогой в этой сборке были видеокарты, около 80% стоимости всего ПК.

Около года назад на барахолках стали появляться майнинговые видеокарты по бросовым ценам, около 1000-1500 руб за штуку (майнинг на них стал убыточным). Появилась идея: почему бы не собрать мощный ПК из старых майнинговых GPU. Что из этого получилось-читайте под катом.

Читать далее

+13

@Mikhail_Denisov 24 мар в 09:24

Бэктестинг торговых стратегий на Python с помощью Numba. Когда перевод расчетов на GPU действительно оправдан?

Сложный

26 мин

5K

Python * Программирование * Высоконагруженные системы * КриптовалютыGPGPU *

Из песочницы

Бэктестинг — ключевой процесс в алгоритмической торговле. Он позволяет проверить стратегию на исторических данных, прежде чем запускать её в реальной торговле. Однако, чем больше данных и сложнее логика стратегии, тем дольше времени занимают вычисления. Особенно если стратегия анализирует тиковые данные и требуется протестировать множество комбинаций гиперпараметров стратегии, время вычислений может расти экспоненциально.

В этой статье мы разберем, как реализовать бэктестинг на чистом Python, посмотрим сколько времени могут занимать вычисления, а также попробуем найти разные способы оптимизации.

Python, как известно — это интерпретируемый язык, что означает, что код выполняется построчно во время исполнения программы, а не компилируется в машинный код заранее, как это происходит, например, в C или C++. Это делает разработку быстрее и удобнее, так как можно сразу видеть результаты выполнения кода и легко отлаживать программы. Но этот же факт, в свою очередь, приводит к тому, что Python заметно уступает в скорости более низкоуровневым языкам. К тому же Python использует динамическую типизацию, что требует дополнительных проверок и снижает производительность и если данных очень много, это может приводить к значительным сложностям, связанным с увеличением времени вычислений.

Как же использовать ту легкость и скорость разработки Python и при этом сохранить адекватное время вычислений на больших объемах данных? В этой статье мы увидим, насколько перенос вычислений на GPU может увеличить производительность вычислений.

Читать далее

+25

@dspmsu 11 мар в 12:30

Как я решал задачу 2025 года. Часть 2. Анализ интересных закономерностей

Средний

2 мин

1.2K

Программирование * Математика * Алгоритмы * GPGPU *

В продолжение части 1 привожу анализ заполнений квадрата со стороной 45 квадратиками размера от 1 до 9 (1x1 - 1 шт., 2x2 - 2 шт., 3x3 - 3 шт., ..., 9x9 - 9 шт.).

Начнём с простого. Несложно показать, что квадратик размера 1 не может стоять у границы и даже на расстоянии 1 от границы. Этот факт я учитывал при поиске вариантов, чтобы немного сократить перебор.

Если выстроить квадратики размера 9 вдоль двух соседних «стенок», то мы сведём задачу поиска заполнения к задаче для . Таким образом получается, что около 4% заполнений для получаются напрямую из заполнений для (у нас есть 4 способа выбрать 2 соседние «стенки»).

Читать далее

+7

@dspmsu 10 мар в 07:21

Как я решал задачу 2025 года. Часть 1

Средний

9 мин

3.5K

Программирование * Математика * Алгоритмы * GPGPU *

1-го января из сообщества Незадача дня я узнал про интересные равенства относительно числа 2025 и про задачу, которую на их основе можно сформулировать.

Равенства следующие:

Некоторые, возможно, ещё помнят, что в углублённой школьной (или вузовской) программе встречалось равенство . Собственно, оно тут и применяется. Кстати, согласно Википедии, это равенство называется тождеством Никомаха, древнегреческого математика (около 60-120 гг. н.э.).

На основе этих равенств можно сформулировать задачу:

Сколько существует способов расположить 1 квадратик со стороной 1, 2 квадратика со стороной 2, 3 квадратика со стороной 3, … , 8 квадратиков со стороной 8, 9 квадратиков со стороной 9 в квадрате со стороной 45, чтобы они не пересекались?

Читать далее

+25

@Oleg_Nikishenkov 13 фев в 10:33

Вот, к вам идет IoT: как цифровизировать старый жилфонд

Средний

8 мин

3K

Блог компании Leader-IDБудущее здесьDjango * GPGPU * Интернет вещей

Кейс

Сезон Будущее здесь

Тем, кто жил и живет в старых домах — «хрущевках», «панельках», «человейниках», — знакома беда разбалансировки систем жизнеобеспечения. Весной батареи обжигают, а зимой — еле теплые, вытяжки работают «не пойми как», подъезд освещен «не пойми где». А счет за такой сервис приходит как за нормально работающий. Возможно, вы будете удивлены, но сегодня столь знакомая многим проблема «кривого ЖКХ» отнесена к вопросам цифровизации, а для ее решения подключают не только домовые чаты в Телеграме или WA, но и передовые ИТ‑технологии: предсказательную аналитику, парсинг и анализ больших данных, интернет вещей. Причем речь уже идет не только о домах премиального класса. Цифровизация затронет и огромный советский и ранний постсоветский устаревший жилфонд, в котором, согласно последней переписи населения, до сих пор живет большинство россиян.

Как начинался EnergyStart

Технологическая компания «Конст» во главе с Альвиной Малышевой решила ответить на этот вызов. Команда разработала IoT (интернет вещей) — решение EnergyStart для многоквартирных жилых домов сегмента старой застройки. В том числе для совсем устаревшего жилфонда. Как рассказала Альвина, проект стартовал в 2023 году с запроса в Институт энергетики и электроники БГТУ им. В. Г. Шухова от Центра энергосбережения Белгородской области.

Один из сотрудников центра заметил, что система вентиляции в местной больнице работает неисправно: там душно и спертый воздух. Однако никто из сотрудников медучреждения почему-то не сигнализировал об очевидной проблеме в местную управляющую компанию (УК). И это, кстати, типичный случай: пока не произойдет авария, мало кого волнует проблема неэффективной работы инженерных систем. И поломку выявляют, лишь когда специалисты приходят на аварийный вызов.

Читать далее

+18

@ZergsLaw 4 фев в 10:37

Опять DeepSeek? Побудем в роли детектива

Простой

10 мин

5.4K

GPGPU * Искусственный интеллектПроектирование API *

Мнение

Когда про DeepSeek-r1 начали говорить уже из каждого утюга, я долго думал, а стоит ли еще и свои 5 копеек вставлять в эту историю, и подумал, конечно же да! Ведь могу.

Если коротко, просыпаюсь в понедельник и вижу сотни постов в час на тему «революции в ИИ», «гигантский скачок в развитии LLM», «Акции big tech компаний падают», «NVIDIA потеряла сотни миллиардов долларов» — все эти статьи и посты имели кое-что общее — упоминание DeepSeek. Первое, что я почувствовал, это, конечно, небольшое недоумение — так он уже несколько дней точно лежит в библиотеке ollama, а до этого еще лежал на hugging face, да еще и я уже и развернул его на домашнем сервере и тестирую, так почему он внезапно то хайповать стал?!

Подумал, подумал, и пошел работать, лишь к вечеру вернувшись к этому вопросу. Решил разобраться, откры Хабр и понял, что уже куча опубликованных статей в стиле «⚡️», так что решил подождать чуть более логичных рассуждений обо всей этой истории. В итоге, время шло-шло-шло, я уже состарился на целую неделю, параллельно изучая причины происходящего, но, так и не дождался полноценного разбора произошедшего, так что я решил написать статью в стиле «🐢».

Читать далее

+36

@GPU_GuRu 30 янв в 13:08

Наш бот просто жжет. Людей, машины, но в основном – здания

Средний

4 мин

697

GPGPU * Будущее здесьДизайнИскусственный интеллектИсследования и прогнозы в IT *

Кейс

И вы так сможете, если прочитаете эту статью. Да, она о светодизайне.

Конечно, в 2025-м все знают, что нужно использовать нейросети в дизайне, потому что это стильно, модно, экономит силы, деньги и время. Однако не все инструменты просты в использовании, многие требуют если не обучения, как когда-то фотошоп, то по крайней мере, танцев с бубнами и уверенных референсов, потому что по промту «сделай красиво, я подожду» работать не будет (мы проверяли). А значит, для обработки изображений и работы с освещением объектов нужна не только нейросеть, но и талантливый дизайнер, который к ней прилагается.

Наша задача заключалась в том, чтобы изъять из уравнения талантливого дизайнера или, как минимум, сократить время его присутствия в проекте – то есть дать потенциальному клиенту некий рабочий инструмент, с которым он, до определенного момента, может забавляться сам. И тогда мы придумали Светобота.

С одной стороны, это было просто программное решение, которое использовало алгоритмы машинного обучения для анализа изображений и создания дизайнерских проектов по подсветке зданий. С другой – мы хотели обучить его всему, что знаем сами – редактированию изображений, преобразованию фотографий в световые схемы, комбинации лучших цветовых решений, и главное – изобретению множества вариантов для различных пространств.

Многие современные платформы используют ИИ для генеративного проектирования, некоторые боты умеют самостоятельно определять цветовые палитры на основе загруженных фотографий, предлагать гармоничные сочетания, моделировать, как будет выглядеть освещение в помещении или всё здание снаружи, в зависимости от расположения источников света и вообще, они вундеркинды.

Читать далее

+2

1

2 3 ...