Обновить
64K+

GPGPU *

Технология Nvidia для реализации алгоритмов

35,68
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Синтетика как топливо: почему self-training работает и где начинается model collapse

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели4K

В индустрии ИИ случилось одно пренеприятное открытие: GPU можно купить, а качественные человеческие данные — все сложнее. Логичный шаг: если «топлива» не хватает, давайте синтезируем его сами. Звучит как вечный двигатель и на короткой дистанции, почти так и ощущается. Но есть нюанс. Если увлечься рекурсией «модель учится на своих же генерациях», можно попасть в режим model collapse — деградации распределения, исчезновению редких случаев и потери разнообразия. Эта статья продолжает цикл о новой парадигме ИИ, на этот раз предлагаем обудить, как синтетика помогает и где начинается опасность.

Об авторе: Антон Пчелинцев, эксперт онлайн-магистратур Центра «Пуск» МФТИ в области Data Science, разработки и управления ИТ-продуктами. Магистр бизнес-информатики и соавтор курса «Экономика для технологических предпринимателей». Занимается проектами в телекоме, ИТ, ИИ, интересуется биоинформатикой и биотехнологиями, увлекается изучением квантовых систем.

Принимал участие в международных ИТ-стартапах (закрытие венчурных раундов с крупнейшими технологическими гигантами). Считает себя технологическим предпринимателем (не инвестором), который вот-вот набьет все шишки и наконец-то сделает что-то полезное. Собственное портфолио проектов: инерциальная авионика, ИИ-системы управления компанией, интеллектуальные системы производства спортивной обуви.

В первой статье про стену данных цикла «Интуиция машины: новая парадигма ИИ» мы додумались до одной мысли: GPU можно купить, а вот качественные человеческие данные — все сложнее. Поэтому индустрия делает логичный шаг: если «топлива» (реальных данных) не хватает или оно дорожает, давайте… синтезируем его сами.

Читать далее

Новости

Cтрою ИИ нового поколения на MacBook Air, пока корпорации сжигают миллиарды на GPU

Уровень сложностиСредний
Время на прочтение2 мин
Охват и читатели5.1K

Индустрия ИИ сегодня напоминает строительство Вавилонской башни. Пока гиганты вроде OpenAI, Google и Meta соревнуются, кто закупит больше H100 и сожжет больше мегаватт, я разрабатываю детерминированное ИИ-ядро на обычном MacBook Air M2 (8GB RAM). В этой статье я расскажу, почему текущий путь развития нейросетей - это тупик, и как математика O(1) на языке Rust решает проблему галлюцинаций.

Читать далее

Стена данных: почему ИИ упирается не в GPU, а в реальность

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели7K

В новой статье наш эксперт Антон Пчелинцев размышляет о причинах дефицита качественных данных, следующем прорыве в области развития ИИ и о том, что делать для получения преимущества.

Читать далее

Как мы внедряли QoS InfiniBand для приоритизации ML-обучений с точки зрения сети

Время на прочтение13 мин
Охват и читатели4.2K

В статье расскажем, как мы командой Yandex Infrastructure внедрили QoS в сетях InfiniBand при ограниченной вендорской поддержке и скудной практической документации. Обсудим мотивацию: рост смешанных нагрузок во внутреннем облаке и необходимость предсказуемых SLO для различных обучений. Отдельно рассмотрим как могут быть связаны QoS и топология сети DragonFly+.

Читать далее

От MNIST к Transformer. Часть 4. Gradient Descent. Обучаем нашу модель

Уровень сложностиСложный
Время на прочтение10 мин
Охват и читатели4.6K

Мы живем в эпоху, когда ИИ стал доступен каждому. Но за магией PyTorch скрывается колоссальная инженерная работа и сложные вычислительные процессы, которые для большинства остаются черным ящиком. 

Это четвертая статья из цикла От MNIST к Transformer, цель которого пошагово пройти путь от простого CUDA ядра до создания архитектуры Transformer - фундамента современных LLM моделей. Мы не будем использовать готовые высокоуровневые библиотеки. Мы будем разбирать, как все устроено под капотом, и пересобирать их ключевые механизмы своими руками на самом низком уровне. Только так можно по настоящему понять как работают LLM и что за этим стоит. В этой статье мы разберем как работает градиентный спуск, реализуем его и обучим нашу модель для распознования mnist датасета.

Приготовьтесь, будет много кода на C++ и CUDA, работы с памятью и погружения в архитектуру GPU. И конечно же математика что за этим стоит. Поехали!

Читать далее

Возможости современных моделей в разработке кода: кейс автоматического решения сложной проблемы

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели5.2K

Кейс полностью автономного траблшутинга нетривиальной системной проблемы с неработоспособностью NVENC в Docker-контейнере на Jetson Orin NX с помощью Claude Opus 4.6, как пример выхода больших языковых моделей за пределы квалификации middle-grade инженера. Около 40 минут заняло расследование проблемы, по мотивам которого, я попросил сеть написать статью, которую и предлагаю вашему вниманию как пример того, на что я мог потратить целый день, а большинство middle-grade инженеров бы не справилось вообще. Весь траблшутинг и статья сделаны в полностью автоматическом режиме без участия человека.

Читать далее

Slug — GPU‑рендеринг шрифтов из кривых Безье лицензирован MIT

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели8K

Это означает, что любой человек может свободно реализовывать алгоритм Slug для любых целей без лицензии, и не нужно беспокоиться о нарушении каких‑либо прав интеллектуальной собственности.

Для всех юридических экспертов, читающих это: моя компания подала форму SB/43 в USPTO и оплатила пошлину за отказ от конечной части срока действия патента № 10 373 352, действующий с 17 марта 2026 года.

Читать далее

Анонс DLSS 5, нейронный рендеринг и будущее игровой графики

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели12K

16 марта 2026 года на конференции GTC компания NVIDIA представила DLSS 5. Если раньше DLSS в основном помогал поднимать FPS и улучшать картинку за счет апскейлинга, то теперь речь идет уже о другом уровне. DLSS 5 подают не как очередное обновление технологии масштабирования, а как шаг к нейронному рендерингу - когда искусственный интеллект не просто дорисовывает недостающие пиксели, а глубже вмешивается в то, как выглядит сцена.

Казалось бы - а в чем проблема? Но все оказалось не так очевидно и вокруг анонса сразу начались споры. Чтобы понять, почему реакция оказалась такой резкой, давайте вспомним, как вообще развивалась графика в играх.

Читать далее

Новый ЦОД Рег.облака в Москве и зачем там GPU

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели7.8K

Привет, Хабр! На связи Илья Мартысь из Рег.облака. Сегодня расскажу, как мы переезжали в новый московский дата-центр, почему именно DataHouse «Магистральный-1» и при чем здесь серверы с NVIDIA H200.

Читать далее

Запускаем LLM на AMD RX580: разбор проблем ROCm, Ollama и реальный GPU inference

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели12K

3 дня борьбы с ROCm, RX580 и Ollama: как я запустил LLM на домашней видеокарте

Я попытался запустить LLM inference на старой AMD RX580 через ROCm и Ollama в Kubernetes. GPU определялся, VRAM занималась, контейнеры запускались — но inference падал с ошибками hipMemGetInfo, а иногда просто выдавал бессмысленный текст.

В статье — полный инженерный разбор:как диагностировать реальный GPU compute (а не просто VRAM usage), почему Vulkan помог найти root cause, какие версии ROCm и kernel оказались рабочими, и как добиться стабильной генерации ~42 tokens/sec на RX580.

Читать расследование

От MNIST к Transformer. Часть 3. Умножение тензоров. Пишем Linear Layer

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели7K

Мы живем в эпоху, когда ИИ стал доступен каждому. Но за магией PyTorch скрывается колоссальная инженерная работа и сложные вычислительные процессы, которые для большинства остаются черным ящиком. 

Это третья статья из цикла От MNIST к Transformer, цель которого пошагово пройти путь от простого CUDA ядра до создания архитектуры Transformer - фундамента современных LLM моделей. Мы не будем использовать готовые высокоуровневые библиотеки. Мы будем разбирать, как все устроено под капотом, и пересобирать их ключевые механизмы своими руками на самом низком уровне. Только так можно по настоящему понять как работают LLM и что за этим стоит. В этой статье мы перейдем от матриц к такому понятию как тензоры, напишем умножение тензоров, так же создадим свой первый линейный слой или полно-связную нейронную сеть. И наконец напишем сеть для распознования mnist датасета.

Приготовьтесь, будет много кода на C++ и CUDA, работы с памятью и погружения в архитектуру GPU. И конечно же математика что за этим стоит. Поехали!

Читать далее

Этот пранк чуть не зашел слишком далеко: как мировые СМИ повелись на фейковый ИИ ЦОД посреди моря

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели5.9K

Массовое применение и внедрение ИИ-технологий среди обычных потребителей случилось буквально пару лет назад. В 2023-м нас всех поражала возможность ChatGPT писать логически складные и осмысленные абзацы, а качество картинок с Midjourney вообще вызвала ажиотаж и беспокойство о будущем профессий художника и дизайнера. 

И ИИ-контент еще не выглядел так инородно: если сегодня каждый третий Shorts или картинка в соцсетях сгенерированы, то в 2023 году многим и в голову не могло прийти, что картинку можно нарисовать нечеловеческими «руками».

И именно в тот год один ушлый художник решил провернуть перформанс, который зашел слишком далеко. Настолько, что смог обмануть весь Twitter (X) и кучу авторитетных зарубежных СМИ, включая The Verge, Tom Hardware и TechRadar. 

Имя авантюры: Del Complex — независимый плавучий город с 10 тысячами GPU-ускорителей H100 на борту посреди океана. Вспомним, как это было и как удалось разоблачить эксперимент одного художника.

Читать далее

LLM Inside: выжимаем максимум из Decoder Attention на GPU

Время на прочтение11 мин
Охват и читатели14K

Привет, Хабр! Меня зовут Андрей Шукшов. Я пишу YNMT в Яндекс R&D — это движок инференса, на котором работают почти все наши большие языковые модели (LLM). Бо́льшую часть времени я пытаюсь понять, почему некоторые вещи работают медленно и как сделать так, чтобы у них это получалось чуточку быстрее.

Если вы запускали локальную LLM, то, возможно, тоже удивлялись: почему железо, способное рендерить фотореалистичные миры в реальном времени, работает в темпе печатной машинки? В своей статье я попробую хотя бы отчасти ответить на этот вопрос. Под микроскопом посмотрим на механизм Attention в режиме генерации (декодирования) и, вооружившись лучшими современными практиками ускорения на GPU, объединим всю математику в один эффективный kernel, который выжмет максимум производительности из имеющегося у нас железа.

Читать далее

Ближайшие события

Как в Unreal Engine генерируется Hierarchical Z Buffer

Уровень сложностиСложный
Время на прочтение18 мин
Охват и читатели7.7K

В этой статье разберём, как Unreal Engine строит Hierarchical Z Buffer (HZB).

Покажем, как вычисляются размеры mip-уровней, зачем нужно специальное округление float, как используются функции Gather, батчинг нескольких mip-уровней за один Dispatch, groupshared память, wave-операции и Morton Z Curve.

Пошаговый разбор шейдера с примерами поможет понять, какие оптимизации реально применяет движок, и как эти идеи можно использовать в собственных графических проектах.

Читать далее

KernelEvo — автоматическая генерация GPU-ядер

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели5.1K

Писать быстрые GPU‑ядра вручную долго и требует узкой экспертизы: нужно понимать модель памяти, эффективные паттерны доступа к памяти, ограничения конкретного бэкенда и уметь быстро разбираться в compile и runtime ошибках. При этом выигрыш от кастомного kernel'а может быть очень заметным. Поэтому автоматизация и упрощение процесса разработки ядер — практически важная задача.

В этой статье расскажу о KernelEvo — новом фреймворке от команды «Вычислительный интеллект» Института AIRI, позволяющем по исходному коду автоматически искать эффективные cuda и triton реализации. Ключевая идея простая: вместо ручного цикла «написал → проверил → увидел ошибку → переписал» мы строим автоматический search loop. В типовом сценарии на одну задачу уходит до ~1 млн токенов, что делает такой поиск достаточно выгодным для регулярных запусков.

Подробности далее.

Читать далее

Из коробки не работает: запускаем свежие большие LLM

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели8.2K

В последнее время открытых моделей сверхбольшого размера развелось неимоверное количество, даже не просто моделей, а производителей. Вариации GLM, Kimi, DeepSeek занимают по нескольку строк в топ 5-10-20. Понадобилось перебрать основные LLM для тестов и выбора "рабочей лошадки", для чего пришлось немного пошуршать в интернетах. Оставлю в качестве памятки, вдруг кому-то окажется полезным.

Всё делалось на базе образов vllm-openai, платформ B200/H200 и дров 590.48.01. На момент начала экспериментов - примерно пару недель тому назад - версии vllm 0.16 ещё не было, но, как выяснилось в итоге, это не сильно повлияло на ситуацию. Основные костыли остались теми же самыми. Разве что кастомизация образа не для каждой модели нужна теперь.

В целом там, понятное дело, никакого RocketScience нету (особенно после того, как почитаешь китайские форумы в поисках нюансов). Но если бы кто-то посидел заранее и собрал советы в одном месте - жизнь была бы немного проще )) поэтому делюсь.

Итак, поехали.

«Контекст 1M» больше не нужен. Как линейные RNN и Titans меняют архитектуру ИИ

Уровень сложностиСложный
Время на прочтение10 мин
Охват и читатели5.5K

LLM научилась запоминать беседу, не подгядывая в контекст. Архитектуры типа Titans и обещают превращение цикла вывода в цикл онлайн-оптимизации

Читать далее

От MNIST к Transformer. Hello CUDA. Основы, Setup и наше первое ядро

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели8.4K

Мы живем в эпоху, когда ИИ стал доступен каждому. Но за магией PyTorch скрывается колоссальная инженерная работа и сложные вычислительные процессы, которые для большинства остаются черным ящиком.

Я хочу запустить большой цикл статей От MNIST к Transformer, цель которого пошагаво пройти путь от простого CUDA ядра до создания архитектуры Transformer - фундамента современных LLM моделей. Мы не будем использовать готовые высокоуровневые библиотеки. Мы будем разбирать, как все устроено под капотом, и пересобирать их ключевые механизмы своими руками на самом низком уровне. Только так можно по настоящему понять как работают LLM и что за этим стоит.

Приготовьтесь, будет много кода на C++ и CUDA, работы с памятью и погружения в архитектуру GPU. И конечно же математика что за этим стоит. Поехали!

Читать далее

OpenCL, SYCL и матрицы

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели9.3K

В данной статье я описываю свой опыт разработки приложений с OpenCL/SYCL.

Вычисления на видеокартах ассоциируются преимущественно с графикой, научными вычислениями и с недавних пор с нейросетями. Но чаще всего с графикой.

Тем не менее, графические процессоры обладают свойствами, за счёт которых их очень удобно использовать в задачах, напрямую не связанных с перечисленным выше. И главное из этих свойств – массовый параллелизм.

Самый краткий ввод в гетерогенное программирование: у нас есть две роли — хост и девайс, задача хоста – формировать задачи и отдавать их на девайс, в то время как задача девайса обработать их и вернуть результат. При этом хост и девайс могут быть одним вычислительным устройством (это не обязательно CPU + GPU, так как CPU может отдавать задачи сам себе).

Читать далее

Визуализация задачи Дирихле для уравнения Лапласа/Пуассона в прямоугольнике

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели9.4K

Программа визуализирует решение и промежуточные результаты задачи Дирихле для уравнения Лапласа/Пуассона в прямоугольнике на CPU и GPU.

Уравнение Пуассона(при f=0 уравнение Лапласа) :

\frac{\partial ^{2}}{\partial x}u + \frac{\partial ^{2}}{\partial y}u = -f

Задача Дирихле(краевые условия 1-го рода) - заданы значения u на границе области(в данном случае в прямоугольнике).

Результаты визуализируются при помощи тепловой карты(HeatMap). Используются цвета и оттенки синего, сине-зелёного(циан), зеленого, желтого и красного цветов(от меньшего к большему значению).

Читать далее
1
23 ...