Словарь терминов для новичков в GPU-вычислениях (2026) / Хабр

💡 Ниже краткий словарь базовых понятий в GPU-вычислениях для новичков, по сути написал для себя чтобы понимать что под капотом в ИИ - продуктах.

Базовые понятия

Термин	Определение	Аналогия	Зачем важно при аренде
GPU (Graphics Processing Unit)	Процессор, изначально созданный для рендеринга графики, но сейчас используемый для параллельных вычислений (ИИ, научные расчёты).	Автобус с 100 местами (потоками) против легковой машины CPU с 8 местами. Для перевозки 100 человек автобус быстрее.	Вы арендуете именно GPU, а не обычный сервер. От его мощности зависит скорость обучения модели.
VRAM (Video RAM)	Оперативная память, встроенная в видеокарту. Хранит модель, данные и промежуточные результаты во время вычислений.	Рабочий стол инженера. Чем больше стол — тем больше чертежей и деталей можно разложить одновременно.	Главный лимитирующий фактор: модель не запустится, если не влезет в VRAM. Для модели 7B параметров нужно минимум 14 ГБ.
CUDA (Compute Unified Device Architecture)	Проприетарная платформа и язык программирования от NVIDIA для запуска кода на GPU.	«Операционная система» для общения с видеокартой NVIDIA. Без неё код не поймёт, как использовать мощь GPU.	95% фреймворков ИИ (PyTorch, TensorFlow) работают через CUDA. При выборе образа проверяйте версию CUDA — должна совпадать с версией драйвера.
cuDNN	Библиотека от NVIDIA с оптимизированными операциями для нейросетей (свёртки, нормализация).	Готовые шаблоны для частых операций — вместо ручного распила доски используете заводскую заготовку.	Ускоряет обучение на 20–40%. Должна быть установлена в образе провайдера — иначе модель будет работать в 2–3 раза медленнее.

Архитектура GPU

Термин	Определение	Аналогия	Зачем важно при аренде
CUDA cores	Базовые вычислительные блоки в GPU NVIDIA. Отвечают за общие вычисления (сложение, умножение).	Рабочие на заводе, выполняющие простые операции (закрутить гайку, нанести клей).	Чем больше ядер — тем выше общая производительность. Но для ИИ важнее тензорные ядра (см. ниже).
Tensor cores	Специализированные блоки для операций с матрицами (умножение тензоров) — основа нейросетей.	Роботизированные станки на заводе, которые за 1 секунду делают то, что 100 рабочих делали бы 10 минут.	Критично для ИИ: модели на картах с тензорными ядрами (RTX 3090+, A100, H100) обучаются в 3–6 раз быстрее. Избегайте старых карт без тензорных ядер (GTX 1080 Ti).
FP16 / BF16 / FP32	Форматы хранения чисел с плавающей точкой: - FP32: 32-бит (стандартная точность) - FP16/BF16: 16-бит (половинная точность, но в 2 раза быстрее)	Взвешивание муки: - FP32: кухонные весы с точностью 0.1 г - FP16: мерные стаканы — быстрее, но ±5 г погрешность	Современные модели обучаются в FP16/BF16 без потери качества. Проверяйте, поддерживает ли карта нужный формат (все карты с тензорными ядрами — да).
Полоса пропускания памяти	Скорость, с которой данные перемещаются между процессором и видеопамятью (ГБ/с).	Ширина дороги от склада (память) к заводу (ядра). Узкая дорога = простои на производстве.	У RTX 4090 — 1 ТБ/с, у A100 — 2 ТБ/с. При обучении больших моделей узкая полоса становится «бутылочным горлышком».

Термины аренды и облачных вычислений

Термин	Определение	Аналогия	Зачем важно при аренде
Инстанс (Instance)	Виртуальный сервер с выделенным GPU, который вы арендуете на время.	Арендованный автомобиль: вы получаете машину на время поездки, а не покупаете её.	Вы платите за час работы инстанса. После остановки плата прекращается (если провайдер не обманывает — см. «скрытые платежи»).
Спот-инстанс (Spot instance)	Инстанс со скидкой 30–70%, но с риском прерывания в любой момент.	Авиабилет в последний момент за 30% цены — но авиакомпания может снять вас с рейса за 10 минут до вылета.	Экономия до 60%, но только для задач с чекпоинтами. Никогда не используйте для инференса в продакшене.
On-demand инстанс	Стандартный инстанс без скидки, но с гарантией непрерывной работы.	Обычный авиабилет — дороже, но место гарантировано до пункта назначения.	Выбирайте для критичных задач и дедлайнов.
Резервирование (Reservation)	Предоплата за гарантированный доступ к GPU в будущем (часто со скидкой 20–40%).	Бронирование столика в ресторане за неделю — гарантия места, иногда со скидкой.	Выгодно при стабильной загрузке >150 ч/мес. Не возвращается при отказе.
Чекпоинт (Checkpoint)	Сохранённое состояние модели в процессе обучения (веса, оптимизатор, номер эпохи).	Сохранение игры в RPG: если персонаж погибнет, начнёте не с начала, а с последнего сохранения.	Обязателен для спот-инстансов. Без чекпоинтов потеряете весь прогресс при прерывании.
Образ (Image)	Преднастроенный «слепок» системы с установленными фреймворками (ОС + CUDA + PyTorch).	Готовый кухонный набор: ножи заточены, специи на полках — можно сразу готовить.	Экономит 1–3 часа на настройку. Выбирайте образ под вашу задачу («Stable Diffusion», «PyTorch 2.3»).
Cold boot	Первый запуск инстанса после долгого простоя — загрузка ОС, драйверов, образа.	Прогрев двигателя автомобиля зимой — первые 2 минуты медленнее.	Занимает 60–180 сек. У некоторых провайдеров (Сбер) оптимизирован до 30 сек.

Термины машинного обучения и ИИ

Термин	Определение	Аналогия	Зачем важно при аренде
Inference (Инференс)	Запуск уже обученной модели для получения результата (генерация текста, изображения).	Печать книги на готовом типографском станке — быстро и предсказуемо.	Требует меньше ресурсов: модель 7B параметров для инференса — 14 ГБ VRAM, для обучения — 35+ ГБ.
Training (Обучение)	Процесс настройки весов модели на данных.	Написание книги с нуля — долго, требует много черновиков (итераций).	Требует в 2–3× больше VRAM и времени. Выбирайте мощный инстанс (2×RTX 4090 или A100).
Fine-tuning	Дообучение предобученной модели на узком датасете (адаптация под домен).	Обучение шефа-повара новому блюду вместо обучения готовить с нуля.	Экономит 90% времени и ресурсов против обучения с нуля. Используйте методы вроде QLoRA для экономии памяти.
QLoRA	Техника дообучения с квантизацией до 4 бит + адаптация только малой части весов.	Перекрасить стены в доме вместо строительства нового — дешевле и быстрее.	Позволяет дообучать модель 13B на одной RTX 4090 (24 ГБ). Без QLoRA потребовалось бы 2–4 карты.
Quantization (Квантизация)	Снижение точности весов модели (например, с 16 бит до 4 бит) для уменьшения потребления памяти.	Сжатие фото из RAW в JPEG: файл меньше, качество почти не теряется.	Модель 7B в 16-бит: 14 ГБ → в 4-бит: 4 ГБ. Позволяет запускать большие модели на слабых картах.
Prompt	Текстовый запрос к языковой модели («Напиши стих про кота»).	Рецепт для повара: чем точнее рецепт — тем лучше блюдо.	Важно для безопасности: промпты с ПДн могут логироваться провайдером. Избегайте передачи ФИО/номеров в промптах на непроверенных платформах.
Tokens	Части текста, на которые разбивается промпт перед подачей в модель (слова, подслова).	Разрезание пирога на кусочки перед подачей гостям.	Стоимость инференса часто считается за токен. Модель обрабатывает ~20 токенов/сек на RTX 4090.

Термины безопасности и данных

Термин	Определение	Аналогия	Зачем важно при аренде
Локализация данных	Физическое размещение серверов и данных на территории РФ.	Хранение денег в сейфе в Москве против сейфа в Лондоне.	Обязательно для ПДн по ФЗ-152. Проверяйте документы провайдера — устных заверений недостаточно.
Шифрование at rest	Шифрование данных на диске инстанса в состоянии покоя (когда вычисления не идут).	Замок на сейфе, даже когда вы не работаете с деньгами.	Защищает от извлечения диска из сервера. Включайте галочку при создании инстанса (есть у Сбера/Яндекса).
Шифрование in transit	Шифрование данных при передаче (загрузка/выгрузка).	Броневик для перевозки денег вместо обычного автомобиля.	Используйте SFTP/HTTPS вместо FTP/HTTP. Большинство провайдеров поддерживают по умолчанию.
Изоляция (Isolation)	Отделение вашего инстанса от других пользователей на уровне гипервизора.	Отдельная квартира в доме против коммуналки.	У крупных провайдеров — аппаратная изоляция. У бюджетных — возможна утечка через общую память хоста.
СЗИ (Средство защиты информации)	Программно-аппаратный комплекс для защиты ПДн по требованиям ФСТЭК.	Сигнализация + камеры + охрана для банка.	Обязателен для госконтрактов. Провайдер должен предоставить сертификат СЗИ.

Распространённые заблуждения новичков

Заблуждение	Реальность	Как избежать
«Чем больше ядер у GPU — тем лучше»	Для ИИ важнее тензорные ядра и объём VRAM. RTX 4090 (16 384 CUDA cores) быстрее обучает модели, чем карта с 20 000 ядер без тензорных блоков.	Смотрите на архитектуру (Ada Lovelace, Ampere) и наличие тензорных ядер, а не только на число ядер.
«24 ГБ памяти = могу запустить любую модель до 24 ГБ»	При обучении требуется в 2–3× больше памяти из-за градиентов и оптимизатора. Модель 13B (26 ГБ в FP16) не запустится на 24 ГБ без квантизации.	Для обучения: требуемый VRAM = размер модели × 2.5. Для инференса: ×1.2.
«Спот-инстанс = всегда дешевле»	Если задача прервётся 3 раза подряд без чекпоинтов — вы потратите больше времени и денег, чем на гарантированный инстанс.	Используйте спот только с автоматическими чекпоинтами каждые 15 минут.
«Образ с PyTorch = всё будет работать»	Версия CUDA в образе должна совпадать с версией драйвера на карте. PyTorch 2.3 + CUDA 12.1 на карте с драйвером под CUDA 11.8 = ошибка.	Перед запуском выполните `nvidia-smi` → посмотрите поддерживаемую версию CUDA → выберите совместимый образ.
«Провайдер хранит мои данные только пока инстанс работает»	Многие провайдеры сохраняют данные в объектном хранилище после остановки инстанса и тарифицируют хранение отдельно.	Удаляйте датасеты и чекпоинты сразу после завершения задачи или перемещайте в «холодное» хранилище.

Быстрая шпаргалка для первых 5 запусков

Ситуация	Что проверить в первую очередь
Модель не запускается	1. `nvidia-smi` → сколько свободно VRAM? 2. Размер модели в ГБ × 1.5 (для инференса) или ×2.5 (для обучения)
Очень медленно работает	1. `nvidia-smi dmon` → загрузка GPU (должна быть 80–100%) 2. Если загрузка <50% — «узкое горлышко» в CPU/диске
Счёт растёт быстрее ожидаемого	1. Работает ли инстанс после остановки задачи? 2. Сколько ГБ исходящего трафика использовано?
Ошибка «CUDA out of memory»	1. Используйте квантизацию (4-bit) 2. Уменьшите размер батча (`batch_size=1`) 3. Для обучения — включите градиентный аккумулятор
Не могу подключиться к инстансу	1. Есть ли публичный IP? 2. Открыт ли порт 22 (SSH) в настройках сети? 3. Не блокирует ли брандмауэр провайдера подключение?

💡 Главный совет: Первые 3 запуска делайте на небольших задачах (генерация 10 изображений) с гарантированным инстансом. Освойте интерфейс и автоматизацию остановки — только потом переходите к споту и большим моделям.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

50%Купил(а) себе в стойку7

0%Арендовал(а) себе в стойку0

14.29%Арендую в облаке2

35.71%Думаю, не решил(а) пока5

Проголосовали 14 пользователей. Воздержались 4 пользователя.