💡 Ниже краткий словарь базовых понятий в GPU-вычислениях для новичков, по сути написал для себя чтобы понимать что под капотом в ИИ - продуктах.
Базовые понятия
Термин | Определение | Аналогия | Зачем важно при аренде |
|---|---|---|---|
GPU (Graphics Processing Unit) | Процессор, изначально созданный для рендеринга графики, но сейчас используемый для параллельных вычислений (ИИ, научные расчёты). | Автобус с 100 местами (потоками) против легковой машины CPU с 8 местами. Для перевозки 100 человек автобус быстрее. | Вы арендуете именно GPU, а не обычный сервер. От его мощности зависит скорость обучения модели. |
VRAM (Video RAM) | Оперативная память, встроенная в видеокарту. Хранит модель, данные и промежуточные результаты во время вычислений. | Рабочий стол инженера. Чем больше стол — тем больше чертежей и деталей можно разложить одновременно. | Главный лимитирующий фактор: модель не запустится, если не влезет в VRAM. Для модели 7B параметров нужно минимум 14 ГБ. |
CUDA (Compute Unified Device Architecture) | Проприетарная платформа и язык программирования от NVIDIA для запуска кода на GPU. | «Операционная система» для общения с видеокартой NVIDIA. Без неё код не поймёт, как использовать мощь GPU. | 95% фреймворков ИИ (PyTorch, TensorFlow) работают через CUDA. При выборе образа проверяйте версию CUDA — должна совпадать с версией драйвера. |
cuDNN | Библиотека от NVIDIA с оптимизированными операциями для нейросетей (свёртки, нормализация). | Готовые шаблоны для частых операций — вместо ручного распила доски используете заводскую заготовку. | Ускоряет обучение на 20–40%. Должна быть установлена в образе провайдера — иначе модель будет работать в 2–3 раза медленнее. |
Архитектура GPU
Термин | Определение | Аналогия | Зачем важно при аренде |
|---|---|---|---|
CUDA cores | Базовые вычислительные блоки в GPU NVIDIA. Отвечают за общие вычисления (сложение, умножение). | Рабочие на заводе, выполняющие простые операции (закрутить гайку, нанести клей). | Чем больше ядер — тем выше общая производительность. Но для ИИ важнее тензорные ядра (см. ниже). |
Tensor cores | Специализированные блоки для операций с матрицами (умножение тензоров) — основа нейросетей. | Роботизированные станки на заводе, которые за 1 секунду делают то, что 100 рабочих делали бы 10 минут. | Критично для ИИ: модели на картах с тензорными ядрами (RTX 3090+, A100, H100) обучаются в 3–6 раз быстрее. Избегайте старых карт без тензорных ядер (GTX 1080 Ti). |
FP16 / BF16 / FP32 | Форматы хранения чисел с плавающей точкой: - FP32: 32-бит (стандартная точность) - FP16/BF16: 16-бит (половинная точность, но в 2 раза быстрее) | Взвешивание муки: - FP32: кухонные весы с точностью 0.1 г - FP16: мерные стаканы — быстрее, но ±5 г погрешность | Современные модели обучаются в FP16/BF16 без потери качества. Проверяйте, поддерживает ли карта нужный формат (все карты с тензорными ядрами — да). |
Полоса пропускания памяти | Скорость, с которой данные перемещаются между процессором и видеопамятью (ГБ/с). | Ширина дороги от склада (память) к заводу (ядра). Узкая дорога = простои на производстве. | У RTX 4090 — 1 ТБ/с, у A100 — 2 ТБ/с. При обучении больших моделей узкая полоса становится «бутылочным горлышком». |
Термины аренды и облачных вычислений
Термин | Определение | Аналогия | Зачем важно при аренде |
|---|---|---|---|
Инстанс (Instance) | Виртуальный сервер с выделенным GPU, который вы арендуете на время. | Арендованный автомобиль: вы получаете машину на время поездки, а не покупаете её. | Вы платите за час работы инстанса. После остановки плата прекращается (если провайдер не обманывает — см. «скрытые платежи»). |
Спот-инстанс (Spot instance) | Инстанс со скидкой 30–70%, но с риском прерывания в любой момент. | Авиабилет в последний момент за 30% цены — но авиакомпания может снять вас с рейса за 10 минут до вылета. | Экономия до 60%, но только для задач с чекпоинтами. Никогда не используйте для инференса в продакшене. |
On-demand инстанс | Стандартный инстанс без скидки, но с гарантией непрерывной работы. | Обычный авиабилет — дороже, но место гарантировано до пункта назначения. | Выбирайте для критичных задач и дедлайнов. |
Резервирование (Reservation) | Предоплата за гарантированный доступ к GPU в будущем (часто со скидкой 20–40%). | Бронирование столика в ресторане за неделю — гарантия места, иногда со скидкой. | Выгодно при стабильной загрузке >150 ч/мес. Не возвращается при отказе. |
Чекпоинт (Checkpoint) | Сохранённое состояние модели в процессе обучения (веса, оптимизатор, номер эпохи). | Сохранение игры в RPG: если персонаж погибнет, начнёте не с начала, а с последнего сохранения. | Обязателен для спот-инстансов. Без чекпоинтов потеряете весь прогресс при прерывании. |
Образ (Image) | Преднастроенный «слепок» системы с установленными фреймворками (ОС + CUDA + PyTorch). | Готовый кухонный набор: ножи заточены, специи на полках — можно сразу готовить. | Экономит 1–3 часа на настройку. Выбирайте образ под вашу задачу («Stable Diffusion», «PyTorch 2.3»). |
Cold boot | Первый запуск инстанса после долгого простоя — загрузка ОС, драйверов, образа. | Прогрев двигателя автомобиля зимой — первые 2 минуты медленнее. | Занимает 60–180 сек. У некоторых провайдеров (Сбер) оптимизирован до 30 сек. |
Термины машинного обучения и ИИ
Термин | Определение | Аналогия | Зачем важно при аренде |
|---|---|---|---|
Inference (Инференс) | Запуск уже обученной модели для получения результата (генерация текста, изображения). | Печать книги на готовом типографском станке — быстро и предсказуемо. | Требует меньше ресурсов: модель 7B параметров для инференса — 14 ГБ VRAM, для обучения — 35+ ГБ. |
Training (Обучение) | Процесс настройки весов модели на данных. | Написание книги с нуля — долго, требует много черновиков (итераций). | Требует в 2–3× больше VRAM и времени. Выбирайте мощный инстанс (2×RTX 4090 или A100). |
Fine-tuning | Дообучение предобученной модели на узком датасете (адаптация под домен). | Обучение шефа-повара новому блюду вместо обучения готовить с нуля. | Экономит 90% времени и ресурсов против обучения с нуля. Используйте методы вроде QLoRA для экономии памяти. |
QLoRA | Техника дообучения с квантизацией до 4 бит + адаптация только малой части весов. | Перекрасить стены в доме вместо строительства нового — дешевле и быстрее. | Позволяет дообучать модель 13B на одной RTX 4090 (24 ГБ). Без QLoRA потребовалось бы 2–4 карты. |
Quantization (Квантизация) | Снижение точности весов модели (например, с 16 бит до 4 бит) для уменьшения потребления памяти. | Сжатие фото из RAW в JPEG: файл меньше, качество почти не теряется. | Модель 7B в 16-бит: 14 ГБ → в 4-бит: 4 ГБ. Позволяет запускать большие модели на слабых картах. |
Prompt | Текстовый запрос к языковой модели («Напиши стих про кота»). | Рецепт для повара: чем точнее рецепт — тем лучше блюдо. | Важно для безопасности: промпты с ПДн могут логироваться провайдером. Избегайте передачи ФИО/номеров в промптах на непроверенных платформах. |
Tokens | Части текста, на которые разбивается промпт перед подачей в модель (слова, подслова). | Разрезание пирога на кусочки перед подачей гостям. | Стоимость инференса часто считается за токен. Модель обрабатывает ~20 токенов/сек на RTX 4090. |
Термины безопасности и данных
Термин | Определение | Аналогия | Зачем важно при аренде |
|---|---|---|---|
Локализация данных | Физическое размещение серверов и данных на территории РФ. | Хранение денег в сейфе в Москве против сейфа в Лондоне. | Обязательно для ПДн по ФЗ-152. Проверяйте документы провайдера — устных заверений недостаточно. |
Шифрование at rest | Шифрование данных на диске инстанса в состоянии покоя (когда вычисления не идут). | Замок на сейфе, даже когда вы не работаете с деньгами. | Защищает от извлечения диска из сервера. Включайте галочку при создании инстанса (есть у Сбера/Яндекса). |
Шифрование in transit | Шифрование данных при передаче (загрузка/выгрузка). | Броневик для перевозки денег вместо обычного автомобиля. | Используйте SFTP/HTTPS вместо FTP/HTTP. Большинство провайдеров поддерживают по умолчанию. |
Изоляция (Isolation) | Отделение вашего инстанса от других пользователей на уровне гипервизора. | Отдельная квартира в доме против коммуналки. | У крупных провайдеров — аппаратная изоляция. У бюджетных — возможна утечка через общую память хоста. |
СЗИ (Средство защиты информации) | Программно-аппаратный комплекс для защиты ПДн по требованиям ФСТЭК. | Сигнализация + камеры + охрана для банка. | Обязателен для госконтрактов. Провайдер должен предоставить сертификат СЗИ. |
Распространённые заблуждения новичков
Заблуждение | Реальность | Как избежать |
|---|---|---|
«Чем больше ядер у GPU — тем лучше» | Для ИИ важнее тензорные ядра и объём VRAM. RTX 4090 (16 384 CUDA cores) быстрее обучает модели, чем карта с 20 000 ядер без тензорных блоков. | Смотрите на архитектуру (Ada Lovelace, Ampere) и наличие тензорных ядер, а не только на число ядер. |
«24 ГБ памяти = могу запустить любую модель до 24 ГБ» | При обучении требуется в 2–3× больше памяти из-за градиентов и оптимизатора. Модель 13B (26 ГБ в FP16) не запустится на 24 ГБ без квантизации. | Для обучения: требуемый VRAM = размер модели × 2.5. Для инференса: ×1.2. |
«Спот-инстанс = всегда дешевле» | Если задача прервётся 3 раза подряд без чекпоинтов — вы потратите больше времени и денег, чем на гарантированный инстанс. | Используйте спот только с автоматическими чекпоинтами каждые 15 минут. |
«Образ с PyTorch = всё будет работать» | Версия CUDA в образе должна совпадать с версией драйвера на карте. PyTorch 2.3 + CUDA 12.1 на карте с драйвером под CUDA 11.8 = ошибка. | Перед запуском выполните |
«Провайдер хранит мои данные только пока инстанс работает» | Многие провайдеры сохраняют данные в объектном хранилище после остановки инстанса и тарифицируют хранение отдельно. | Удаляйте датасеты и чекпоинты сразу после завершения задачи или перемещайте в «холодное» хранилище. |
Быстрая шпаргалка для первых 5 запусков
Ситуация | Что проверить в первую очередь |
|---|---|
Модель не запускается | 1. |
Очень медленно работает | 1. |
Счёт растёт быстрее ожидаемого | 1. Работает ли инстанс после остановки задачи? 2. Сколько ГБ исходящего трафика использовано? |
Ошибка «CUDA out of memory» | 1. Используйте квантизацию (4-bit) 2. Уменьшите размер батча (`batch_size=1`) 3. Для обучения — включите градиентный аккумулятор |
Не могу подключиться к инстансу | 1. Есть ли публичный IP? 2. Открыт ли порт 22 (SSH) в настройках сети? 3. Не блокирует ли брандмауэр провайдера подключение? |
💡 Главный совет: Первые 3 запуска делайте на небольших задачах (генерация 10 изображений) с гарантированным инстансом. Освойте интерфейс и автоматизацию остановки — только потом переходите к споту и большим моделям.
