Базовый минимум. Часть 2: промпт-инжиниринг / Хабр

Дисклеймер: данная лекция подготовлена в первую очередь для непрофильных студентов магистратуры и аспирантуры, которые используют ИИ в учебной, исследовательской и профессиональной деятельности. Материал носит вводный характер и содержит намеренные упрощения. В то же время лекция может быть полезна и более широкой аудитории пользователей ИИ. Буду признателен за замечания и предложения по улучшению.

Серия «Базовый минимум» (4 части):

Базовый минимум. Часть 1: большие языковые модели;

Базовый минимум. Часть 2: промпт-инжиниринг (вы здесь);

Базовый минимум. Часть 3: RAG-системы;

Базовый минимум. Часть 4: ИИ-агенты.

«Хорошо заданный вопрос — это уже половина ответа»

Содержание

Что такое промпт-инжиниринг
Структура эффективного промпта
Техники промптинга
Промпт-инжиниринг в изображениях
Промпт-инжиниринг в видео
Промпт-инжиниринг в музыке
Источник промптов
- Библиотеки промптов
- Генерация и обратный инжиниринг
Заключение

Что такое промпт-инжиниринг

В документации Yandex Cloud промпт-инжиниринг описывается как практика, которая помогает разрабатывать и оптимизировать промпты, чтобы получать более качественные результаты при работе с большими языковыми моделями.

Почему это стало отдельной практикой? Во-первых, LLM не обладают человеческим, «заземлённым» пониманием смысла: они генерируют наиболее вероятное продолжение, поэтому могут звучать убедительно даже при ошибках и выдумках.

Во-вторых, они очень чувствительны к формулировке и контексту и поэтому любая мелкая неточность в запросе легко смещает ответ, меняет стиль или качество.

И, в-третьих, нет универсального стандарта постановки задач для модели.

Отсюда и практическая цель промпт-инжиниринга: написать для модели точное и однозначное техническое задание.

Структура эффективного промпта

Общий запрос порождает общий ответ. Поэтому, чтобы результат был предсказуемым, промпт лучше собирать как короткое техническое задание из нескольких блоков. Это не строгий стандарт и не единственно правильная схема, а практическая эвристика. То есть набор элементов, который чаще всего повышает качество и управляемость ответа.

Сначала задаётся роль, в которой модель должна выступать и как себя вести. Затем фиксируется задание, которое нужно выполнить. Далее указывается длина результата в строках, словах или символах. Отдельно, если нужно, прописываются ограничители — правила и условия, в рамках которых модель должна работать. После этого уточняется целевая аудитория или стиль ответа. И, наконец, задаётся формат результата, в котором должен быть оформлен вывод.

Такая структура снижает «додумывание» и делает ответы более стабильными и проверяемыми, но даже хорошо структурированный промпт не гарантирует правильный ответ на сложных задачах. Для повышения качества ответа используются специальные техники промптинга.

Техники промптинга

Zero-shot

Zero-shot промптинг — это режим, в котором модель решает задачу без примеров, опираясь только на формулировку запроса и знания, полученные в ходе обучения. Пользователь описывает, что нужно сделать, но не показывает, как именно это делать.

В работе «Language Models are Few-Shot Learners» исследователи из OpenAI показали, что достаточно крупные языковые модели способны эффективно решать многие задачи при минимальных инструкциях в промпте, то есть без примеров и без дополнительного дообучения.

Zero-shot подходит как базовый вариант: если модель справляется в этом режиме, дополнительные техники не требуются.

Few-shot

Если zero-shot опирается только на формулировку запроса, то few-shot промптинг дополняет инструкцию несколькими примерами ожидаемого поведения модели. Эти примеры не обучают модель в классическом смысле, но задают ориентир: модель воспринимает примеры как шаблон и стремится воспроизвести выявленную закономерность при генерации ответа.

В той же работе (Language Models are Few-Shot Learners) показано, что добавление нескольких примеров часто даёт заметный прирост качества по сравнению с zero-shot. На задачах ответов на вопросы по текстам и чтения с пониманием few-shot улучшал результат примерно на несколько процентов (вплоть до 5–7) относительно zero-shot.

Интересно, что эффективность few-shot зависит не только от количества и репрезентативности примеров, но и от их последовательности приведения.

Chain-of-Thought

Chain-of-Thought (Цепочка рассуждений, CoT) — это режим, при котором мы просим модель рассуждать шаг за шагом или показываем пример такого рассуждения, чтобы она не «прыгала» сразу к финалу. В обычном режиме модель может пропустить условие или перепутать шаги. CoT снижает эти ошибки, потому что заставляет модель разложить решение на последовательность действий.

В работе «Chain-of-Thought Prompting Elicits Reasoning in Large Language Models» авторы показывают, что включение нескольких примеров с цепочкой рассуждений даёт существенное улучшение качества на задачах арифметики, здравого смысла и символического рассуждения.

Zero-shot Chain-of-Thought

Zero-shot Chain-of-Thought — это вариант CoT, при котором модель не получает примеров рассуждений, но получает явное указание рассуждать пошагово при решении задачи.

Он стал популярным после работы «Large Language Models are Zero-Shot Reasoners». Авторы выяснили, что иногда достаточно одной фразы «Let’s think step by step», чтобы заметно усилить рассуждение без примеров и без дообучения. На различных бенчмарках точность выросла от 17.7% до 78.7%.

Zero-shot CoT особенно полезен, когда задача требует логической цепочки, нет возможности подбирать примеры или обычный zero-shot даёт быстрый, но ошибочный результат. При этом zero-shot CoT не всегда так стабилен, как few-shot CoT, поскольку модель рассуждает без заданного шаблона.

Промпт-инжиниринг в изображениях

Если в текстовых задачах мы в первую очередь направляем логику ответа, то в генерации изображений промпт задаёт визуальные приоритеты модели: как выстраивается сцена, где оказывается фокус внимания, какой свет используется и какое общее настроение формирует изображение.

Хаотичные или слишком общие промпты почти всегда приводят к нестабильным результатам, поэтому используется структурированный (модульный) подход. В упрощённом виде эффективный визуальный промпт собирается из нескольких блоков:

Объект: главный персонаж или предмет сцены;
Композиция: окружение, кадрирование и положение в пространстве;
Свет / камера: освещение, ракурс и глубина резкости;
Стиль: визуальный язык, жанр и степень реализма;
Ограничения: что исключить или зафиксировать;
Последовательность правок: как модель должна дорабатывать изображение шаг за шагом;
Формат результата: разрешение или формат изображения.

Пример эффективной структуры промпта для генерации изображения

Подробный разбор структурированного визуального промптинга приведен в материале «The Only Image Generation Prompting Guide You Will Ever Need».

Промпт-инжиниринг в видео

В видео промпт задаёт не только визуальные параметры, но и динамику во времени. Часто промпт для генерации видео собирается из блоков:

Субъект: кто/что в кадре и какие признаки должны сохраняться;
Действие / движение: основное действие и темп;
Сцена / контекст: место и фон;
Камера: план, ракурс, движение;
Свет и стиль: освещение и визуальная эстетика;
Ограничения: что исключить.

Пример эффективной структуры промпта для генерации видео

Подробнее можно найти в материале «AI Video Generation Prompt Engineering in 2025: What Actually Works».

Промпт-инжиниринг в музыке

Ключевая сложность генерации музыки в том, что пользователь не управляет напрямую нотами, гармонией или аранжировкой. Вместо этого он задаёт высокоуровневые смысловые и структурные ориентиры, которые модель переводит в звучание. Так, эффективный промпт состоит из блоков:

Жанр: музыкальный язык и ожидания по тембрам и ритму;
Настроение: эмоциональный вектор (uplifting, melancholic, dark и т.д.);
Темп и энергия: BPM или (slow, mid-tempo, fast);
Структура: интро, куплеты, припевы;
Вокал: наличие, тип голоса, манера, язык;
Инструменты и текстуры: 2–3 ключевых источника звука;
Эффекты: reverb, delay, spatial;
Ограничения: что исключить или зафиксировать.

Пример эффективной структуры промпта для генерации музыки

Источник промптов

Библиотеки промптов

Кроме самостоятельной разработки запросов, полезным источником являются библиотеки промптов — наборы готовых примеров и шаблонов для типовых задач.

Для текстовых задач доступны, например, библиотека промптов YandexGPT и коллекция промптов от GigaChat, а для генерации изображений можно найти примеры в библиотеке промптов YandexART и в статье «The Ultimate AI Image Prompting Guide: 68 Ready-to-Use Prompts». Для генерации видео может быть полезна статья «AI Video Generation Prompt Engineering in 2025: What Actually Works». Это лишь некоторые примеры готовых шаблонов, которые можно использовать для своих целей.

Генерация и обратный инжиниринг

Помимо библиотек, источником промптов может выступать сама LLM. В этом случае промпт формируется через генерацию: пользователь задаёт цель, а LLM предлагает структурированный запрос для изображения, видео, музыки или кода.

Отдельным подходом является обратный инжиниринг промптов — восстановление или уточнение запроса по уже полученному результату. LLM можно передать изображение, видео или другой сгенерированный контент и попросить описать, какой промпт мог привести к такому результату, либо скорректировать его под новую цель.

Кроме того, могут быть полезны специальные сервисы обратного инжиниринга, такие как PromptVID.

Заключение

Работа с большими языковыми моделями — это не просто формулировка запроса, а осознанное проектирование поведения модели. Через структуру промпта пользователь задаёт контекст, приоритеты, ограничения и формат результата, делая вывод более управляемым и воспроизводимым как в текстовых задачах, так и в генерации изображений, видео и музыки. Это не выдуманная и не эфемерная практика, а обоснованная эвристика, которая приводит к измеримому улучшению качества генерации.

Однако одного качественного промпта недостаточно в задачах, где требуется опора на актуальные данные, большие объёмы информации или проверяемость источников. Это логически подводит к следующему шагу — RAG-системам, которые дополняют языковую модель внешними знаниями и позволяют соединить генерацию с поиском, верификацией и обновляемым контекстом.

Далее — Базовый минимум: RAG-системы.

Список используемых источников

1. Boonstra L. Prompt Engineering : whitepaper [Электронный ресурс]. — Kaggle, 2024. — URL: https://www.kaggle.com/whitepaper-prompt-engineering (дата обращения: 03.01.2026).

2. GigaChat. Как задать вопрос GigaChat : инструкция [Электронный ресурс]. — URL: https://giga.chat/help/articles/prompt-guide (дата обращения: 03.01.2026).

3. Яндекс Облако. Руководство по проектированию промптов : документация Yandex Cloud (Yandex AI Studio) [Электронный ресурс]. — URL: https://yandex.cloud/ru/docs/ai-studio/gpt-prompting-guide/about (дата обращения: 03.01.2026).

4. Ai Father. Промпт-инжиниринг для генерации музыки в Suno v4.5 [Электронный ресурс]. — URL: https://ai.fatherbonus.ru/suno_promt/ (дата обращения: 03.01.2026).

5. PromptVid. AI Video Generation Prompt Engineering in 2025: What Actually Works [Электронный ресурс]. — URL: https://promptvid.site/blog (дата обращения: 03.01.2026).