Топ вопросов с NLP собеседований: GPT, стратегии генерации текста и метрики оценки LLM / Хабр

На NLP/LLM-собеседованиях часто проверяют не то, знаешь ли ты слова top-k, top-p и BLEU, а понимаешь ли ты, что происходит с распределением вероятностей, почему greedy decoding зацикливается, зачем нужна temperature и почему BLEU плохо оценивает ответы современных LLM.

В этой статье - чеклист по языковому моделированию, стратегиям генерации и метрикам качества. Это не полноценная лекция с нуля, а тренажёр, по которому стоит пройтись перед техническим интервью по NLP, чтобы закрыть пробелы и вспомнить необходимую базу.

Содержание:

Языковое моделирование (GPT)
Стратегии генерации текста
Метрики оценки качества сгенерированного текста
Итоговый чеклист вопросов с собесов
Полезные материалы

Статьи серии

Топ вопросов по математике для ML и Data Science собесов: линейная алгебра и матан

classic ML: основы мл, линейные модели, метрики классификации и регресии

classic ML: Деревья и ансамбли, кластеризация, метрические модели

NLP: трансформеры и внимание

NLP: GPT, стратегии генерации текста и метрики оценки LLM [эта часть]

NLP: LLM и Alignment

NLP: архитектуры LLM, ускорение инференса и оптимизация [Soon… Stay fine‑tuned…]

NLP: LLM и агенты [Soon… Stay fine‑tuned…]

NLP: LLM и RAG

Языковое моделирование

Что такое задача языкового моделирования?

Языковое моделирование - это фундаментальная задача NLP, в которой модель учится оценивать вероятность последовательности токенов.

Модель оценивает совместную вероятность последовательности через chain rule:

$P(y_1, y_2, \dots, y_n)=P(y_1)\cdot P(y_2|y_1)\cdot P(y_3|y_1, y_2)\cdot\dots\cdot P(y_n|y_1, \dots, y_{n-1})= \prod \limits_{t=1}^n P(y_t|y_{\mbox{<}t}).$

То есть модель учится предсказывать каждый следующий токен по предыдущему контексту, и мы раскладываем вероятность всего предложения на произведение условных вероятностей следующего токена.

Модель учится на огромном количестве текстов предсказывать статистически и семантически подходящее продолжение. Именно это лежит в основе современных GPT-like моделей.

Где встречается языковое моделирование?

автодополнение в клавиатуре
подсказки в поисковике
машинный перевод
генерация ответов в чат-ботах
суммаризация текстов
генерация кода
исправление ошибок
продолжение текста
переформулирование
генерация описаний товаров

То есть задача вроде бы простая - предсказывать следующий токен, но на ней строится почти все современное генеративное NLP.

Как модель получает вероятность следующего токена?

Упрощённый пайплайн выглядит так:

Берём текст
Разбиваем его на токены
Превращаем токены в эмбеддинги
Пропускаем эмбеддинги через нейронную сеть
Получаем hidden state
Прогоняем hidden state через линейный слой
Получаем логиты по словарю
Применяем softmax
Получаем распределение вероятностей следующего токена

Допустим, у модели словарь из 50 000 токенов. Тогда на каждом шаге генерации модель должна выдать распределение вероятностей по всем этим 50 000 возможным токенам.

Например:

Токен	Вероятность
кофе	0.42
чая	0.21
воды	0.08
молока	0.04
...	...

После этого мы выбираем следующий токен одним из способов: жадно, случайным семплированием, top-k, top-p, beam search и так далее. Эти стратегии разберём ниже.

Языковое моделирование как классификация

На каждом шаге модель решает задачу многоклассовой классификации.

Класс - это следующий токен. Если словарь содержит 50 000 токенов, значит у нас 50 000 классов.

Модель получает контекст:

Я хочу выпить чашку

и должна предсказать правильный класс:

кофе

То есть генерация текста - это последовательность классификаций, где на каждом шаге модель выбирает следующий токен из словаря.

Hidden state, logits и softmax

Нейронная сеть не сразу выдаёт вероятности. Сначала она формирует внутреннее представление контекста - hidden state:

Дальше этот hidden state проходит через линейный слой: - получаем логиты.

Логиты - это ещё не вероятности. Это произвольные вещественные числа. Они могут быть отрицательными, положительными, большими, маленькими. Чтобы превратить их в вероятности, применяют softmax. После softmax все значения становятся неотрицательными и суммируются в 1.

Пайплайн получения из входного текста вероятностей следующего токена

Также внимательно изучите размерности всех тензоров в разные моменты времени, это важно)

Как обучается языковая модель?

Для обучения обычно используется кросс-энтропия.

Если правильный следующий токен - кофе, то мы хотим, чтобы модель дала ему высокую вероятность.

Функция потерь для одного шага:
$L = - \log P(y_t \mid x_{<t})$

где:

- правильный токен
$x_{<t}$ - предыдущий контекст
$P(y_t \mid x_{<t})$ - вероятность, которую модель присвоила правильному токену, при условии контекста.

Для всей последовательности:

$L = - \sum_{t=1}^{n} \log P(x_t \mid x_1, ..., x_{t-1})$

То есть если модель уверенно предсказывает правильные токены, loss маленький. Если модель даёт правильным токенам низкую вероятность, loss большой.

Почему это удобно масштабировать

Для обучения GPT-like моделей не нужна ручная разметка в классическом смысле. Нам не нужно, чтобы человек размечал: здесь правильный ответ/класс такой-то. Потому что у нас уже есть текст. А следующий токен в тексте автоматически становится таргетом.

Например, есть фраза:

Машинное обучение - это область искусственного интеллекта.

Из неё можно получить много обучающих примеров:

Контекст	Таргет
Машинное	обучение
Машинное обучение	-
Машинное обучение -	это
Машинное обучение - это	область
Машинное обучение - это область	искусственного

Поэтому next token prediction хорошо масштабируется: можно брать книги, статьи, сайты, документацию, код, форумы и обучать модель на огромных корпусах.

С помощью каких архитектур можно решать языковое моделирование?

Исторически языковое моделирование решали разными архитектурами: от n-gramных статистических подходов до rnn/lstm.

Но сейчас, конечно, основа всех современных LLM именно архитектуры на базе Transformer.

Небольшая оговорка
Есть и так называемые ssm: state space models. Активно ведутся исследования в сторону поиска оптимальных архитектур вместо трансформеров, у которых есть свои недостатки, но пока что массово в компаниях не переходят на альтернативы, и на собесах не спрашивают, так что о них говорить не будем.

Как вы уже можете помнить из прошлой части, трансформеные архитектуры делятся на:

encoder-only
decoder-only
encoder-decoder

сравнение основных архитектур трансформеров

С помощью encoder-only моделей обычно решаются задачи получение векторных представлений текста и дальнейшие классификации/регресии/ранжирования.

А вот с помощью encoder-decoder и decoder-only уже можно решать любые задачи языкового моделирования или по-простому: генерировать текст.

Исторически с помощью encoder-decoder решаются задачи:

перевод
суммаризация
перефразирование
text-to-text задачи

Примером такой архитектуры является T5: Text-to-Text Transfer Transformer.

T5 приводит разные NLP-задачи к единому text-to-text формату:

summarize: <длинный текст>
translate English to German: <текст>
classify sentiment: <отзыв>

Но современные большие универсальные LLM в основном строятся как decoder-only модели, так как их проще масштабировать и оптимизировать (как обучение так и инференс)

Что такое decoder-only модели и в частности GPT?

Decoder-only модели - это основа GPT-like LLM. Они генерируют текст авторегрессивно:

$P(x_1, ..., x_n) = \prod_{t=1}^{n} P(x_t \mid x_{<t})$

То есть модель каждый раз видит только предыдущие токены и предсказывает следующий.

Примеры decoder-only моделей: GPT, LLaMA, Mistral, Qwen, Gemma. Именно эти модели чаще всего имеют в виду, когда говорят про современные LLM.

Если говорить конкретно про GPT, с которого как раз и пошло развитие современных LLM, то gpt расшифровывается как Generative Pre-trained Transformer.

Расшифруем название:

Generative - модель умеет генерировать текст
Pre-trained - сначала модель предобучается на большом корпусе текстов
Transformer - архитектурная основа модели

Но так как у GPT нет encoder-блока, а используется только decoder-часть, то убираем cross-attention и также используем causal self-attention, чтобы текущий токен не видел будущие токены.

Как обучается GPT?

Основная задача обучения GPT next token prediction:

$P(x_t \mid x_1, x_2, ..., x_{t-1})$

То есть модель предсказывает следующий токен по предыдущим.

Сравним с BERT:

Модель	Архитектура	Задача обучения
BERT	encoder-only	masked language modeling
GPT	decoder-only	next token prediction

Что такое teacher forcing?

Teacher forcing - это режим обучения авторегрессионной модели, при котором для предсказания следующего токена ей передают истинные предыдущие токены из обучающей последовательности, а не токены, сгенерированные самой моделью. Таким образом модель учится на ошибке, но не уходит дальше по неправильной траектории.

Важно, что teacher forcing используется только во время обучения, так как на инференсе мы, конечно, не знаем истинных токенов)

Мы достигаем подобного эффекта за счет того, что формируем target для обучения путем сдвига input на один токен. Благодаря causal mask каждая позиция видит только текущий и предыдущие токены, но не видит правильный ответ справа. При этом вычисления для всех позиций можно выполнить параллельно, а затем посчитать cross-entropy loss.

Чтобы не пропустить выход статей и видео по ML, NLP, LLM, подпишись на мои соц. сети:

В Telegram канале — регулярный контент по ML и Data Science
На Ютуб канале — видеоразборы вопросов с собеседований (и по этой статье)
На Boosty — разборы задач по математике, реальных собеседований и еще больше обучающих материалов
Полная карта со всем моим контентом
Вкат с нуля или повышение грейда в ML — менторство

Какие есть стратегии генерации текста во время инференса?

Когда модель обучена, она на каждом шаге выдаёт распределение вероятностей по словарю, а сам токен надо как-то выбрать. Как раз здесь и появляются разные параметры генерации.

в какой момент появляются стратегии генерации

С помощью этих параметров мы в том числе будем пытаться найти баланс между:

coherence - связностью, логичностью, предсказуемостью
diversity - разнообразием, креативностью, неожиданностью.

Важен именно баланс, потому что если генерация слишком детерминированная, текст может быть скучным и шаблонным. И наоборот если генерация слишком случайная, текст может стать хаотичным и фактологически неверным.

Стратегии

Greedy decoding

Greedy decoding - самая простая стратегия. На каждом шаге выбираем токен с максимальной вероятностью:
$x_t = \arg\max_i P(x_i \mid x_{<t})$

Плюсы: просто, быстро, детерминированно, удобно для задач, где нужна стабильность.

Минусы: текст может быть скучным, модель может повторяться, локально лучший токен не всегда ведёт к глобально лучшему тексту, плохо подходит для креативной генерации.

Random sampling

Random sampling - выбираем следующий токен согласно распределению вероятностей модели.

Но проблема в том, что иногда модель может выбрать очень маловероятный и неуместный токен, из-за чего генерация будет ломаться.

Плюсы: больше разнообразия и креативности.

Минусы: может теряться связность, возможны странные токены, без дополнительных ограничений качество часто нестабильно.

сравнение жадного декодинга и семплирования

Temperature

Температура управляет остротой распределения вероятностей.

Она применяется к логитам перед softmax:

$P(x_i) = \frac{e^{z_i / T}}{\sum_j e^{z_j / T}}$

где:

- логит токена
- температура
Если T < 1, распределение становится более острым. Самые вероятные токены становятся ещё вероятнее. То есть модель осторожная, предсказуемая, менее креативная.
Если T > 1, распределение становится более гладким. У менее вероятных токенов появляется больше шансов быть выбранными. То есть модель более рискованная, разнообразная, иногда хаотичная.

примеры распределений в зависимости от температуры

Температура	Поведение
~0	почти greedy decoding
0.2–0.5	строгая, стабильная генерация
0.7–1.0	баланс качества и разнообразия
1.2+	больше креатива, выше риск мусора

Для юридического ассистента, медицинского QA или фактологического чат-бота обычно нужна низкая температура.

Для шуток, сторителлинга, генерации идей или креативного письма можно повышать температуру.

Top-k sampling

Top-k sampling ограничивает выбор только k самыми вероятными токенами. Например, если (k=5), модель берёт только 5 токенов с максимальной вероятностью, остальные обнуляет, затем нормализует вероятности и семплирует из оставшихся.

Пример:

Токен	Вероятность	После top-k, k=3
кофе	0.40	оставить
чая	0.25	оставить
воды	0.15	оставить
ноутбук	0.03	убрать
синхрофазотрон	0.001	убрать

Плюсы: убирает совсем неадекватные токены, сохраняет разнообразие, простой параметр.

Минусы: k нужно подбирать, фиксированное k не всегда хорошо подходит для разных контекстов.

Иногда модель уверена, и достаточно 2–3 токенов. Иногда распределение более равномерное, и полезно рассматривать больше вариантов.

Top-p / nucleus sampling

Top-p sampling, или nucleus sampling, работает более гибко - мы выбираем минимальный набор токенов, суммарная вероятность которых не меньше (p), например, 0.9.

Модель сортирует токены по вероятности, а потом берём токены до момента, когда суммарная вероятность стала ≥ 0.9.

Токен	Вероятность	Кумулятивная вероятность
кофе	0.40	0.40
чая	0.25	0.65
воды	0.15	0.80
какао	0.07	0.87
сок	0.04	0.91

Плюсы: адаптируется к форме распределения, часто работает лучше фиксированного top-k, широко используется в генеративных LLM.

Минусы: менее интуитивен, чем top-k, тоже требует настройки.

Beam search

Beam search - стратегия, которая ищет не просто лучший следующий токен, а несколько наиболее вероятных последовательностей.

Идея:

На первом шаге берём несколько лучших токенов
Для каждого продолжаем генерацию
Считаем вероятности получившихся цепочек
Оставляем top-N лучших цепочек
Повторяем

При этом сравниваем суммы логарифмов вероятностей, а не произведения вероятностей напрямую. И часто используем length penalty, потому что без нормализации beam search может предпочитать слишком короткие последовательности.

Параметр beam_size задаёт, сколько гипотез мы храним. Например, при beam size = 3 модель одновременно ведёт 3 наиболее перспективных продолжения.

Плюсы: неплохо работает в задачах машинного перевода, суммаризации, speech recognition, OCR. Ищет более глобально хорошую последовательность, не застревает так сильно на локально лучшем токене.

Минусы: дороже по памяти, дороже по времени, может давать менее разнообразный текст, для открытой генерации не всегда лучше sampling-методов.

Для чат-ботов и креативной генерации чаще используют комбинации temperature + top-p/top-k.

Ограничения длины генерации

У языковой модели нужно контролировать длину ответа.

Основные параметры:

min_length
max_length
max_new_tokens
eos_token

max_length или max_new_tokens защищают от бесконечной генерации.

min_length полезен, если нужно не дать модели закончить слишком рано.

В Hugging Face max_length обычно ограничивает общую длину prompt + generated tokens, а max_new_tokens - только количество новых токенов. Для чат-ботов чаще безопаснее явно задавать max_new_tokens.

no_repeat_ngram_size/repetition_penalty

Ещё один полезный параметр - запрет повторения n-грамм или штраф за повторы.

Например, при no_repeat_ngram_size = 3, модель не может повторить одну и ту же 3-грамму. Полезно, если модель начинает зацикливаться.

Но есть риск. В некоторых задачах повторение слов нормально. Например, если текст про Нью-Йорк, имя компании или конкретный термин, то запрет повторов может мешать - модель будет все больше использовать странные замены/синонимы и ломать текст. Поэтому сейчас чаще используют именно штрафы (repetition_penalty), а не полный запреты.

Конечно, на практике можно и нужно комбинировать и экспериментировать сразу с несколькими методами и их комбинациями.

Какие есть метрики оценки качества генеративных моделей?

Оценивать генеративные модели сложнее, чем обычную классификацию или регрессию, потому что у нас может быть несколько правильных ответов и простая accuracy нам уже не подходит.

в задаче языкового моделирования может быть и несколько правильных ответов

Есть два основных подхода к оценки сгенерированного текста: ручная оценка и автоматические метрики.

Как выглядит ручная оценка качества?

Ручная оценка проводится людьми, например, нанятыми разметчиками, экспертами и доменными специалистами или логика разметки может быть встрена в продукт и размечать данные будут сами юзеры.

Обычно оценивают текст по заранее заданным критериям:

связность и логичность
естественность языка
грамматические ошибки
фактическая корректность
соответствие запросу
полнота ответа
соответствие нужному стилю
отсутствие токсичности/опасных советов

Есть несколько популярных форматов/схем для сбора разметки:

текст бинарная оценка
- логично такую схему реализовать в том числе прямо в сервисе и собирать фидбэк юзеров через лайк / дизлайк
- удобно, просто, быстро, но малоинформативно, почему ответ плохой, слишком жесткая граница разделения
текст вещественная оценка
- например, от 1 до 3 или от 1 до 10 и тд
- информации в метрике уже больше, но инструкция будет сложнее и разные люди могут по-разному понимать шкалу
side-by-side: winner loser
- такое сравнение можно делать, как между ответами разных моделей, так и между таргетом и предсказанием
- потом на базе таких "матчей" строят лидерборд для определения победителя, оцениваются модели по шахматному ELO-рейтингу
- используется в составлении датасетов для alignment, чаще людям интуитивнее сравнивать относительно друг друга ответы, а не присваивать абсолютные значения, по-прежнему могут быть bias от инструкций и оценщика.

Какие есть автоматические метрики качества?

Автоматические метрики нужны, чтобы быстрее сравнивать модели и гипотезы без ручной разметки, например, для грубой фильтрации как прокси-метрики.

Но у них есть ограничение: они не всегда хорошо коррелируют с человеческим качеством, особенно для сильных генеративных моделей.

Основные метрики:

Exact Match
BLEU
ROUGE
METEOR
Perplexity
BERTScore
SeaHorse
LLM-as-judge

Как работает exact match?

Exact Match проверяет полное совпадение ответа с эталоном.

Подходит только для задач с жестким фиксированным ответов, для свободной генерации метрика бесполезна.

Как работает BLEU?

BLEU измеряет precision по n-граммам между сгенерированным текстом и референсом (сколько n-грамм из предсказания есть в таргете).

При этом BLEU штрафует за краткость предсказания.

Формула:

$BLEU = BP \cdot \exp\left(\sum_{n=1}^{N} w_n \log p_n\right)$

где:

p_n - precision для n-грамм
w_n - вес n-грамм
brevity penalty
BP - brevity penalty, штраф за слишком короткий ответ
- c - длина candidate/prediction
- r - длина reference

Как работает ROUGE?

ROUGE интепретируется как recall по n-граммам (сколько n-грамм из таргета попало в сгенерированный текст).

есть разные вариации rouge:

ROUGE-1 - совпадение униграмм
ROUGE-2 - совпадение биграмм
ROUGE-L - longest common subsequence

Используется для задач, где важно покрыть содержание референса, например, суммаризация.

Как работает METEOR?

METEOR - более гибкая альтернатива bleu, учитывает точные совпадения, стемминг, морфологические формы, синонимы, порядок слов.

Лучше реагирует на случаи, когда модель сказала примерно то же самое другими словами.

Как работает Perplexity?

Perplexity показывает, насколько модель удивлена текстом.

Если модель считает текст вероятным, то perplexity низкая.

Если текст для модели скорее странный и необычный, то перплексия высокая.

Формула:

$PPL = \exp\left(- \frac{1}{N} \sum_{t=1}^{N} \log P(x_t \mid x_{<t})\right)$

где:

N - количество токенов
$P(x_t \mid x_{<t})$ - вероятность правильного токена

Perplexity связана с cross-entropy как $PPL = e^{CE}$ , если кросс энтропия считается с натуральным логарифмом.

Perplexity часто используют именно для оценки того, насколько модель хорошо предобучилась, то есть насколько она хорошо понимает датасет, но эта метрика слабо связана с тем, насколько хорошо модель следует инструкцям, как часто галлюционирует и тд.

Также сравнение моделей по perplexity можно делать только, если у моделей один и тот же датасет и токенайзер.

Как работает BERTScore?

BERTScore оценивает семантическое сходство между prediction и reference через эмбеддинги BERT-like модели. статья

Алгоритм:

Получение эмбеддингов: оба текста (референсный и сгенерированный) разбиваются на токены и пропускаются через предобученный BERT. Для каждого токена извлекается его эмбеддинг.
Вычисление косинусного сходства: для всех пар токенов из двух текстов вычисляется косинусное сходство, и формируется матрица сходства токенов.
Расчёт точности, полноты и F1-меры: на основе матрицы сходства для каждого токена в сгенерированном тексте находится наиболее похожий токен в референсном тексте, что позволяет вычислить precision. Аналогично, для каждого токена референса находится самый близкий токен в сгенерированном тексте, что даёт recall. Итоговым значением BERTScore является сбалансированная F₁-мера, которая комбинирует точность и полноту.

BERTScore лучше BLEU/ROUGE в случаях, где текст переформулирован, но смысл сохранён.

Как работает Seahorse?

Seahorse - подход/бенчмарк для оценки качества суммаризации. статья

Идея в том, что качество summary нельзя свести только к n-граммам. Нужно проверять разные свойства:

не потеряны ли важные факты
нет ли противоречий исходному тексту
нет ли галлюцинаций
достаточно ли summary краткое
хорошо ли оно читается

Мы обучаем специальны модели оценивать качество генерации по заданным критериям и потом применяем их для оценки новых саммари.

Как работает LLM-as-a-Judge?

LLM-as-a-Judge - это подход, при котором большую языковую модель используют как оценщика. Понятно, что модель судья должна быть умнее, чем анализируемая модель.

Например, мы даём LLM один или несколько ответов и просим выбрать лучший ответ или поставить оценку по критериям (могут быть те же критерии, что и для ручной оценки)

Обычно такой подход быстрее и дешевле, чем привлечение разметчиков/экспертов, но нужно учитывать, что LLM могут также быть смещены, галлюцинировать. А также помним, что надо аккуратно использовать проприетарные LLM по api, если тексты содержат чувствительную информацию.

Также все сильно зависит от того, какую задачу решает генеративная модель - и на выбор критериев оценки, а также на целесообразность такой оценки, ведь например, качество кода можно проверять синтаксическими правилами, а не другой генеративкой.

Какие есть ограничения у использования BLEU/ROUGE метрик?

BLEU и ROUGE были полезны для классических задач вроде перевода и суммаризации. Но для оценки ответов современных LLM одного лишь совпадения n-грамм не хватает и с определенного порога качества желательно использовать более умные методы, например, bertscore или llm-as-judge.

Поэтому на практике часто строят гибридный пайплайн оценки качества: самые быстрые грубые гипотезы можно отсекать по bleu/rouge, а дальше уже более тонкую оценку делать с помощью LLM-as-judge и привлечением экспертов.

Итоговый чеклист вопросов с собесов

вопросы, на которые нужно уметь отвечать

Языковое моделирование

Что такое задача языкового моделирования?
Что такое next token prediction?
Как через chain rule раскладывается вероятность последовательности токенов?
Почему предсказание следующего токена можно рассматривать как многоклассовую классификацию?
Почему для обучения языковой модели не нужна ручная разметка?
Как текст преобразуется в распределение вероятностей следующего токена?
Что такое hidden state и какую информацию он содержит?
Чем логиты отличаются от вероятностей?
Зачем к логитам применяется softmax?
Какова размерность выходных логитов языковой модели?
Как рассчитывается cross-entropy loss для языковой модели?
Почему loss можно вычислять сразу для всех позиций последовательности?
Как cross-entropy связана с максимизацией вероятности обучающего текста?
Почему next token prediction хорошо масштабируется на большие объёмы данных?

Архитектуры и обучение GPT

Чем encoder-only, encoder-decoder и decoder-only архитектуры отличаются друг от друга?
Для каких задач обычно используются encoder-only модели?
Для каких задач применяются encoder-decoder модели?
Почему современные универсальные LLM чаще строятся как decoder-only модели?
Как decoder-only модель генерирует текст авторегрессивно?
Чем обучение GPT отличается от обучения BERT?
Что такое causal self-attention?
Зачем decoder-only модели нужна causal mask?
Почему текущий токен не должен видеть будущие токены?
Чем decoder-блок GPT отличается от декодера классического Transformer?
Что такое teacher forcing?
Почему во время обучения модели передаются истинные предыдущие токены?
Как формируются входы и таргеты для обучения GPT?
Зачем таргеты сдвигаются относительно входной последовательности на один токен?
Почему обучение можно выполнять параллельно по токенам, а генерацию — последовательно?

Стратегии генерации

Что происходит на одном шаге авторегрессивной генерации?
Чем процесс генерации отличается от обучения модели?
Как связаны coherence и diversity?
Почему нельзя всегда выбирать только самый вероятный токен?
Как работает greedy decoding?
Какие преимущества и ограничения есть у greedy decoding?
Почему локально лучший токен не обязательно приводит к лучшей последовательности?
Как работает random sampling?
Почему sampling по полному распределению может приводить к неадекватным токенам?
Что делает параметр temperature?
Как низкая и высокая temperature изменяют распределение вероятностей?
Что происходит при стремлении temperature к нулю?
Почему слишком высокая temperature ухудшает связность текста?
Как работает top-k sampling?
Какие ограничения есть у фиксированного значения k?
Как работает top-p, или nucleus sampling?
Чем top-p отличается от top-k?
Почему top-p лучше адаптируется к форме распределения?
Можно ли одновременно использовать temperature, top-k и top-p?
В каком порядке применяются temperature, фильтрация токенов и sampling?
Как работает beam search?
Чем beam search отличается от greedy decoding?
Чем max_length отличается от max_new_tokens?
Как модель понимает, что генерацию нужно завершить?
Почему модель может начать повторяться или зацикливаться?
Чем no_repeat_ngram_size отличается от repetition_penalty?

Метрики качества генерации

Почему качество генерации сложнее оценивать, чем качество классификации?
Какие критерии обычно используют при ручной оценке ответа LLM?
Чем абсолютная оценка отличается от попарного side-by-side сравнения?
Как работает Exact Match и для каких задач он подходит?
Как работает BLEU?
Зачем в BLEU используется brevity penalty?
Как работает ROUGE?
Чем BLEU концептуально отличается от ROUGE?
Почему BLEU и ROUGE плохо оценивают ответы современных LLM?
Как работает METEOR и чем он отличается от BLEU?
Что такое perplexity?
Как perplexity связана с cross-entropy?
Почему низкая perplexity не гарантирует хорошее следование инструкциям?
При каких условиях можно корректно сравнивать модели по perplexity?
Как работает BERTScore?
Почему BERTScore лучше учитывает перефразирование, чем BLEU и ROUGE?
Почему высокая семантическая близость не гарантирует фактологическую корректность?
Что такое LLM-as-a-Judge?
В каких форматах LLM может оценивать ответы?
Какие преимущества есть у LLM-as-a-Judge?
Какие риски и bias есть у LLM-судьи?
Что такое position bias при попарном сравнении ответов?
Как проверить, что оценки LLM-as-a-Judge коррелируют с оценками людей?
Когда вместо LLM-судьи лучше использовать детерминированную проверку?
Почему нельзя оценивать генеративную модель только одной метрикой?
Как построить гибридный пайплайн из автоматических метрик, LLM-as-a-Judge и ручной оценки?
Как выбор метрик зависит от конкретной задачи: перевод, суммаризация, чат-бот или генерация кода?
Какие продуктовые метрики стоит использовать вместе с offline-оценкой?

Полезные материалы

учебник Лены Войты | курс DLS на степик | курс по NLP от ШАДа

В Telegram канале — регулярный контент по ML и DL
На Ютуб канале — видеоразборы вопросов с собеседований
На Boosty — разборы реальных собеседований, MLSD и еще больше обучающих материалов
Полная карта со всем моим контентом
Вкат с нуля или повышение грейда в ML — менторство