Как устроены AI токены: реальные расходы на запросы, принципы токенизации и разница с количеством слов / Хабр

Что такое токен в искусственном интеллекте, и зачем он нужен

Токен — это минимальная единица обработки данных для моделей искусственного интеллекта. Он может представлять собой:

Слово;
Часть слова;
Знак препинания;
Символ;
Пробел.

Токенизация — это обязательный этап для обработки текста в нейросети. Она разбивает текст на набор токенов, чтобы понимать, что ей от вас надо и генерировать ответы, содержащие какой-то смысл и пользу. Кстати, одно и то же слово в одном и том же языке может разбиваться на разные токены в зависимости от написания.

Это влияет на подсчёт токенов и, как следствие, на затраты. Например, слово «машиностроение» на русском языке может быть разбито на токены [«машино», «строение»], а знаки препинания или специальные символы учитываются как отдельные токены.

Как происходит токенизация?

Процесс, который ведёт к генерации первого токена. Источник: Исследование Nvidia

Вообще, процесс обработки промпта начинается с того, что модель получает текст в виде, собственно, текста. Чтобы пройти дальше, разные провайдеры, такие как OpenAI, Google, DeepSeek или GPTunneL, используют инструменты токенизации, обученные на собственных словарях. Самый известный из них — OpenAI Tokenizer. При этом каждому токену выдается свой собственный ID — своего рода «номер» слова из словаря.

Дальше модель проходит этап prefill (первичная обработка всего входа целиком), чтобы подготовить внутренние вычисления:

Внутри используется механизм внимания: он решает, на какие части входных данных опираться сильнее, что важнее для финального результата.
Также строится KV-cache (кэш ключей/значений) — такая “память”, которая ускоряет генерацию, чтобы не пересчитывать одно и то же.

Затем начинается decode / generation. Модель выдаёт текст по одному токену за шаг. Чтобы человек увидел буквы, нужен обратный процесс — de-tokenization (детокенизация: превращение token ID обратно в символы).

Если вы хотите подсчитать скорость от первого до последнего этапа, ориентируйтесь на метрику TTFT (time to first token), т.е. сколько времени проходит от отправки запроса до появления первого токена на выходе

Примеры токенов и токенизации текста

В английском языке слово «darkness» разбивается на токены «dark» и «ness», а «brightness» — на «bright» и «ness». В русском языке сложные или составные слова почти всегда разбиваются на несколько токенов. Например, слово «интернационализация» может быть разбито на [«интер», «наци», «онали», «зация»].

Количество токенов всегда зависит от:

Структуры фразы;
Длины слов;
Языка;
Выбранной модели.

Некоторые токенизаторы, вроде того же OpenAI Tokenizer, доступны публично, чтобы помочь рассчитать число токенов для текста на русском или английском языках. Токенизация нужна не только для генерации текста. Она позволяет сохранять контекст, поддерживать точность перевода, например, и анализировать тональность в различных задачах ИИ.

Почему 1000 токенов — это не 1000 слов

Многие пользователи ошибочно полагают, что 1000 токенов соответствуют 1000 словам. На практике это не так. Я, обычно, использую такие соотношения:

1000 токенов ≈ 700–750 слов на английском;
1000 токенов ≈ 350–400 слов на русском.

Эта оценка взята не из головы, если что, а из двух источников:

Данные из исследования Nvidia показывают, что 1 токен ≈ 0.75 английского слова.
Тесты в нашем токенизаторе показали, что в 1000 токенах содержится примерно 400 слов на русском. Проверить можете сами по этой ссылке.

Если текст насыщен длинными словами, техническими терминами или именами собственными, количество токенов увеличивается. Различие между токенами и словами часто приводит к ошибкам при самостоятельном расчёте бюджета на использование API. Точное соответствие между токенами и словами невозможно, так что закладывайте запас 15–20% при расчёте лимитов.

Для английского языка слово «internationalization» делится на несколько токенов, в то время как слово «cat» будет одним токеном. Для русского языка сложные или составные слова почти всегда разбиваются на 2–4 токена. Длина и состав фразы (наличие кавычек, цифр, знаков препинания) также влияют на итоговое число токенов.

Сколько реально стоит один запрос к нейросети — тарифы и формулы расчёта

Тарифы на работу языковых моделей, таких как ChatGPT, Gemini или Claude, рассчитываются за 1М токенов. При этом учитывается как запрос пользователя, так и объём сгенерированного ответа. Формула расчёта проста:

Цена запроса = (входные токены × цена за входные токены) + (токены ответа × цена за выходные токены).

Например, для GPT-5.2 в официальном API расценки сейчас такие:

Вход — $1.75 за 1M токенов;
Выход — $14 за 1M токенов;

Значит чат на ~500 английских слов (≈700–800 токенов, допустим поровну input/output) обойдётся примерно в $0.0055–$0.0063 за запрос.

Для контраста: у o1 pro тариф по API — $150 за 1M входных токенов и $600 за 1M выходных, поэтому чат на ~500 слов обойдётся примерно в $0.26–$0.30 за запрос. Это была первая большая “думающая” модель от OpenAI, ресурсоемкая и генерирующая огромное количество Reasoning Tokens в своих ответах, отсюда и такие цены. Современные думающие модели, вроде GPT-5.2 Thinking уже намного демократичней в плане стоимости.

Как снизить стоимость запроса?

Используйте короткие и простые формулировки.
Избегайте сложных технических терминов, если они не обязательны.
Убирайте лишние знаки препинания и форматирование.
Проверяйте количество токенов с помощью калькуляторов перед отправкой большого запроса.

Для крупных, многосоставных промптов я юзаю этот лайфхак:

Структурируйте промпт по блокам (role / context / task / examples) и отмечайте их Markdown-разделителями или XML-тегами. Это советуют сами провайдеры: OpenAI рекомендует в своём гайде по промптингу явно отделять части запроса, а Anthropic советует использовать XML-теги и единый стиль. Такой подход снижает двусмысленность и делает извлечение важных фрагментов предсказуемым. Вот пример такого промпта:

#  Identity
You are coding assistant that helps enforce the use of snake case variables in JavaScript code, and writing code that will run in Internet Explorer version 6.
# Instructions
* When defining variables, use snake case names (e.g. my_variable)  instead of camel case names (e.g. myVariable).
* To support old browsers, declare variables using the older "var" keyword.
* Do not give responses with Markdown formatting, just return the code as requested.
# Examples
<user_query>
How do I declare a string variable for a first name?
</user_query>
<assistant_response>
var first_name = "Anna";
</assistant_response>

Основные преимущества:

Экономия через Prompt Caching. Если у вас есть «шапка» промпта — обычно это роль, инструкции, правила и формат ответа — и она повторяется из запроса в запрос, ИИ может закэшировать её при точном совпадении. Тогда эта информация используется из кэша, что снижает задержку и делает входные токены дешевле (они считаются провайдером как cached input по отдельной ставке), а переменная часть — например, текст пользователя — остаётся в конце и обрабатывается как обычно.
Модели понятно, что для вас важно. В гайдах по GPT-4.1 и GPT-5.2 повторяется одна мысль: важное стоит ставить в начале промпта, но также полезно просить модель повторить ограничения перед ответом — чтобы модель не забыла их при длинном контексте.
Меньше токенов и пересчётов. Исследования по сжатию промптов показывают, что в длинных запросах качество часто падает не потому, что модель «глупеет», а потому что мы перегружаем её лишними фрагментами. В исследовании LongLLMLingua приводится два эффекта: чем больше лишней информации, которая путает модель («шума»), мы добавляем в запрос, тем хуже результаты. А еще, чем ближе важные данные к середине длинного текста, тем чаще она тупит, прямо скажем.

Отсюда практический вывод: вместо того чтобы добавлять в запрос всё подряд, полезнее оставлять только нужные куски и располагать ключевые сведения так, чтобы они не утонули среди второстепенных деталей.

На графике из исследования LongLLMLingua видно, что сжатие промпта (удаление низкоинформативных частей) удерживает или даже повышает качество и одновременно сокращает задержку. В примерах достигается ускорение ответа до ~2.1× при ~4× меньшем числе токенов.

К чему все это?

На серверной стороне, то есть после того, как мы отправляем запрос к ИИ, токенизация выполняется на CPU, требует много вычислительных ресурсов и может стать проблемным местом. Поэтому, чем короче и стабильнее разметка промпта, тем ниже расходы на разбивку.

Заключение

Для сложных задач, где модель генерирует длинный и насыщенный текст, итоговое количество токенов может в несколько раз превышать число слов. Если в ответе используются списки, таблицы или элементы кода, они тоже учитываются как токены, даже если визуально их меньше.

А под конец, вот вам интересная статистика от NVIDIA AI Dev: стоимость за токены снижается. Оптимизация программного обеспечения и использование последних поколений GPU от NVIDIA позволили снизить стоимость за токен в 20 раз по сравнению с неоптимизированными вычислениями на GPU предыдущих поколений.

FAQ

Почему тарификация идёт за токены, а не слова?

Токены — это универсальная единица измерения, которая учитывает не только слова, но и части слов, знаки препинания и другие элементы текста. Это позволяет более точно оценивать затраты на обработку данных.

Сколько токенов в среднем в одном русском и английском слове?

В английском языке один токен в среднем соответствует 0.75 слова, в то время как в русском языке это значение может достигать слова 0.4 слова из-за сложной морфологии.

Как посчитать число токенов для моего запроса?

Можно воспользоваться онлайн-калькуляторами или встроенными инструментами платформ, таких как GPTunneL.

Можно ли сократить расходы, уменьшив количество токенов?

Да, можно оптимизировать запросы: избегать длинных фраз, использовать сокращения, убирать лишние знаки препинания и форматирование.

Как токены влияют на максимальную длину запроса и размер ответа?

Максимальная длина запроса и ответа ограничивается количеством токенов, которые может обработать модель. Например, если модель поддерживает 4096 токенов, то сумма токенов в запросе и ответе не должна превышать это значение.

Есть ли разница в подсчёте токенов между OpenAI, Gemini и Anthropic?

Да, разница есть. Каждая модель использует свой токенизатор, что приводит к различной разбивке текста на токены. Например, одно и то же предложение может занимать разное количество токенов в разных моделях.

В статье я подробно разобрал именно текстовые токены. Если интересно разобрать мультимодальные токены, например, в Gemini 3 Pro и GPT-5.2, то пишите в комментариях, напишу отдельную статью. А чтобы на практике посмотреть, как работают разные модели, можно заглянуть в GPTunneL.

Ну и в целом, оставляйте вопросы и пожелания. Буду рад с вами пообщаться!

Как устроены AI токены: реальные расходы на запросы, принципы токенизации и разница с количеством слов