Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее / Хабр

Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре.

Это не косметическая проблема. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

TL;DR

Русский текст почти всегда дороже и медленнее английского при работе с нейросетями: текст режется на более мелкие кусочки. — GPT-4 на русском обходится примерно в 2 раза дороже, чем на английском, при равном объёме осмысленного контента. — GPT-4o заметно лучше предшественника — у него в десять раз больше «русских» кусочков в словаре. — 128 тысяч токенов контекста на русском — это не 100 тысяч слов, а примерно 50–60 тысяч. Закладывайте поправку при работе с длинными документами. — Под русский язык в 2026 году имеет смысл смотреть в сторону Qwen 3, GigaChat, YandexGPT, дообученных версий Llama 3.3 — у них русский лежит лучше, чем у топовых западных моделей по умолчанию. — Llama 4 русский нативно не поддерживает — её дообучали только на 12 языках, русского в списке нет.

Что такое токены и зачем о них знать

Представьте, что вы передаёте телеграмму, и каждая клеточка в бланке — это один знак, за который надо заплатить. Чем больше клеточек уходит на ваше сообщение, тем дороже телеграмма. С нейросетями примерно так же, только клеточки называются токенами, а вместо знаков в каждую помещается кусочек текста — иногда буква, иногда слог, иногда целое слово.

Программа, которая режет текст на эти кусочки, называется токенизатором. У каждой нейросети он свой. У одних он умеет складывать русское «договор» в один кусок, у других дробит на «дог», «ов», «ор» — три кусочка вместо одного.

Для английского языка хороший токенизатор тратит примерно три кусочка на четыре слова в среднем — часто целое слово укладывается в один токен. Для русского у моделей, которые не учитывали кириллицу при разработке, это число вырастает в два‑три раза. Иными словами, чтобы передать ту же информацию, русскому тексту нужно ощутимо больше токенов, чем английскому.

Прямые последствия для вас как пользователя или разработчика:

Стоимость в облаке растёт пропорционально. OpenAI и Anthropic считают деньги по токенам — больше токенов на тот же текст означает больший счёт. — Отклик медленнее. Нейросеть обрабатывает токены последовательно, и больше токенов — это физически больше времени на ответ. — Контекстное окно расходуется быстрее. Если у модели заявлено 128 тысяч токенов «памяти», на английском туда влезет около 90 тысяч слов, а на русском — только 50–60 тысяч. — Качество понимания падает. Когда слово разбито на бессмысленные обрывки (например, «налогоплательщик» становится «нало», «гопла», «тельщ», «ик»), нейросети сложнее понять его как единицу смысла. Это особенно критично для специфической лексики: юридической, медицинской, финансовой.

Почему именно с русским языком всё хуже

Это не свойство самого языка, а следствие того, как обучают современные нейросети. У токенизатора есть фиксированный словарь — список «отрезков», на которые он может бить текст. При обучении в этот словарь попадают самые частые куски из обучающего корпуса. У OpenAI и Meta обучающий корпус процентов на 60–80 состоит из английских текстов, поэтому в словарь массово попадают целые английские слова и осмысленные английские суффиксы. На русский язык остаётся маленький бюджет — туда влезают только самые частотные части.

Цифры наглядно: у токенизатора cl100k_base, который использует GPT-3.5 и GPT-4, общий объём словаря — 100 235 токенов, а кириллических из них всего 435. У o200k_base (GPT-4o, GPT-4o‑mini, GPT-4 Turbo) словарь увеличен в 2 раза — до 200 тысяч токенов, и кириллических уже 4660, в десять раз больше. Поэтому GPT-4o объективно работает с русским намного эффективнее GPT-4: у него больше «целых» русских кусков в словаре и реже приходится сшивать слова из мелких обрывков.

У Llama‑семейства похожая динамика: Llama 2 и ранние модели режут русский плохо, Llama 3 и Llama 3.1 — заметно лучше, и в опубликованных исследованиях именно Llama 3.1 называется лучшим открытым решением для кириллицы среди сопоставимых моделей. У моделей, изначально обучавшихся на больших объёмах китайского, корейского, японского и русского текста — Qwen, DeepSeek, GigaChat — словари токенизатора с самого начала оптимизированы под нелатинские алфавиты.

На каких моделях русский работает эффективнее

Точные цифры зависят от типа текста: на художественной прозе результат один, на юридических документах с длинными терминами — другой. Поэтому имеет смысл смотреть не на цифры до второго знака, а на группы моделей по эффективности на русском языке.

Хорошо работают с русским «из коробки». Это модели, которые либо изначально разрабатывались с прицелом на нелатинские алфавиты, либо имеют большой словарь токенизатора. Такие модели разбивают русские слова крупно, часто целиком: «договор», «налогоплательщик», «исполнение» остаются одним токеном.

К этой группе относятся современные мультиязычные модели вроде Qwen 3 и DeepSeek, специализированные русскоязычные сервисы — GigaChat и YandexGPT, а также Llama 3 и её дообученные на русском версии (Saiga, Vikhr).

Работают приемлемо, но с накладными расходами. Это западные универсалы последнего поколения: GPT-4o, GPT-4 Turbo, Claude 3.5/4. Они умеют работать с русским, но платите вы за это примерно в 1,5 раза больше токенов, чем за тот же текст на английском. Для коротких разговорных сценариев — терпимо. Для систем с большой обработкой документов — заметно бьёт по бюджету и контексту.

Лучше не использовать для серьёзной работы с русским. Сюда относятся ранние и устаревшие модели: GPT-3.5, оригинальный Mistral 7B, Llama 2. Их токенизаторы создавались, когда о нелатинских языках в индустрии думали мало. На русском такие модели тратят в 2,5–3 раза больше токенов, чем на английском, и качество понимания заметно проседает на длинных и редких словах.

Отдельный случай — Llama 4. Её громко выпустили в апреле 2025 года, но дообучали только на 12 языках, и русского в этом списке нет. На русскоязычных задачах она проигрывает и Qwen 3, и Llama 3.3. Если планируете работать с русским — лучше брать что‑то другое.

Универсального лидера нет: для облачных задач, где допустимо отправлять данные в российские дата‑центры, имеет смысл смотреть в сторону GigaChat и YandexGPT. Для самостоятельного запуска у себя — Qwen 3 как универсальный вариант, DeepSeek R1 для задач с пошаговыми рассуждениями, Llama 3.3 + Saiga как привычная и хорошо документированная связка.

Как проверить, как нейросеть режет ваш текст

Прежде чем выбирать модель для боевого проекта, имеет смысл прогнать через неё пару‑тройку своих реальных документов и посмотреть, на сколько кусочков она их разрежет. Делается это в браузере за пять минут, ставить ничего не нужно.

OpenAI Tokenizer (platform.openai.com/tokenizer) — официальный сервис от OpenAI. Вставляете текст, видите количество токенов и подсветку, где модель ставит границы между кусочками. Показывает разрезание для всех моделей OpenAI: GPT-3.5, GPT-4, GPT-4o. — GPT for Work (gptforwork.com/tools/tokenizer) — удобный онлайн‑инструмент с поддержкой не только OpenAI, но и Claude, Gemini, Grok. Подходит, если хотите сравнить несколько моделей за один заход. — gpt‑tokenizer.dev — открытая альтернатива, можно сравнивать модели OpenAI и видеть, как меняется разрезание в зависимости от версии.

Для устойчивого результата прогоните через сервис не одно предложение, а хотя бы абзац — лучше 5–10 разных документов из вашей реальной работы. Если хотите цифру, которой можно доверять, нужна выборка из 50–100 документов: на одной фразе случайный разброс слишком велик. Поделите общее количество токенов на общее количество слов — получите ваш персональный коэффициент для каждой модели.

Главный практический критерий: если на ваших текстах коэффициент больше 2 токенов на слово — модель не оптимальна для русского, имеет смысл смотреть альтернативы.

Какую модель брать под русский язык

Универсального правильного ответа нет — выбор зависит от того, что для вас важнее: качество, цена, скорость, контроль над данными, наличие готовой инфраструктуры.

Если данные нельзя отдавать наружу и нужно держать модель у себя:

Qwen 3 — на сегодня лучший баланс качества и эффективности на русском среди открытых моделей. Поддерживает все стандартные форматы развёртывания: vLLM, llama.cpp, Ollama. Выходят регулярно новые версии, активная разработка. — DeepSeek R1 — сильна в задачах с пошаговыми рассуждениями: математика, логика, разбор сложных вопросов. На обычных текстовых задачах не выигрывает у Qwen, но для аналитики бывает удобнее. — Llama 3.3 + Saiga / Vikhr — это Llama, дообученная на русскоязычных корпусах русскими исследователями. Не топ-1 по эффективности, но рабочая лошадка с большим количеством готовых сценариев и документации.

Если облако приемлемо и сервис в России:

GigaChat — основной игрок от Сбера. Токенизатор изначально оптимизирован под русский, доступен через API, есть бесплатные пакеты для разработчиков. — YandexGPT — альтернатива от Яндекса, по эффективности токенизации на русском похож на GigaChat. Хорошо интегрирован с экосистемой Яндекс Облака.

Чего я бы не брал под русский язык в 2026 году:

Llama 2, Mistral 7B оригинальный, GPT-3.5 — устаревшая токенизация, на серьёзных русскоязычных задачах будут требовать в 2,5–3 раза больше токенов и работать ощутимо хуже. Деньги и время лучше потратить на что‑то посвежее. — Llama 4 — несмотря на громкий релиз в апреле 2025 года, её дообучали только на 12 языках, и русского в этом списке нет. На русскоязычных задачах она проигрывает Qwen 3 и Llama 3.3.

Что ещё важно для русского языка кроме токенизации

Эффективная токенизация — это только половина дела. Дальше начинаются нюансы, которые токенайзер уже не показывает.

Падежи и согласование. Русский — флективный язык, у одного и того же слова десятки форм. «Договор», «договора», «договору», «договором», «договоре», «договоры», «договоров» — это всё одно понятие. Хорошая модель понимает, что речь об одном и том же; плохая — может не сопоставить вопрос «о каком договоре речь» с документом, где написано «договоров не было». Проверяется отдельным тестом: 50 пар «вопрос с одной формой слова — документ с другой формой», смотрим, находит ли модель связь.

Порядок слов и смысл. В русском порядок слов гибкий, но не произвольный. «Штрафы за просрочку поставки» и «поставки за просрочку штрафов» — формально похожие фразы из тех же слов, но смысл разный. Слабые модели путаются в подобных конструкциях, особенно в задачах извлечения сущностей.

Пунктуация. В русском типографски правильная пунктуация — это «ёлочки» («…»), длинное тире (‑) вместо дефиса, неразрывные пробелы перед короткими словами. Хорошая модель эту разницу воспроизводит. Плохая выдаёт латинские кавычки («…») и дефисы, и тексты выглядят как машинный перевод.

Стилистика и канцелярит. Когда модель пишет «трансформируйте свой бизнес» вместо «перестроите процессы», читатель моментально считывает в этом машинный текст. Это не баг и не лечится промтом — это след того, чему училась модель. Для текстов, которые видит конечный пользователь — клиент, читатель, заказчик — это критично.

Терминология вашей предметной области. Проверьте, как модель работает с 30–50 ключевыми терминами вашего домена. Если она не понимает разницу между «оферта» и «акцепт», или путает «перевозчик» и «экспедитор» — ставить такую модель в продакшн нельзя, никакая токенизация это не вытянет.

Чек‑лист для выбора нейросети под русский язык

Когда тестируете очередную модель на пригодность для русскоязычных задач, проверяйте по этим семи пунктам:

Токенизация. Прогон ваших реальных документов через токенайзер модели. Норма — не больше 1,7 токена на слово в среднем. Если выше 2 — это сразу значит лишние затраты в пересчёте на год работы сервиса.
Падежи и формы. Тестовый набор из 50 пар «вопрос — документ», где формы слов в вопросе и в документе разные. Полнота поиска должна быть не ниже 80%.
Логические задачи на русском. 30 задач с пошаговыми рассуждениями, сформулированных по‑русски. Корректность ответов не ниже 75% — это рабочий уровень.
Стилистика. Сгенерируйте 20 текстов разных типов: формальный, разговорный, технический. Проверьте на следы канцелярита и шаблонных конструкций машинного письма.
Пунктуация. Проверьте, использует ли модель русские кавычки и тире, или ставит латинские. На объёмных текстах — постоянная корректура руками удовольствия не доставляет.
Доменная лексика. Список из 30–50 терминов вашей отрасли. Модель должна понимать их корректно, а не интерпретировать как набор букв.
Длинный контекст. Загрузите 50-страничный документ, задайте вопрос по содержимому из самого конца. Если модель находит ответ — длинный контекст работает. Если упирается в начало или середину — заявленные 128К на русском работают плохо.

Что делать, если идеальной модели нет

Часто бывает так: одна модель эффективна по токенам, но слабее в логике, другая — наоборот. В таких случаях имеет смысл связка из нескольких моделей под разные задачи.

Например, у меня в проекте стек устроен как раз так:

Qwen или Gemma в качестве основной модели для большинства запросов в чате и генерации. — Отдельный инстанс с моделью эмбеддингов, оптимизированной под русский (deepvk/USER-bge-m3 — это дообученный на русских корпусах вариант стандартного bge-m3). — Отдельный реранкер для финальной сортировки результатов поиска.

Связка из трёх специализированных моделей в сумме даёт лучшее качество, чем одна универсальная, и при этом работает на одной коробке без обращения наружу. Подробнее про этот сценарий я писал в первой статье серии про DGX Spark.

FAQ

Какая нейросеть лучше всего работает с русским языком?

Для облачного использования при допустимости отправки данных в РФ — GigaChat и YandexGPT. У них токенизатор изначально оптимизирован под русский, и тарификация в рублях. Из открытых моделей под локальный запуск — Qwen 3 (общие задачи) и DeepSeek R1 (задачи с рассуждениями). Из западных — GPT-4o и Claude уверенно работают, но обходятся в полтора‑два раза дороже из‑за токенизации.

Сколько стоит обработать русский текст в OpenAI API по сравнению с английским?

При равном объёме осмысленного контента русский текст обходится примерно в 2 раза дороже английского при работе через GPT-3.5 или GPT-4 (cl100k_base). Для GPT-4o и более новых моделей разница меньше — около 1,5 раз. Если ваш сервис работает на тысяче запросов в день и у вас бюджет на API в 30 тысяч рублей в месяц для англоязычной версии, та же нагрузка на русском обойдётся в 50–60 тысяч.

Можно ли использовать GPT-4 для русскоязычного RAG?

Можно, но это компромисс. На длинных документах эффективное контекстное окно сжимается примерно вдвое, что критично для систем с большими справочниками. Если работаете с короткими ответами — терпимо. Если с поиском по объёмной базе — лучше брать модель, оптимизированную под русский, или использовать связку «дешёвая модель для эмбеддингов и поиска + GPT-4 только для финальной генерации ответа».

Что такое токенизатор простыми словами?

Это компонент модели, который превращает обычный текст в последовательность чисел, с которыми работает нейросеть. Текст режется на куски — токены, и каждому куску присваивается уникальный номер. Для английского эти куски обычно совпадают с целыми словами или их частями. Для русского — часто на бессмысленные слоги.

Какие открытые модели поддерживают русский локально?

Qwen 3, DeepSeek R1, Llama 3.3 (особенно дообученные русскими версии — Saiga, Vikhr), Mistral Large. Все они доступны через стандартные инструменты запуска: Ollama, vLLM, llama.cpp, LM Studio. Минимальные требования к железу зависят от размера модели и формата квантования: компактные версии (7–14 миллиардов параметров) можно крутить даже на одной видеокарте с 16 ГБ памяти.

Как изменилась ситуация с русским в нейросетях за последний год?

Заметно выросла. Релиз GPT-4o с увеличенным словарём дал русскому языку у OpenAI прирост в эффективности раза в 1,3. Параллельно вышла Llama 3 с улучшенным токенизатором, активно развиваются Qwen и DeepSeek с хорошей multilingual‑подготовкой. Появились публичные API GigaChat и YandexGPT с прицелом именно на русский. К 2026 году сценариев, где русский язык упирается в потолок токенизации, стало значимо меньше — но они всё ещё есть, особенно при работе с GPT-3.5 или ранними версиями Llama.

Что в сухом остатке

Кириллица в нейросетях в 2026 году — уже не блокер, но всё ещё компромисс. Эффективные модели для русского — Qwen 3, GigaChat, новые версии Llama с дообучением — обрабатывают русский язык почти так же эффективно, как английский. Старые модели и западные универсалы (GPT-4, Claude в режиме по умолчанию, Llama 2) — обходятся в 1,5–2 раза дороже и работают медленнее.

При выборе модели для боевого русскоязычного проекта первый практический критерий — это количество токенов на слово на ваших реальных документах. Если оно больше 2 — модель не оптимальна, надо смотреть альтернативы. Второй критерий — качество работы с морфологией, пунктуацией и лексикой вашей предметной области. Эти два теста занимают пару часов работы и экономят месяцы продакшн‑проблем.

Если у вас был опыт замера токенизации на больших русскоязычных корпусах — поделитесь в комментариях. Тема плохо покрыта публикациями на русском, и любые реальные цифры от практиков ценнее любых обзоров.