Обновить

Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели16K
Всего голосов 17: ↑11 и ↓6+7
Комментарии18

Комментарии 18

Вспомнилось Почему СМС

Латиница (английский, цифры, знаки): до 160 символов

Кириллица (русский язык и другие языки): до 70 символов

Там в кодировке было дело

Статья двухлетней давности? Гпт-5 вышла год назад почти, в статье про нее ни слова.

В статье как раз разобран o200k_base — это семейство GPT-4o / GPT-4o-mini / GPT-4 Turbo (4660 кириллических токенов в словаре против 435 у cl100k_base).

GPT-5 использует ровно тот же o200k_base — явно прописано в openai/tiktoken (model.py: “gpt-5”: “o200k_base”). Всё что в статье сказано про эффективность o200k_base на кириллице относится и к нему: отдельно выделять смысла не было, по контентному вокабу разницы нет.

По GPT-5.5 OpenAI отдельно спеки токенайзера не публиковали, в tiktoken на май 2026 явной записи нет. Если есть замер на 5.5 на сопоставимом корпусе — поделитесь, добавлю.

Про «двухлетней давности»: в статье разобрана Llama 4, рекомендованы Qwen 3 и YandexGPT — это всё 2025–2026.

Qwen 3 вышла год назад, за это время локальные нейросеть двинулись далеко вперёд и сейчас активно используется Qwen 3.5-3.6. Llama 4 вышла год назад и даже на английском на момент выхода была значительно хуже своих аналогов (включая Qwen 3). Открытая яндексовская нейросеть вообще несопоставима сейчас ни с чем, так как это дообученный китаец, судя по тестам сообщества.

Даже если брать то время и ограничения (модели, вышедшие не позднее весны 2025) — где мегапопулярная Гемма 3, использующая свой токенизатор и отлично поддерживающая русский язык?

Так что реально статья будто бы должна была выйти месяцев девять назад, причём тогда бы она всё равно была бы неполна

Про «9 месяцев назад»: тема — токенизация, а не рейтинг моделей за текущий месяц. Чекпойнты меняются ежемесячно, BPE-вокабы — почти никогда. Цифры по o200k_base / cl100k / Llama 3 / Qwen 3 актуальны независимо от того, вышла ли новая версия модели. Gemma 3 — да, в таблицу просилась; повторюсь, статья не про рейтинг моделей, а про то, как токенайзеры режут кириллицу, и выводы от этого не меняются.

Заметил что в копайлоте и кодексе теперь,вопрос на русском задаёшь а думает на английском

Так тут такое у всех. Более того, вон запускаю Клод, а там и русский, и английский, и испанский, францужский, хз какой-то. Но готовый ответ на языке вопроса.

Раньше и думали на русском нейронки, сейчас видимо для экономии настроили так.

Капец, половина тезисов повторяется в тексте раза 4. Просто читаешь одно и тоже много раз.

Автор же говорит - думать на русском такое себе... токенов много.

Эхх, Кирюша. Не подумал ты о нас, людей будущего, когда создавал свой великий и могучий)

«ёлочки» («…»), длинное тире (‑) ... латинские кавычки («…»)

Одна из трех попыток проиллюстрировать знаки пунктуации все-таки увенчалась успехом, ёлочки действительно так выглядят.

Авторы, пожалуйста, хотя бы вычитывайте сгенерированные тексты перед публикацией .

ASCII-кавычки тут функциональные: ими в IT-текстах выделяют термины как объекты рассмотрения (mention), ёлочки — для цитат и прямой речи. П.5 чек-листа — про выходной текст модели в продакшене для конечного пользователя, а не про авторский разбор. У этих регистров разные правила пунктуации — собственно, статья ровно об этом столкновении и есть.

Но где в моём комментарии вы смогли найти ASCII-кавычки?

Глаза из нейросети вытащите и мозг включите, пожалуйста. Вам прямым текстом указали на несоответствие символов тому, что хочет донести абзац, а Вы нещадно тупите. Хабр вероятно использовал автозамены по своим шаблонам, но в любом случае это невозможно читать без диссонанса:

Пунктуация. В русском типографски правильная пунктуация — это «ёлочки» («…»), длинное тире (‑) вместо дефиса, неразрывные пробелы перед короткими словами. Хорошая модель эту разницу воспроизводит. Плохая выдаёт латинские кавычки («…») и дефисы, и тексты выглядят как машинный перевод.

Что за "типографски", бумагу в принтере зажевало?

Написано тире, а в скобках тот же дефис.

Разницу между ёлочками и латинскими так и не увидел.

Если вопрос какой язык использовать, то лучше русский. Модели рассуждают все равно на английском, поэтому разница в цене не высока. Задачу модели понимают на любом языке примерно одинаково, но вы то точно выражаетесь на родном лучше.

Довольно много, получается, токенов ушло на эту статью

На английском вышло бы в полтора раза дешевле, да. Но аудитория тут другая — пришлось переплатить токенами.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации