Комментарии 18
Вспомнилось Почему СМС
Латиница (английский, цифры, знаки): до 160 символов
Кириллица (русский язык и другие языки): до 70 символов
Там в кодировке было дело
Статья двухлетней давности? Гпт-5 вышла год назад почти, в статье про нее ни слова.
В статье как раз разобран o200k_base — это семейство GPT-4o / GPT-4o-mini / GPT-4 Turbo (4660 кириллических токенов в словаре против 435 у cl100k_base).
GPT-5 использует ровно тот же o200k_base — явно прописано в openai/tiktoken (model.py: “gpt-5”: “o200k_base”). Всё что в статье сказано про эффективность o200k_base на кириллице относится и к нему: отдельно выделять смысла не было, по контентному вокабу разницы нет.
По GPT-5.5 OpenAI отдельно спеки токенайзера не публиковали, в tiktoken на май 2026 явной записи нет. Если есть замер на 5.5 на сопоставимом корпусе — поделитесь, добавлю.
Про «двухлетней давности»: в статье разобрана Llama 4, рекомендованы Qwen 3 и YandexGPT — это всё 2025–2026.
Qwen 3 вышла год назад, за это время локальные нейросеть двинулись далеко вперёд и сейчас активно используется Qwen 3.5-3.6. Llama 4 вышла год назад и даже на английском на момент выхода была значительно хуже своих аналогов (включая Qwen 3). Открытая яндексовская нейросеть вообще несопоставима сейчас ни с чем, так как это дообученный китаец, судя по тестам сообщества.
Даже если брать то время и ограничения (модели, вышедшие не позднее весны 2025) — где мегапопулярная Гемма 3, использующая свой токенизатор и отлично поддерживающая русский язык?
Так что реально статья будто бы должна была выйти месяцев девять назад, причём тогда бы она всё равно была бы неполна
Про «9 месяцев назад»: тема — токенизация, а не рейтинг моделей за текущий месяц. Чекпойнты меняются ежемесячно, BPE-вокабы — почти никогда. Цифры по o200k_base / cl100k / Llama 3 / Qwen 3 актуальны независимо от того, вышла ли новая версия модели. Gemma 3 — да, в таблицу просилась; повторюсь, статья не про рейтинг моделей, а про то, как токенайзеры режут кириллицу, и выводы от этого не меняются.
Заметил что в копайлоте и кодексе теперь,вопрос на русском задаёшь а думает на английском
Капец, половина тезисов повторяется в тексте раза 4. Просто читаешь одно и тоже много раз.
Эхх, Кирюша. Не подумал ты о нас, людей будущего, когда создавал свой великий и могучий)
«ёлочки» («…»), длинное тире (‑) ... латинские кавычки («…»)
Одна из трех попыток проиллюстрировать знаки пунктуации все-таки увенчалась успехом, ёлочки действительно так выглядят.
Авторы, пожалуйста, хотя бы вычитывайте сгенерированные тексты перед публикацией .
ASCII-кавычки тут функциональные: ими в IT-текстах выделяют термины как объекты рассмотрения (mention), ёлочки — для цитат и прямой речи. П.5 чек-листа — про выходной текст модели в продакшене для конечного пользователя, а не про авторский разбор. У этих регистров разные правила пунктуации — собственно, статья ровно об этом столкновении и есть.
Но где в моём комментарии вы смогли найти ASCII-кавычки?
Глаза из нейросети вытащите и мозг включите, пожалуйста. Вам прямым текстом указали на несоответствие символов тому, что хочет донести абзац, а Вы нещадно тупите. Хабр вероятно использовал автозамены по своим шаблонам, но в любом случае это невозможно читать без диссонанса:
Пунктуация. В русском типографски правильная пунктуация — это «ёлочки» («…»), длинное тире (‑) вместо дефиса, неразрывные пробелы перед короткими словами. Хорошая модель эту разницу воспроизводит. Плохая выдаёт латинские кавычки («…») и дефисы, и тексты выглядят как машинный перевод.
Что за "типографски", бумагу в принтере зажевало?
Написано тире, а в скобках тот же дефис.
Разницу между ёлочками и латинскими так и не увидел.
Если вопрос какой язык использовать, то лучше русский. Модели рассуждают все равно на английском, поэтому разница в цене не высока. Задачу модели понимают на любом языке примерно одинаково, но вы то точно выражаетесь на родном лучше.
Довольно много, получается, токенов ушло на эту статью

Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее