Comments 12
Вспомнилось Почему СМС
Латиница (английский, цифры, знаки): до 160 символов
Кириллица (русский язык и другие языки): до 70 символов
Там в кодировке было дело
Статья двухлетней давности? Гпт-5 вышла год назад почти, в статье про нее ни слова.
В статье как раз разобран o200k_base — это семейство GPT-4o / GPT-4o-mini / GPT-4 Turbo (4660 кириллических токенов в словаре против 435 у cl100k_base).
GPT-5 использует ровно тот же o200k_base — явно прописано в openai/tiktoken (model.py: “gpt-5”: “o200k_base”). Всё что в статье сказано про эффективность o200k_base на кириллице относится и к нему: отдельно выделять смысла не было, по контентному вокабу разницы нет.
По GPT-5.5 OpenAI отдельно спеки токенайзера не публиковали, в tiktoken на май 2026 явной записи нет. Если есть замер на 5.5 на сопоставимом корпусе — поделитесь, добавлю.
Про «двухлетней давности»: в статье разобрана Llama 4, рекомендованы Qwen 3 и YandexGPT — это всё 2025–2026.
Заметил что в копайлоте и кодексе теперь,вопрос на русском задаёшь а думает на английском
Капец, половина тезисов повторяется в тексте раза 4. Просто читаешь одно и тоже много раз.
Эхх, Кирюша. Не подумал ты о нас, людей будущего, когда создавал свой великий и могучий)
«ёлочки» («…»), длинное тире (‑) ... латинские кавычки («…»)
Одна из трех попыток проиллюстрировать знаки пунктуации все-таки увенчалась успехом, ёлочки действительно так выглядят.
Авторы, пожалуйста, хотя бы вычитывайте сгенерированные тексты перед публикацией .
ASCII-кавычки тут функциональные: ими в IT-текстах выделяют термины как объекты рассмотрения (mention), ёлочки — для цитат и прямой речи. П.5 чек-листа — про выходной текст модели в продакшене для конечного пользователя, а не про авторский разбор. У этих регистров разные правила пунктуации — собственно, статья ровно об этом столкновении и есть.
Если вопрос какой язык использовать, то лучше русский. Модели рассуждают все равно на английском, поэтому разница в цене не высока. Задачу модели понимают на любом языке примерно одинаково, но вы то точно выражаетесь на родном лучше.
Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее