Pull to refresh

Comments 12

Вспомнилось Почему СМС

Латиница (английский, цифры, знаки): до 160 символов

Кириллица (русский язык и другие языки): до 70 символов

Там в кодировке было дело

Статья двухлетней давности? Гпт-5 вышла год назад почти, в статье про нее ни слова.

В статье как раз разобран o200k_base — это семейство GPT-4o / GPT-4o-mini / GPT-4 Turbo (4660 кириллических токенов в словаре против 435 у cl100k_base).

GPT-5 использует ровно тот же o200k_base — явно прописано в openai/tiktoken (model.py: “gpt-5”: “o200k_base”). Всё что в статье сказано про эффективность o200k_base на кириллице относится и к нему: отдельно выделять смысла не было, по контентному вокабу разницы нет.

По GPT-5.5 OpenAI отдельно спеки токенайзера не публиковали, в tiktoken на май 2026 явной записи нет. Если есть замер на 5.5 на сопоставимом корпусе — поделитесь, добавлю.

Про «двухлетней давности»: в статье разобрана Llama 4, рекомендованы Qwen 3 и YandexGPT — это всё 2025–2026.

Заметил что в копайлоте и кодексе теперь,вопрос на русском задаёшь а думает на английском

Так тут такое у всех. Более того, вон запускаю Клод, а там и русский, и английский, и испанский, францужский, хз какой-то. Но готовый ответ на языке вопроса.

Капец, половина тезисов повторяется в тексте раза 4. Просто читаешь одно и тоже много раз.

Автор же говорит - думать на русском такое себе... токенов много.

Эхх, Кирюша. Не подумал ты о нас, людей будущего, когда создавал свой великий и могучий)

«ёлочки» («…»), длинное тире (‑) ... латинские кавычки («…»)

Одна из трех попыток проиллюстрировать знаки пунктуации все-таки увенчалась успехом, ёлочки действительно так выглядят.

Авторы, пожалуйста, хотя бы вычитывайте сгенерированные тексты перед публикацией .

ASCII-кавычки тут функциональные: ими в IT-текстах выделяют термины как объекты рассмотрения (mention), ёлочки — для цитат и прямой речи. П.5 чек-листа — про выходной текст модели в продакшене для конечного пользователя, а не про авторский разбор. У этих регистров разные правила пунктуации — собственно, статья ровно об этом столкновении и есть.

Но где в моём комментарии вы смогли найти ASCII-кавычки?

Если вопрос какой язык использовать, то лучше русский. Модели рассуждают все равно на английском, поэтому разница в цене не высока. Задачу модели понимают на любом языке примерно одинаково, но вы то точно выражаетесь на родном лучше.

Sign up to leave a comment.

Articles