AGmind7 мая в 12:05

Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

Простой

13 мин

16K

Машинное обучение * Искусственный интеллектNatural Language Processing * Open source *

Комментарии 18

LeshaRB 7 мая в 12:38

Вспомнилось Почему СМС

Латиница (английский, цифры, знаки): до 160 символов

Кириллица (русский язык и другие языки): до 70 символов

Там в кодировке было дело

FireAndIce 7 мая в 22:51

Статья двухлетней давности? Гпт-5 вышла год назад почти, в статье про нее ни слова.

AGmind 8 мая в 02:14

В статье как раз разобран o200k_base — это семейство GPT-4o / GPT-4o-mini / GPT-4 Turbo (4660 кириллических токенов в словаре против 435 у cl100k_base).

GPT-5 использует ровно тот же o200k_base — явно прописано в openai/tiktoken (model.py: “gpt-5”: “o200k_base”). Всё что в статье сказано про эффективность o200k_base на кириллице относится и к нему: отдельно выделять смысла не было, по контентному вокабу разницы нет.

По GPT-5.5 OpenAI отдельно спеки токенайзера не публиковали, в tiktoken на май 2026 явной записи нет. Если есть замер на 5.5 на сопоставимом корпусе — поделитесь, добавлю.

Про «двухлетней давности»: в статье разобрана Llama 4, рекомендованы Qwen 3 и YandexGPT — это всё 2025–2026.

Theta-Lev 11 мая в 05:54

Qwen 3 вышла год назад, за это время локальные нейросеть двинулись далеко вперёд и сейчас активно используется Qwen 3.5-3.6. Llama 4 вышла год назад и даже на английском на момент выхода была значительно хуже своих аналогов (включая Qwen 3). Открытая яндексовская нейросеть вообще несопоставима сейчас ни с чем, так как это дообученный китаец, судя по тестам сообщества.

Даже если брать то время и ограничения (модели, вышедшие не позднее весны 2025) — где мегапопулярная Гемма 3, использующая свой токенизатор и отлично поддерживающая русский язык?

Так что реально статья будто бы должна была выйти месяцев девять назад, причём тогда бы она всё равно была бы неполна

AGmind 11 мая в 07:27

Про «9 месяцев назад»: тема — токенизация, а не рейтинг моделей за текущий месяц. Чекпойнты меняются ежемесячно, BPE-вокабы — почти никогда. Цифры по o200k_base / cl100k / Llama 3 / Qwen 3 актуальны независимо от того, вышла ли новая версия модели. Gemma 3 — да, в таблицу просилась; повторюсь, статья не про рейтинг моделей, а про то, как токенайзеры режут кириллицу, и выводы от этого не меняются.

chumurov 8 мая в 00:16

Заметил что в копайлоте и кодексе теперь,вопрос на русском задаёшь а думает на английском

KEugene 9 мая в 00:54

Так тут такое у всех. Более того, вон запускаю Клод, а там и русский, и английский, и испанский, францужский, хз какой-то. Но готовый ответ на языке вопроса.

chumurov 13 мая в 01:49

Раньше и думали на русском нейронки, сейчас видимо для экономии настроили так.

melodictsk 8 мая в 03:29

Капец, половина тезисов повторяется в тексте раза 4. Просто читаешь одно и тоже много раз.

exelens 8 мая в 03:31

Автор же говорит - думать на русском такое себе... токенов много.

Crot_slm 8 мая в 04:26

Эхх, Кирюша. Не подумал ты о нас, людей будущего, когда создавал свой великий и могучий)

umbral 8 мая в 07:44

«ёлочки» («…»), длинное тире (‑) ... латинские кавычки («…»)

Одна из трех попыток проиллюстрировать знаки пунктуации все-таки увенчалась успехом, ёлочки действительно так выглядят.

Авторы, пожалуйста, хотя бы вычитывайте сгенерированные тексты перед публикацией .

AGmind 8 мая в 09:16

ASCII-кавычки тут функциональные: ими в IT-текстах выделяют термины как объекты рассмотрения (mention), ёлочки — для цитат и прямой речи. П.5 чек-листа — про выходной текст модели в продакшене для конечного пользователя, а не про авторский разбор. У этих регистров разные правила пунктуации — собственно, статья ровно об этом столкновении и есть.

umbral 8 мая в 09:20

Но где в моём комментарии вы смогли найти ASCII-кавычки?

AndrewTishkin 15 мая в 07:25

Глаза из нейросети вытащите и мозг включите, пожалуйста. Вам прямым текстом указали на несоответствие символов тому, что хочет донести абзац, а Вы нещадно тупите. Хабр вероятно использовал автозамены по своим шаблонам, но в любом случае это невозможно читать без диссонанса:

Пунктуация. В русском типографски правильная пунктуация — это «ёлочки» («…»), длинное тире (‑) вместо дефиса, неразрывные пробелы перед короткими словами. Хорошая модель эту разницу воспроизводит. Плохая выдаёт латинские кавычки («…») и дефисы, и тексты выглядят как машинный перевод.

Что за "типографски", бумагу в принтере зажевало?

Написано тире, а в скобках тот же дефис.

Разницу между ёлочками и латинскими так и не увидел.

amazingname 8 мая в 10:55

Если вопрос какой язык использовать, то лучше русский. Модели рассуждают все равно на английском, поэтому разница в цене не высока. Задачу модели понимают на любом языке примерно одинаково, но вы то точно выражаетесь на родном лучше.

Ommand 10 мая в 07:34

Довольно много, получается, токенов ушло на эту статью

AGmind 11 мая в 07:30

На английском вышло бы в полтора раза дешевле, да. Но аудитория тут другая — пришлось переплатить токенами.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий