rkazmin Feb 23 at 13:50

$20 в месяц на Cursor. Куда уходят токены и что с этим можно сделать

Medium

9 min

18K

Artificial IntelligenceDevOps *

+15

Comments 19

iafilin Feb 23 at 22:00

Могу ошибаться, но если ввести правило, чтобы модель думала и рассуждала на английском, а планы и ответы давала на русском, то вероятно это тоже своего рода оптимизация расходов, ведь токены для кириллицы дороже, чем для латиницы.

rkazmin Feb 24 at 00:14

Интересная гипотеза. Я поинтересовался ИИ, он подтверждает что

1. Правда ли, что кириллица дороже?
Да, абсолютно. Это связано с механизмом токенизации
(BPE — Byte Pair Encoding):
Латиница токенизируется почти по принципу «одно слово ≈ один-два токена».
Кириллица в современных моделях (особенно у OpenAI и Anthropic)
часто разбивается на части слогов или даже отдельные байты.
Результат: Одно и то же предложение на русском может занимать в
2–3 раза больше токенов, чем на английском.

2. Почему «думать на английском» — это двойная выгода?
Помимо прямой экономии на токенах, есть еще два фактора:
Качество рассуждений (Reasoning): Большинство моделей 
(особенно малые, как Haiku) обучались преимущественно на
англоязычных датасетах. На английском их «логические связи» плотнее.
Когда модель рассуждает (CoT) на английском, она реже совершает
логические ошибки в коде.

Экономия на Output-токенах: Если в промпте «Chain-of-Thought» ты
просишь модель расписать план на 500 слов, то на английском это
будет ~600 токенов, а на русском — ~1500 токенов. При цене за
выходящие токены это существенная разница.

В рамках нового исследования Cursor-Probe я хочу посмотреть, влияет ли формат промпта (XML против обычного текста) на качество кода у слабых моделей. Я хочу проверить, станет ли Haiku реже ошибаться в логике, если загнать её в жесткие рамки структуры, или же это никак не поможет её "интеллекту".
В рамках Cursor-Probe я проверю разницу между кириллицей и латиницей как побочный фактор..

AlexanderMatveev Feb 24 at 01:47

Текстовый запрос на русском это капля в море, он сразу переводится на английский, модель "думает" на английском и переводит текстовый ответ на русский, чтобы показать вам

Pusk1 Feb 23 at 22:07

Статья отличная. Для уменьшения контекста ещё помогает писать код максимально независимыми модулями сверху вниз. Прямо аля паскаль. И тогда можно открывать как проект папку с отдельным модулем, в котором только тесты и сам модуль + что - то вложенное в него. Так и дешевле и быстрее, более красиво по архитектуре.

Но есть более качественное и универсальное решение.

Я тоже долго без него мучился и изголялся. И даже Sonet при отладке выходил дороговато. А потом стал платить 60 вместо 20 и как то веселей стало работать. Особенно при проверке гипотез или дебаге. Через пару месяцев упёрся, что мне не хватает и 60. Теперь у меня корпоративный аккаут и это не совсем мои проблемы в рамках разумного, конечно.

rkazmin Feb 24 at 00:28

К сожалению у меня нет корпоративного аккаунта... :((. Поэтому приходитьяс оганичивать себя в опытах, экономя токены

criminalist Feb 24 at 14:10

Нужен уже гибридный подход, локальная модель которая будет экономить токены, формировать нужный участок кода скармливать его уже платное, но тут опять скорость, для простых задач например прочитать файл выкусить участок кода и показать ai плат6ой, было бы не плохо

aladkoi Feb 24 at 14:43

Какая то жесть написана. Стоит claude code с подпиской за "копейки" на glm модель . Нет никаких лимитов на запросы. Claude code делает все тоже, что и курсор, контекст сессии не теряется даже после ее окончания или перезагрузки компа. Есть их локальная история по проекту , с которой claude умеет работать. Правильно выбранный инструмент и его настройка снимает все проблемы.

inetstar Feb 25 at 14:05

Как обходите блокировку? Через переменные среды и прокси? Говорят клод банит даже платные аккаунты.

aladkoi Feb 25 at 18:29

Клод Claude code никак не банит, это всего лишь агент. Glm работает в клоде без VPN и прописывается вместо родных моделей. Все инструкции у них на сайте z.ai

inetstar Feb 25 at 21:27

По ощущениям, что лучше Opus или GLM?

Craftist Mar 1 at 11:31

Opus – лучшая модель. Но дорогая и под впном. GLM-5 – пойдет, в разы дешевле и без впн. Каждый выбирает, что ему оптимизировать

LionMuzzle Feb 24 at 20:43

Я тоже столкнулся. Жрёт токеты как не в себя. Но вы пишете не совсем правду:

Если не создавать .cursorignore, то по умолчанию будут включены в игнор лист все пути из вашего .gitignore. Вот тут написано это, и показан дополнительный обширный список того, что исключается, даже .git там указан: https://cursor.com/ru/docs/context/ignore-files#-5

Планы можно сохранять персистентно. Во-первых, они и так не удаляются, они просто лежат в домашней папке. Во-вторых, в плане можно нажать на три точки и выбрать Save to workspace, чтобы перенести его в папку проекта внутрь папки .cursor. Вот тут написано: https://cursor.com/ru/docs/get-started/quickstart#

И ещё от меня. В последнее время стал пользоваться моделью auto, и заметил на моем очень большом веб-проекте, что она ведёт себя довольно хорошо. Я сравнивал с opus и sonet. Меня этот режим сильно удивил. В бюджете аккаунта режим auto тарифицируется отдельно, и упереться в лимит у меня пока не получилось. https://cursor.com/dashboard?tab=spending

У меня:

Auto + Composer: 5%
Consumed by Auto and Composer models.
API: 47%
Consumed by other models.

dmiche Feb 25 at 11:35

Авто стала чудо как хороша. С летом вообще не сравнить. Хотя ровно сегодня попал под какую-то более кондовую. Возможно тестят чего-то новое.

А вообще doc-first рулит. Начинать с документации. Поддерживать ее, чтобы не разъезжалась стало необременительно, а архитектурный документ нынче ценнее кода.

Lashadkach Feb 25 at 01:38

План за 20 мне показался скорее ознакомительным, а вот за 60 хорошо себя показывает на крупном проекте. Свежая composer 1.5 работает гораздо лучше 1.0 от курсора и теперь не особо и нужно использовать codex/opus или сильно экономить токены при условии использования всех модов.

Так же заметил для себя что сформировать план, затем через ask определить корректировки и внести их снова через plan мод тоже не хило экономит токены. И в целом ask мод который отрезает возможности преждевременно создавать файлы очень полезен в целях экономии.

Во многом задача ИИ это снизить когнитивную нагрузку и повысить за счёт этого продуктивность, поэтому писать скрипты для инструмента ИИ вообще считаю оверхедом, даже для оптимизации токенов. Уж лучше использовать бесплатные модели в браузере, скармливая им модули проекта.

Ну и заголовок статьи байтит, а прямого и структурированного ответа на вопрос "что с этим можно сделать?" в статье не нашёл, хотя очень хотелось :D

inetstar Feb 25 at 14:06

Разве в нём всего не в 3 раза больше токенов, чем в плане за 20?

serjeant Feb 25 at 09:58

Есть ещё вот такая удобная штука:
https://github.com/vanzan01/cursor-memory-bank
а к ней в связку платный плагин https://supercode.sh/ru. Правда после обновления курсора он перестал у меня работать и поддержка не отвечает...

Sol0Zon3 Mar 2 at 19:08

Похоже была не самая удачная идея класть некоторые файлы в .cursor/
Сейчас процесс периодически стопорится из-за того, что у модели нет доступа к данной папке, что вынуждает её делать изменения окольными путями, тратя токены.

Пример 1:

Похоже, инструменты чтения блокируют часть .cursor/* из-за фильтрации, поэтому перейду на команды в терминале для этих файлов и продолжу строго по вашему сценарию (поиск задачи → выполнение → коммиты → закрытие).

$rg -m 1 "^\- \[ \]" ".cursor/plans/optimization-plan.md"
--: line 1: rg: command not found

Пример 2:

ApplyPatch не имеет доступа на запись к .cursor/plans/*, поэтому внесу правки в план и task-003.md через небольшой Python-скрипт (только нужные строки), затем сделаю финальный chore-коммит.

rkazmin Mar 2 at 22:36

ПРивет - не очень понятный комментарий. По коду есть

grep -m 1 '^- [ ]' .cursor/plans/optimization-plan.md

А что за команда grep -m 1 '^- [ ]' .cursor/plans/optimization-plan.md ? Тем более ругается
на отсутствие в системе соответствующей утилиты line 1: rg: command not found

Sol0Zon3 Mar 4 at 17:02

Сначала cursor пытается прочесть файл стандартными средствами, grep'ом. У него это не получается из-за ограничений на чтение папки .cursor. Вот и начинает чудить и придумывать, пробует rg.

Сейчас я убрал папку .cursor/plans из игнора, стало работать лучше. Отчвечая на вопрос "что за команда" - находит пустые чекбоксы в markdown. Пример:

$ grep -m 1 "^\- \[ \]" ".cursor/plans/optimization-plan.md"
- [ ] task-007 — unit тесты для generate_voices.py (06-write-unit-tests, Haiku С thinking, ~$0.15)