Насколько просели? Какие сейчас вообще лимиты? У меня клод за 20$ и его хватает от 30 минут и до 1.5 часов. И только 7-8 сессий в неделю. Что с codex? Стоит ли он 20$?
Ну наверное если засунуть в оперативку, и MoE слои выносить на видеокарту, то почти любая модель запуститься на 12ГБ. Я qwen3.5 35B A3B запускал на 3060(12gb) 17tok/s где-то.
Хотите прикол? А 15 гб месседжера макс тоже будут стоить денег, сервера то как говорят в Великобритании(ну все так говорят а я хз).
А вообще придется тогда поднять дешевый vps в рашке, и сидеть в инет с него, если что-то надо, то вообще проксировать дальше, на другой сервер в другой стране для всяких инстаграмов(а надо ли оно?, я прост не пользуюсь и не знаю.)
А vs code пи... то есть они не дружат с открытостью ACP(Agent Client Protocol, сделанный Zed и Jetbrains), им нужно свой github copilot продвигать. А может просто не успели? (В феврале вроде ACP вышел, хотя кто хотел уже все ввели его.)
Ну а если хотите вроде есть ACP расширения, но они... кривоватенькие.
35B вы поидее без оперативки вообще не смогли бы запустить, поэтому и получается что 10 токенов в секунду. А вот 9B должна работать нормально, я надеюсь вы не выставили максимальный контекст? Нужно брать модель, добавлять контекст и смотреть что бы модель с ним влезала в видеопамять с небольшим запасом. И я надеюсь вы выбрали Cuda 12 runtime в настройках а не cpu llama. У меня было 10 токенов в секунду на 9B-4.6Opus-Reasoning-Distilled модели когда не влезало в оперативку или когда я пихал контекст 262к или когда запускал на своём r7 5700x.
P.s. сейчас запускаю 96-128к контексте на моей 3060 12gb и получаю 40-48токенов/сек.
Upd. А и надеюсь квантование взяли условное Q6, а не полную модель на FP16, которая никак не влезет.
У меня по ощущениям наоборот упал у мегафона, и стало только хуже. С 200мбит/с упало до 80мбит/с, скорость отдачи болтается около 0-0.1мбит/с(я буквально робот по голосу в дискорде). Постоянно ночью отключается 4G+ вышка, и я наутро вижу 30 уведомлений от роутера, что он то в сети, то не в сети, и ещё столько же от яндекс станции.
Насколько просели? Какие сейчас вообще лимиты? У меня клод за 20$ и его хватает от 30 минут и до 1.5 часов. И только 7-8 сессий в неделю. Что с codex? Стоит ли он 20$?
Ну наверное если засунуть в оперативку, и MoE слои выносить на видеокарту, то почти любая модель запуститься на 12ГБ. Я qwen3.5 35B A3B запускал на 3060(12gb) 17tok/s где-то.
Хотите прикол? А 15 гб месседжера макс тоже будут стоить денег, сервера то как говорят в Великобритании(ну все так говорят а я хз).
А вообще придется тогда поднять дешевый vps в рашке, и сидеть в инет с него, если что-то надо, то вообще проксировать дальше, на другой сервер в другой стране для всяких инстаграмов(а надо ли оно?, я прост не пользуюсь и не знаю.)
Засечь бы сколько вы токенов потратили, ну или времени работы api?
Вообще он там есть, но opus это оверпей как по мне, а лимиты и так никакие.
Почитал, 50 кредитов в месяц беспланто, 500 дают за регистрацию через "social login" или builder id(не aws identety center), что бы это не значило.
Не знаю много или мало, но вот тарифные планы у них:
Pro - 20$/1000 credits
Pro+ - 40$/2000 credits
Power - 200$/10000 credits
Во всех есть планах кроме free есть перерасход: 0.04$/1 credit
Траты можно посмотреть уже в самом cli/ide.
А vs code пи... то есть они не дружат с открытостью ACP(Agent Client Protocol, сделанный Zed и Jetbrains), им нужно свой github copilot продвигать. А может просто не успели? (В феврале вроде ACP вышел, хотя кто хотел уже все ввели его.)
Ну а если хотите вроде есть ACP расширения, но они... кривоватенькие.
35B вы поидее без оперативки вообще не смогли бы запустить, поэтому и получается что 10 токенов в секунду. А вот 9B должна работать нормально, я надеюсь вы не выставили максимальный контекст? Нужно брать модель, добавлять контекст и смотреть что бы модель с ним влезала в видеопамять с небольшим запасом. И я надеюсь вы выбрали Cuda 12 runtime в настройках а не cpu llama. У меня было 10 токенов в секунду на 9B-4.6Opus-Reasoning-Distilled модели когда не влезало в оперативку или когда я пихал контекст 262к или когда запускал на своём r7 5700x.
P.s. сейчас запускаю 96-128к контексте на моей 3060 12gb и получаю 40-48токенов/сек.
Upd. А и надеюсь квантование взяли условное Q6, а не полную модель на FP16, которая никак не влезет.
Для целей установки приложений есть тот же UniGetUI/WinGetUI.
У меня по ощущениям наоборот упал у мегафона, и стало только хуже. С 200мбит/с упало до 80мбит/с, скорость отдачи болтается около 0-0.1мбит/с(я буквально робот по голосу в дискорде). Постоянно ночью отключается 4G+ вышка, и я наутро вижу 30 уведомлений от роутера, что он то в сети, то не в сети, и ещё столько же от яндекс станции.
bogdanfinn(tls-client), и не нужно было выдумывать свое.
"Black 2k tuya", но цена >1700, на озлне сейчас ~1250
Uv вам в помощь, за секунду может поставить то, что обычный pip и poetry ставят минутами
Профессор зойнберг есть из головы бена.
1) приставка в корзине возле ёлки.