Обновить
3
Konstantin@ontop

SEO lead, руководитель

0,1
Рейтинг
Отправить сообщение

Подписки от z, как были #ермо, так и остались. Купил ранее за 20$, запустил 2 раза, 2 раза словил какие-то непонятные лимиты на количество запросов и закрыл больше не заходил. Использую GLM5.2 бесплатно через devin уже около месяца.

harness - понимают как систему-агента, которая отвечает за управление контекстом, запуск инструментов, планирование и автономное выполнение задач.

Оно кривое и в кодинге и в повседневных задачах.

Hermes это alpha проект с кучей багов и большой рекламной кампанией.

Есть harness более высокого уровня это Oh My Pi. Рекомендую попробовать, это другой уровень.

Разница во многих аспектах, но самый главный потребление токенов в 2-3 раза ниже чем у Hermes.

Пойду запущу Qwen 3.6 27B Q4_K_S на одной видеокарте 9070 16GB на домашнем компьютере на 30t/s, на 256k контекста...

И можно ещё на 80t/s запустить Qwen3.6 35B Apex-compact на 256k.

Вот мужики удивятся то!

Эх время то сейчас совсем другое, раньше лет так 20 назад, помню мужики железо крутили и бухали по гаражам, а сегодня железо крутят и модели запускают :)

Вроде было :) так в телеге есть голосовой.

Hermes agent стоит на постоянку. А вот desktop приложение запустил, посмотрел на 3Д человечков, удалил.

Это что?

Я использую MoE, с Imatrix знаком, использую Apex варианты квантования с imatrix.
Как понял MoE лучше дружит с imatrix, а вот 27B плохо квантуется с imatrix.

Тоже читал что bartowski и mudler делают лучшие кванты, на hugging

Интересует насколько Moe хуже?

Еще интересно почему ниже чем 6 bit лучше не запускать, насколько качество падает?

Используйте CUDA 13.3, а не 13.2 или 12.

Если интересно то можете подписывать в телеге на наш маленький чатик в котором мы обсуждаем такие темы - homelabru

Полписался бы, но у меня RDNA4.

Тоже использую llama, но 27b выдает у меня не более 40t/s.

На 35b выдает 100-110t/s.

Увеличил траты в 10-20 раз, производительность увеличил в 2 раза, нет необходимости быть у компьютера весь день, через Telegram можно все решать.
А так если в лоб использовать hermes на дорогой подписке с оплатой за токены, можно легко за 200-400$ улететь.
Но можно сказать я этого не почувствовал в тратах, так как hermes с моделью подороже выступает как оркестратор других более дешевых моделей через субагентов. То сеть основные модели такие как ChatGPT5.4, Gemini3.5Flash-High занимаются планированием, а исполнители (с проверкой дорогими моделями) идут уже DeepSeek4Pro, DeepSeek4Flash, Kimi2.6, GLM5.1, Gemini3pro3.1 (CLI) которые дешевле. Получается общий итог не хуже, расходы по лимитам кратно возросли, но траты на подписки остались в пределах 80$.

Примерно такая сумма у меня была раньше Copilot 39$ + ChatGPT 20$ + Claude 20$.

Была подписка 2 месяца. За 39$ предлагали 1500 лимитов запросов в день. Это получалось где-то по 70 запросов в день, без выходных. Если пользоваться VS Code мне в целом хватает, но перешёл на hermes agent. Тот стабильно в день делал 300-400 легко. Тут уже тарифа на хватает. Отметил подписку. Раньше мне этого хватало, сегодня этого мало, ещё и цены они поднимают.

Видимо опытным путем уже научился определять уровень модели. :)

Прошлые 2 месяца сидел на GPT5.4, 5.5

Вышла Kimi2.6 сразу перешёл = GPT5.4 + Opus 4.6. Прекрасная модель, ещё и opensoure.

Опытным путем заметил, что Sonnet 4.6 уже не тянет или тянет, но слаб в глобальном планировании. Нет такого уровня как у Kimi2.6.

Дальше перешёл на DeepSeekV4Flash из-за скорости. Kimi2.6 для меня слишком задумчивый, если ускорят будет бомба. (Уже была новость, что ускорили в 10 раз).

На самом деле мы подошли уже в тому краю, когда уровень написания кода моделями примерно равный. Отличаются они только разной способностью планирования.

Composer 2.5 вышел, пропустили? Очень хорош, в задачах кодинга.

Подготовил себе около 50 задач для тестирования уровня моделей для моих задач. Вчера начал собирать информацию, а оказалось разницы там между моделями топ уровня уже 92-98%.

Но Gemini 3.5 flash крутая. Но она слишком самонадеянная, а именно в моем случае использовал недельный лимит токенов на 100$ ее обещаниями адаптировать llama под RDNA4 шейдеры. Каждый час, вот вот... В итоге оказалось есть в GPU некоторые инженерные моменты про которые модель не знает и она начинает нести откровенную ересь тем самым хватаясь за любую соломенку, только бы оправдать полный провал. То есть она очень легко может галлюацинационировать вам план, который будет связан с реальностью только слухами которые она слышала и приняла за чистую монету.

Зацикливание это не проблема модели, а проблема вашего конфига, наслоения настроек сжатия контекста на низкий квант самой модели, происходит умножение шума, как одна из причин.

У меня прекрасно работает, но выбираю сжатие I-apex.

Могу посоветовать Darwin Qwen3.6 Apex реализацию. 88.4% on GPQA Diamond. Как-то Google подсказал, что показатель этот влияет на именно те задачи, которые мне нужны, а это кодинг, терминал, настройки и в целом.

То есть это некоторый показатель именно реального интеллекта модели.

Но мы доверяем, но проверяем. Создал тест из 10 заданий на интеллект, на написание кода и 2 теста на perplexity по моему custom calibration и по wikit

Мой файл custom calibration.txt создавал исходя из моих повседневных задач (для imatrix ранее), включил туда кодинг, терминал, настройки сервера, интернет маркетинг, копирайтинг и т.д. Весь мой конфиг целевой.

Показатель perplexity на моем файле самый низкий из моего набора 7 моделей, с разным квантованием. Тоже самое показало на WikitText-2.

Но сухие цифры ничего не значат. Я сделал еще задания и тут тоже везде лучше чем у других. Создание тестов и подведение итогов доверил Gemini 3.5 Flash High. В целом все результаты фактические, не с головы.

Отечественные аналоги в 80% сворованные :)

Первый шок был в 18 лет, что оказывается часы электроника это сворованные casio. Второй произошел на ну погоди, когда оказалось, что это nintendo. Третий на запорожце :)

Я согласен, я думаю это дело в самом guff я брал не самый официальный, а некий APEX. Вообщем все нужно чательно тестировать и запускать, благо у меня этим агенты занимаются в свободное время. DeepSeekV4Flash и запускаешь на 8 часов. Перепробуют все возможные настройки и конфиги. Конечно это намного без мозгов, но у меня так получилось без MTP 100t/s добрать.

Благо систему уже правильно настроил на igpu+gpu, чтобы весь gpu отдавался модели.

Скоро выйдет 3.7 в gguf, надеюсь это поможет многим перейти на свои видеокарты, а это в свою очередь ещё активнее подстегнет всю сферу вперёд.

Пару дней назад скачал llama.cpp но хотел поддержку на turboquant. Это было только в quinszouls.

unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_XL

В моем случае в думающем режиме выдает 100t/s на rx9070, но загрузил задачу проверки кода 1 час морозилась, ничего не выдала. Возможно надо было ждать 2 часа? Вроде скорость ответов выше чем на 27B в 3 раза в моем случае, но 27B решила этот момент за 45 минут. Это конечно не показатель. Но отмороженность некоторая присутвует, может она наоборот делает хорошо :) не было время ждать 2 часа. Случай был записан - модель отморозилась.

Claude Opus 4.7 в дополнение, как финальный акт. Лучше или нет? Я думаю лучше, но годится как финальный проверяющий, как рабочая лошадка нет, как аудитор, опытный критик, 20$ подписки в моем случае хватает на полноценный 1 аудит впритык и сразу упирается в 5 часовой лимит. Вначале ждешь его аудит 15 минут, потом, смотришь, что лимитов не хватило... ;)

Вот у меня тоже такое впечатление сложилось, читая мануалы тех кто профессионально занимается квантованием моделей. Там смысл не в том, что на 4 битах модель становится тупой с лоботомией. Смысл в 1-2% точности ответа. То есть вероятность ошибки выше. Но! Если это код, модели никогда не пишут код без ошибок.

Но самое главное, что если вы пишите код, вы никогда не делаете это в один заход. Это всегда 10-15 проходов, и ещё проходы с покрытием тестами, баг треками и так далее. Можно сказать на Qwen3.6 27B писать код можно, точно так же как и на ChatGPT.

В моем случае последняя выдает 20t/s. Когда Qwen 35B тоже с 4bit (если хуже то только на 5%-10%) выдает 100t/s. Больше скорость больше работы.

Пощупал уже. Если там такое во Flash, что там тогда на Pro ждать? Приятно удивил.

У меня есть пару настроек которые очень хорошо определяют уровень модели. А именно я всегда начинаю с уровня администрирования сервера. У меня достаточно много параметров для тюнинга сервера, я просто пускаю модель на сервер и прошу составить аудит всех настроек и слабых мест, оптимизации.

Пробовал такое с многими моделями, GPT5.5 лучше всех справилась. Kimi2.6 кстати был рядом ChatGPT 5.5 (10 минут), но работал в 3 раза дольше, справился за 30 минут. То есть мозги есть, но часто страдает от долгих размышлений. Если есть время Kimi2.6 вполне годная модель.

Google 3.5 Flash справился на уровне ChatGPT 5.5 но сделал это за 3 минуты и с минимальными тратами лимитов. Antigravity. Можно сказать подписка AG за 20$ начала набирать смысл. Пока не пробовал в кодинге. Если PRO окажется круче ChatGPT 5.5, есть смысл ULTRA

Информация

В рейтинге
4 084-й
Откуда
Минск, Минская обл., Беларусь
Дата рождения
Зарегистрирован
Активность

Специализация

SEO-специалист, Контекстолог
Ведущий