Комментарии / Профиль ontop / Хабр

Konstantin@ontop

SEO lead, руководитель

0,1

Рейтинг

ПрофильСтатьиПостыНовостиКомментарии122

Ответ на Kimi K3: зачем Alibaba выкатила 2,4-триллионную Qwen3.8

ontop 20 июл в 16:07

Насколько знаю 3.5 версия тоже вышла вначале в варианте 397B, потом уже вышли адаптированные версии. Ждём :) 27B, 35B.

Крупнейший open source ИИ в истории. Вышла Kimi K3 — по мощности модель уступает только Fable 5 и GPT-5.6

ontop 17 июл в 03:32

В моем случае Kimi 2.6 прекрасно себя показала 4 месяца назад как альтернатива GPT5.4.

Брал на Opencode. Самая нормальная подписка. Потом эта модель появилась бесплатно на Windsufr, который сегодня стал Devin и с нормальным ускорением. То есть на Devin генерация Kimi был очень быстрой, даже там где последний много думал, что на самом деле хорошо.

Потом благополучно был заменён на GLM5.2, который тоже пока бесплатен на Devin. Но Grok4.5 на Cursor мне нравится больше, но благо обе модели хорошие исполнители, когда GPT5.6 Sol пишет подробные планы, но Grok еще и картинки понимает.

DeepSeekV4 PRO не плохая была, когда вышел Kimi2.6, но обе хуже GLM5.2. Знакомый разработчик говорит, что DeepSeek был замечен в сливах информации, потому компании его избегают как огня и других китайских моделей.

OpenAI временно сняла 5-часовой лимит на GPT-5.6 Sol для платных тарифов

ontop 15 июл в 13:29

Антропики любят банить аккаунты, просто так (по информации блогеров и моей практики.
Не так зашел (забыл включить VPN), не так оплатил, больше одного аккаунта нельзя. Оплатил с не той карты... Засветил hermes и другие harness... Но, но!
В моем случае использую omp и аккаунт забанили без указания причин, как полагаю так как у меня было 2 аккаунта с идентичными Имя, Фамилия в данных. Кстати забанили, сразу, когда оплатил по своей карте, а когда через Apple pay оплачивал, не банили 3 месяца.
Но если ты на свободном рыке не уважаешь своих клиентов, клиенты тебя тоже любить не будут. Считаю если банят, больше не захожу на сервис, пока сами не разбанят аккаунт. Апелляцию написал, на этом все. Не нужны деньги, ок. Я найду им более успешное применение.
Cursor тоже есть Opus4.8 (который нужен только иногда для планов). Сейчас Grok 4.5 использую, вроде все устраивает.

OpenAI временно сняла 5-часовой лимит на GPT-5.6 Sol для платных тарифов

ontop 15 июл в 06:22

На Plus все так, только показывает недельный лимит, на фоне этого решил прикупить Pro :)

Вот только не знаю, есть ли смысл или за 60$, Grok 4.5 на Cursor будет лучше?

Касаемо сброса лимитов, в аккаунте показывает, что накопилось уже 3 сброса лимита. Интересует это касается недельного и работает и на PRO тоже?

GLM-5.2 получила свой аналог Claude Code. Кстати, модели Claude туда тоже подходят

ontop 1 июл в 21:17

Подписки от z, как были #ермо, так и остались. Купил ранее за 20$, запустил 2 раза, 2 раза словил какие-то непонятные лимиты на количество запросов и закрыл больше не заходил. Использую GLM5.2 бесплатно через devin уже около месяца.

Китайские разработчики получают Claude за 10% от стоимости

ontop 26 июн в 22:38

harness - понимают как систему-агента, которая отвечает за управление контекстом, запуск инструментов, планирование и автономное выполнение задач.

Оно кривое и в кодинге и в повседневных задачах.

Китайские разработчики получают Claude за 10% от стоимости

ontop 26 июн в 04:40

Hermes это alpha проект с кучей багов и большой рекламной кампанией.

Есть harness более высокого уровня это Oh My Pi. Рекомендую попробовать, это другой уровень.

Разница во многих аспектах, но самый главный потребление токенов в 2-3 раза ниже чем у Hermes.

Vibecode по дешевке — домашний сервер с Qwen Code за 25к, который не отключит Anthropic

ontop 18 июн в 21:18

Пойду запущу Qwen 3.6 27B Q4_K_S на одной видеокарте 9070 16GB на домашнем компьютере на 30t/s, на 256k контекста...

И можно ещё на 80t/s запустить Qwen3.6 35B Apex-compact на 256k.

Вот мужики удивятся то!

Эх время то сейчас совсем другое, раньше лет так 20 назад, помню мужики железо крутили и бухали по гаражам, а сегодня железо крутят и модели запускают :)

Open-source агент Hermes со 175 тыс звезд на GitHub обзавелся официальным десктоп-клиентом

ontop 4 июн в 19:46

Вроде было :) так в телеге есть голосовой.

Open-source агент Hermes со 175 тыс звезд на GitHub обзавелся официальным десктоп-клиентом

ontop 4 июн в 19:41

Hermes agent стоит на постоянку. А вот desktop приложение запустил, посмотрел на 3Д человечков, удалил.

Это что?

Как я разогнал Qwen3.6-27B до 73 токен/с в llama.cpp: параметры, которые реально работают

ontop 3 июн в 12:46

Я использую MoE, с Imatrix знаком, использую Apex варианты квантования с imatrix.
Как понял MoE лучше дружит с imatrix, а вот 27B плохо квантуется с imatrix.

Тоже читал что bartowski и mudler делают лучшие кванты, на hugging

Как я разогнал Qwen3.6-27B до 73 токен/с в llama.cpp: параметры, которые реально работают

ontop 3 июн в 05:26

Интересует насколько Moe хуже?

Еще интересно почему ниже чем 6 bit лучше не запускать, насколько качество падает?

Как я разогнал Qwen3.6-27B до 73 токен/с в llama.cpp: параметры, которые реально работают

ontop 2 июн в 20:06

Используйте CUDA 13.3, а не 13.2 или 12.
Если интересно то можете подписывать в телеге на наш маленький чатик в котором мы обсуждаем такие темы - homelabru

Полписался бы, но у меня RDNA4.

Тоже использую llama, но 27b выдает у меня не более 40t/s.

На 35b выдает 100-110t/s.

Новая система оплаты на основе токенов в Github Copilot вызвала негодование среди разработчиков

ontop 1 июн в 12:12

Увеличил траты в 10-20 раз, производительность увеличил в 2 раза, нет необходимости быть у компьютера весь день, через Telegram можно все решать.
А так если в лоб использовать hermes на дорогой подписке с оплатой за токены, можно легко за 200-400$ улететь.
Но можно сказать я этого не почувствовал в тратах, так как hermes с моделью подороже выступает как оркестратор других более дешевых моделей через субагентов. То сеть основные модели такие как ChatGPT5.4, Gemini3.5Flash-High занимаются планированием, а исполнители (с проверкой дорогими моделями) идут уже DeepSeek4Pro, DeepSeek4Flash, Kimi2.6, GLM5.1, Gemini3pro3.1 (CLI) которые дешевле. Получается общий итог не хуже, расходы по лимитам кратно возросли, но траты на подписки остались в пределах 80$.

Примерно такая сумма у меня была раньше Copilot 39$ + ChatGPT 20$ + Claude 20$.

Новая система оплаты на основе токенов в Github Copilot вызвала негодование среди разработчиков

ontop 31 мая в 20:45

Была подписка 2 месяца. За 39$ предлагали 1500 лимитов запросов в день. Это получалось где-то по 70 запросов в день, без выходных. Если пользоваться VS Code мне в целом хватает, но перешёл на hermes agent. Тот стабильно в день делал 300-400 легко. Тут уже тарифа на хватает. Отметил подписку. Раньше мне этого хватало, сегодня этого мало, ещё и цены они поднимают.

Gemini-3.5-flash догнал GPT-5.5 на 97/S и в 2.5× дешевле. Но главное — китайцы выигрывают по цене и качеству

ontop 28 мая в 21:20

Видимо опытным путем уже научился определять уровень модели. :)

Прошлые 2 месяца сидел на GPT5.4, 5.5

Вышла Kimi2.6 сразу перешёл = GPT5.4 + Opus 4.6. Прекрасная модель, ещё и opensoure.

Опытным путем заметил, что Sonnet 4.6 уже не тянет или тянет, но слаб в глобальном планировании. Нет такого уровня как у Kimi2.6.

Дальше перешёл на DeepSeekV4Flash из-за скорости. Kimi2.6 для меня слишком задумчивый, если ускорят будет бомба. (Уже была новость, что ускорили в 10 раз).

На самом деле мы подошли уже в тому краю, когда уровень написания кода моделями примерно равный. Отличаются они только разной способностью планирования.

Composer 2.5 вышел, пропустили? Очень хорош, в задачах кодинга.

Подготовил себе около 50 задач для тестирования уровня моделей для моих задач. Вчера начал собирать информацию, а оказалось разницы там между моделями топ уровня уже 92-98%.

Но Gemini 3.5 flash крутая. Но она слишком самонадеянная, а именно в моем случае использовал недельный лимит токенов на 100$ ее обещаниями адаптировать llama под RDNA4 шейдеры. Каждый час, вот вот... В итоге оказалось есть в GPU некоторые инженерные моменты про которые модель не знает и она начинает нести откровенную ересь тем самым хватаясь за любую соломенку, только бы оправдать полный провал. То есть она очень легко может галлюацинационировать вам план, который будет связан с реальностью только слухами которые она слышала и приняла за чистую монету.

Релиз Qwen3.7-Max: лучше Claude Opus 4.6 на SWE-bench Pro

ontop 28 мая в 04:04

Зацикливание это не проблема модели, а проблема вашего конфига, наслоения настроек сжатия контекста на низкий квант самой модели, происходит умножение шума, как одна из причин.

У меня прекрасно работает, но выбираю сжатие I-apex.

Могу посоветовать Darwin Qwen3.6 Apex реализацию. 88.4% on GPQA Diamond. Как-то Google подсказал, что показатель этот влияет на именно те задачи, которые мне нужны, а это кодинг, терминал, настройки и в целом.

То есть это некоторый показатель именно реального интеллекта модели.

Но мы доверяем, но проверяем. Создал тест из 10 заданий на интеллект, на написание кода и 2 теста на perplexity по моему custom calibration и по wikit

Мой файл custom calibration.txt создавал исходя из моих повседневных задач (для imatrix ранее), включил туда кодинг, терминал, настройки сервера, интернет маркетинг, копирайтинг и т.д. Весь мой конфиг целевой.

Показатель perplexity на моем файле самый низкий из моего набора 7 моделей, с разным квантованием. Тоже самое показало на WikitText-2.

Но сухие цифры ничего не значат. Я сделал еще задания и тут тоже везде лучше чем у других. Создание тестов и подведение итогов доверил Gemini 3.5 Flash High. В целом все результаты фактические, не с головы.

Cursor Composer 2.5 вошел в топ-3 ИИ для кодинга

ontop 22 мая в 07:55

Отечественные аналоги в 80% сворованные :)

Первый шок был в 18 лет, что оказывается часы электроника это сворованные casio. Второй произошел на ну погоди, когда оказалось, что это nintendo. Третий на запорожце :)

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

ontop 22 мая в 07:16

Я согласен, я думаю это дело в самом guff я брал не самый официальный, а некий APEX. Вообщем все нужно чательно тестировать и запускать, благо у меня этим агенты занимаются в свободное время. DeepSeekV4Flash и запускаешь на 8 часов. Перепробуют все возможные настройки и конфиги. Конечно это намного без мозгов, но у меня так получилось без MTP 100t/s добрать.

Благо систему уже правильно настроил на igpu+gpu, чтобы весь gpu отдавался модели.

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

ontop 22 мая в 03:01

Скоро выйдет 3.7 в gguf, надеюсь это поможет многим перейти на свои видеокарты, а это в свою очередь ещё активнее подстегнет всю сферу вперёд.

Пару дней назад скачал llama.cpp но хотел поддержку на turboquant. Это было только в quinszouls.

2 3 ...

6 7

Информация

Специализация