А я про экономию памяти не писал, я писал о считываении весов только активных экспертов (сколько памяти прочитает CPU/GPU на генерацию следующего токена), т.е. речь именно про ту память которая участвует в процессе вычисления (к слову, ik_llama.cpp умеет не грузить целиком, а только базовые слои и нужных экспертов). Просто констатирую и обосновываю, что для сравнения модель qwen3.6-35b-a3b более близкий аналог к теме статьи.
Смотря по какому показателю, по качеству ответа или по быстродействию. 35B-A3B кратно быстрее 27B... ну 3GB или 27GB в ram/vram памяти? - разница огромна. Поскольку статья именно о быстродействии, то он достигается на моделях со смесью экспертов, как раз за счёт снижения потребления (v)ram. В общем, если сравнивать, то одинаковые архитектуры) Qwen3.6-27B - это не MoE, а статья про MoE (смесь экспертов). В "интеллектуальном" показателе Qwen3.6-27B конечно уйдёт вперёд, но будет в несколько раз медленее. Мой локальный тест именно производительности, для справки: Qwen3.6-27B 7TPS, а Qwen3.6-35B-A3B 35TPS на Xeon W9-3575X (8 каналов памяти, но два чиплета)
Постоянно открытый туннель является долгоживущим TCP-соединением, клиент вынужден регулярно обмениваться с сервером keepalive-пакетами. Я же предлагаю автоматизировать создание туннеля только на время когда нужно пустить по нему трафик.
Всё совершенно верно, спасибо за отличное дополнение! Начиная с Ubuntu 22.10 сервер (sshd) по умолчанию работает через сокеты. А в статье применяется та же самая механика, но уже к клиенту для управления исходящими туннелями, демонстрируя возможности socket activation.
Вручную команду запускать не нужно. Systemd сам дежурит на порту 10201. Как только браузер к нему обращается systemd автоматически поднимает ssh-туннель и передаёт ему это соединение. В этом и заключается главная фишка.
Здравствуйте! Вы подняли хороший вопрос. Если выставить сокет наружу, "кто-нибудь" действительно не даст сервису уснуть. Но тут речь скорее о локальной прослушке, поэтому внешний мусор до него просто не долетит.
Здравствуйте! Цитата из книги отличная, но мне кажется, мы рассматриваем технологию в немного разных контекстах) В ответе на самый первый комментарий под статьёй я постарался подробнее раскрыть и широту применимости этого подхода, и конкретную проблему, которую он решает сегодня.
Здравствуйте! Спасибо за комментарий, попробую ответить.
Если рассмотреть socket activation более широко, то это возможность прозрачно для пользователя запустить сетевой сервис ровно в тот момент, когда он действительно понадобился (редко используемый веб-сервер или, например, тяжеловесный сервер LLM).
Если говорить конкретно про SSH-туннелирование, то сегодня это наиболее надёжный способ выхода в мировой интернет. Подход on-demand позволяет не светить постоянным туннелем круглосуточно (появился трафик — туннель мгновенно поднялся и сам закрылся при простое).
Но из подписки за 10 баксов опус убрали полностью три дня назад, а оставшиеся модели при лимите в 300 запросов/месяц примерно столько и должны стоить, на мой взгляд. Теперь опус (правда уже 4.7) есть только в подписке за 39 баксов (про+), с учётом коэффициента это 200 запросов/месяц. Но как я понял из статьи и это временно...
Спустя время захотелось внести важное уточнение (навеяно снижением кармы за несогласие с моим мнением, хотя иметь другое мнение соверешенно нормально). Пусть будет тут для истории полная мысль, которую я изложил сухо и не полно изначально. Удивительно, но полностью согласен с тем, что ИИ не заменит часть команды (вернее сделает это не скоро), НО часть команды заменят люди, которые разобрались и стали активно и правильно (т.к. правильно не у всех получается) использовать в своей работе ИИ-инструментарий, т.е. люди освоившие этот тренд. А дальше вопрос "религии" - не нравится не используйте, но отдавайте себе отчёт, что и найм изменился. Вы не позовёте к себе заядлых вайбкодеров, но и вас могут прокатить при проповедовании олдскульного кодинга. Я пришёл в профессии из любви к коду, а дальше мне и вам самим решать как действовать в меняющемся мире.
Забавно, что эта ветка стала хорошей иллюстрацией моего коммента! Басни, недетерминированные молотки, спички и распилы бюджетов отлично демонстрируют тот самый оверхед.Мой подход за 18 лет в ИТ - технический прагматизм (а-ля бритва Оккама). Не надо плодить сущности: ни в архитектуре, ни в коммуникациях. ИИ как раз позволяет мне отрезать шум и просто делать работу.
Честно говоря, немного удивляет, когда в комментариях до сих пор пишут, что ИИ не способен заменить часть разработчиков. Грамотные промпты, хорошая кодовая база, умение направлять агента - и один инженер с многолетней насмотренностью действительно может выдать результат небольшой команды.
Да, ИИ-инструменты приносят свои проблемы, но разве в классической команде их нет?)) Коммуникационные издержки: испорченный телефон, нудные синхронизации в таск-менеджерах, долгие дискуссии, выбивающие из потока на полдня. Банальный человеческий фактор: не всегда все члены команды от который многое зависит находятся в строю по тем или иным причинам (порой выдуманным). ИИ позволяет снизить оверхед.
Если кто-то считает, что люди нужны проекту в той же массе, как и пару лет назад, возможно, он просто пока не освоил в полной мере современные инструменты. При этом то, что я говорю, нисколько не отменяет главного: чтобы эффективно управлять ИИ-агентами, нужно самому глубоко учиться программированию, архитектуре и другим направлениям.
В точности по инструкции из ишью. Создаёте два файла .github/agents/opus.agent.md и .github/promts/ask-opus.prompt.md после чего в чате при вводе / будет выбор /ask-opus, выираете и пишите свой запрос. Также некоторые нюансы описал в ответе на другой ваш комментарий. Имейте ввиду, как пишут ниже, можно схватить предупреждение о злоупотреблении и потенциально блокировку акка. Ниже мои варианты файлов (я использовал недорой haiku вместо gpt5-mini, если и сорвётся сам ответить, но не так плохо).
Иногда агент пытается сам ответить, а не вызывает субагента. Попробуйте в чате дополнительно указать вызов субагента: /ask-opus используй opus-agent для работы. … Ваш промт … убедись, что работа выполнена субагентом opus-agent.
То что запрос был передан субагенту будет написано в ответе.
Попроси нейронку сгенерировать квалификационные тесты для определения модели и прогони их в своём чате с субагентом. Например gpt5-mini не сможет написать эссе на 500 слов в стиле шекспира, а опус сможет.
Ну и конечно предполагается что у вас есть Pro подписка на copilot.
А это мы про квантование ещё не говорили)
О чёрт, я правда написал «потребление»?) Спасибо @jvw за поправку) Точки над и вроде бы расставлены.
А я про экономию памяти не писал, я писал о считываении весов только активных экспертов (сколько памяти прочитает CPU/GPU на генерацию следующего токена), т.е. речь именно про ту память которая участвует в процессе вычисления (к слову, ik_llama.cpp умеет не грузить целиком, а только базовые слои и нужных экспертов). Просто констатирую и обосновываю, что для сравнения модель qwen3.6-35b-a3b более близкий аналог к теме статьи.
Смотря по какому показателю, по качеству ответа или по быстродействию. 35B-A3B кратно быстрее 27B... ну 3GB или 27GB в ram/vram памяти? - разница огромна. Поскольку статья именно о быстродействии, то он достигается на моделях со смесью экспертов, как раз за счёт снижения потребления (v)ram. В общем, если сравнивать, то одинаковые архитектуры) Qwen3.6-27B - это не MoE, а статья про MoE (смесь экспертов).
В "интеллектуальном" показателе Qwen3.6-27B конечно уйдёт вперёд, но будет в несколько раз медленее. Мой локальный тест именно производительности, для справки: Qwen3.6-27B 7TPS, а Qwen3.6-35B-A3B 35TPS на Xeon W9-3575X (8 каналов памяти, но два чиплета)
С Qwen3.6-35B-A3B было бы точнее , речь всë же о смеси экспертов, а не монолите
Аж олдскулы свело) Спасибо за отличную историческую справку!
Постоянно открытый туннель является долгоживущим TCP-соединением, клиент вынужден регулярно обмениваться с сервером keepalive-пакетами. Я же предлагаю автоматизировать создание туннеля только на время когда нужно пустить по нему трафик.
Всё совершенно верно, спасибо за отличное дополнение! Начиная с Ubuntu 22.10 сервер (sshd) по умолчанию работает через сокеты. А в статье применяется та же самая механика, но уже к клиенту для управления исходящими туннелями, демонстрируя возможности socket activation.
Вручную команду запускать не нужно. Systemd сам дежурит на порту 10201. Как только браузер к нему обращается systemd автоматически поднимает ssh-туннель и передаёт ему это соединение. В этом и заключается главная фишка.
Здравствуйте! Вы подняли хороший вопрос. Если выставить сокет наружу, "кто-нибудь" действительно не даст сервису уснуть. Но тут речь скорее о локальной прослушке, поэтому внешний мусор до него просто не долетит.
Здравствуйте! Всё так, спасибо за понимание кейса.
Здравствуйте! Цитата из книги отличная, но мне кажется, мы рассматриваем технологию в немного разных контекстах) В ответе на самый первый комментарий под статьёй я постарался подробнее раскрыть и широту применимости этого подхода, и конкретную проблему, которую он решает сегодня.
Здравствуйте! Совершенно верно, inetd - прародитель этого подхода.
Здравствуйте! Спасибо за комментарий, попробую ответить.
Если рассмотреть socket activation более широко, то это возможность прозрачно для пользователя запустить сетевой сервис ровно в тот момент, когда он действительно понадобился (редко используемый веб-сервер или, например, тяжеловесный сервер LLM).
Если говорить конкретно про SSH-туннелирование, то сегодня это наиболее надёжный способ выхода в мировой интернет. Подход on-demand позволяет не светить постоянным туннелем круглосуточно (появился трафик — туннель мгновенно поднялся и сам закрылся при простое).
Но из подписки за 10 баксов опус убрали полностью три дня назад, а оставшиеся модели при лимите в 300 запросов/месяц примерно столько и должны стоить, на мой взгляд. Теперь опус (правда уже 4.7) есть только в подписке за 39 баксов (про+), с учётом коэффициента это 200 запросов/месяц. Но как я понял из статьи и это временно...
Спустя время захотелось внести важное уточнение (навеяно снижением кармы за несогласие с моим мнением, хотя иметь другое мнение соверешенно нормально). Пусть будет тут для истории полная мысль, которую я изложил сухо и не полно изначально. Удивительно, но полностью согласен с тем, что ИИ не заменит часть команды (вернее сделает это не скоро), НО часть команды заменят люди, которые разобрались и стали активно и правильно (т.к. правильно не у всех получается) использовать в своей работе ИИ-инструментарий, т.е. люди освоившие этот тренд. А дальше вопрос "религии" - не нравится не используйте, но отдавайте себе отчёт, что и найм изменился. Вы не позовёте к себе заядлых вайбкодеров, но и вас могут прокатить при проповедовании олдскульного кодинга. Я пришёл в профессии из любви к коду, а дальше мне и вам самим решать как действовать в меняющемся мире.
Забавно, что эта ветка стала хорошей иллюстрацией моего коммента! Басни, недетерминированные молотки, спички и распилы бюджетов отлично демонстрируют тот самый оверхед.Мой подход за 18 лет в ИТ - технический прагматизм (а-ля бритва Оккама). Не надо плодить сущности: ни в архитектуре, ни в коммуникациях. ИИ как раз позволяет мне отрезать шум и просто делать работу.
Честно говоря, немного удивляет, когда в комментариях до сих пор пишут, что ИИ не способен заменить часть разработчиков. Грамотные промпты, хорошая кодовая база, умение направлять агента - и один инженер с многолетней насмотренностью действительно может выдать результат небольшой команды.
Да, ИИ-инструменты приносят свои проблемы, но разве в классической команде их нет?)) Коммуникационные издержки: испорченный телефон, нудные синхронизации в таск-менеджерах, долгие дискуссии, выбивающие из потока на полдня. Банальный человеческий фактор: не всегда все члены команды от который многое зависит находятся в строю по тем или иным причинам (порой выдуманным). ИИ позволяет снизить оверхед.
Если кто-то считает, что люди нужны проекту в той же массе, как и пару лет назад, возможно, он просто пока не освоил в полной мере современные инструменты. При этом то, что я говорю, нисколько не отменяет главного: чтобы эффективно управлять ИИ-агентами, нужно самому глубоко учиться программированию, архитектуре и другим направлениям.
В точности по инструкции из ишью. Создаёте два файла .github/agents/opus.agent.md и .github/promts/ask-opus.prompt.md после чего в чате при вводе / будет выбор /ask-opus, выираете и пишите свой запрос. Также некоторые нюансы описал в ответе на другой ваш комментарий.
Имейте ввиду, как пишут ниже, можно схватить предупреждение о злоупотреблении и потенциально блокировку акка.
Ниже мои варианты файлов (я использовал недорой haiku вместо gpt5-mini, если и сорвётся сам ответить, но не так плохо).
Иногда агент пытается сам ответить, а не вызывает субагента. Попробуйте в чате дополнительно указать вызов субагента: /ask-opus используй opus-agent для работы. … Ваш промт … убедись, что работа выполнена субагентом opus-agent.
То что запрос был передан субагенту будет написано в ответе.
Попроси нейронку сгенерировать квалификационные тесты для определения модели и прогони их в своём чате с субагентом. Например gpt5-mini не сможет написать эссе на 500 слов в стиле шекспира, а опус сможет.
Ну и конечно предполагается что у вас есть Pro подписка на copilot.