alex2061 Apr 8 at 10:16

Один скилл, четыре модели — что может пойти не так

Medium

9 min

Artificial IntelligenceMachine learning * Python * Development Management * API *

Case

From sandbox

+15

Comments 9

arch1lochus Apr 8 at 10:24

скиллы не гарантируют исполнение — модель сама решает, следовать ли инструкциям

Продолжая аналогию с ТЗ, "кожаный" программист может тоже не следовать ему, но тогда он быстро будет наказан рублем и отправлен в свободное плавание.
Здесь же LLM исправно скушает токены, а выдаст что захочет.

Это не баг, это фундаментальное свойство: языковая модель не исполняет инструкции, она интерпретирует их

да, это не баг, это фатальный недостаток, из-за которого разговоры "LLM заменит {job_name}" просто абсурдны

Romatio Apr 8 at 16:56

Как бы каждый интерпретирует иснструкции, и исполниет то, как он интерпретировал.

Yakwilik Apr 8 at 15:48

Жаль, что не использовался хотя бы gpt5

alex2061 Apr 9 at 08:56

По вашей просьбе добавил GPT-5.1 в эксперимент

LyuMih Apr 9 at 04:57

Можно, пожалуйста, в сравнение добавить Cursor модели - Composer 2 и режим auto?

Cursor очень популярен - интересно увидеть, на каком уровне модели

alex2061 Apr 9 at 08:19

Composer 2 — интересная модель, но она обучена исключительно на коде и не предназначена для общих задач. Cursor сами говорят: 'не поможет с налогами и не напишет стихи'. Наш скилл — обработка тикетов, не кодинг, поэтому сравнение было бы нечестным. А режим auto в Cursor — это выбор модели оболочкой, что добавляет ещё одну переменную. Это отдельный эксперимент: как оболочка влияет на результат. Если интересно — репозиторий открыт, можно адаптировать скилл под кодинг и прогнать.

maxim_ge Apr 9 at 09:59

GitHub Copilot ввёл свой стандарт Agent Skills, Anthropic, OpenAI и Google сошлись на похожем формате.

Можно подробнее про “GitHub Copilot ввёл свой стандарт”? Они разве не используют open standart?

И еще вопрос - непонятно, как SKILL передаётся при использовании: “Все четыре — через OpenRouter, одним API-ключом, одинаковый формат запросов, temperature=0. Ключевые обращения — по 20 повторов, остальные — по 5. Итого 480 запусков со скиллом”.

alex2061 Apr 9 at 10:18

Спасибо что внимательно прочитали! Вы правы по обоим пунктам.

Формулировку про GitHub Copilot исправил — они не вводили отдельный стандарт, а поддерживают общий открытый формат Agent Skills (SKILL.md), как и Claude Code, Codex и другие.

По механике передачи скилла — добавил уточнение в текст. Скилл передаётся как system prompt: содержимое SKILL.md целиком уходит в поле system message API-запроса, рядом — описание инструментов (tools) и текст обращения (user message)

ioleynikov 22 hours ago

Очень интересная статья. Я совсем недавно познакомился со скилами и они представляются мне более естественным и обоснованным решением, чем классические запросы с промтами к модели. Не хвост (агент) крутит собакой (моделью), а собака хвостом. Инициатива модели по запуску в нужный момент нужных инструментов верна и может быть легко перенесена в робототехнику, роботам давно пора обзавестись быстрыми мозгами уровня Gemma 4. Большое спасибо, дальнейших успехов и Удачи !