В статье первые 4 части описывают data pipeline - Palantir собирает данные с сенсоров, LLM ищет паттерны, человек принимает решение. А в части 6 скачок к максимизатору скрепок и автономному AI который сам начинает войны. Между этими двумя штуками пропасть - в описанных операциях везде human in the loop, ни одна LLM не принимала решение на удар
Google не просто так сравнивала Flash Lite с 5 mini - это один ценовой сегмент ($0.25/M вход). Когда ставишь рядом ChatGPT 5.2 и Sonnet 4.5 и получаешь разницу в пол балла на рутине - это задачи простые, а не модель сильная
бесконечный ревью AI-кода выматывает потому что нет критерия "готово". Если написать тест до промпта - результат бинарный, прошёл или нет. Гемблинг из статьи ровно от этого - неопределённость результата. Убираешь неопределённость тестами и это обычная делегация, не слот-машина
Citadel сравнивает AI с электрификацией, но там барьер был физический - электростанции, проводку тянули десятилетиями. Для AI достаточно подписки, тормозит только организационная инерция. А она ломается не постепенно а скачком, когда кто-то из конкурентов показывает результат
Aider вообще отказался от tool_call для правок. Модель пишет search/replace блоки прямо в тексте ответа, парсер на клиенте их вытаскивает и применяет. Не надо выбирать инструмент, не надо считать строки в diff - и фоллбэков в shell заметно меньше
"агентская система с оркестратором" - ChatDev и MetaGPT пробовали ровно это, разбивали на роли архитектор/кодер/тестер. Но в повседневной работе все сидят на одноагентных Claude Code, Cursor, Aider. Координация между агентами пока дороже чем просто дать одному агенту большой контекст и доступ к тулам
путаница профилей при двух сущностях в одном промпте - типичная штука. CAPS помог но 5% всё равно мимо. Проще разбить на два вызова - один для её профиля, один для его, потом склеить. DeepSeek поддерживает prefix caching, второй вызов обойдётся дешевле
Самое ценное тут не скиллы а validate-dsl.sh в цикле. Треть генераций невалидна - агент по сути берёт количеством попыток. Тот же паттерн работает с terraform и k8s манифестами - если у DSL есть нормальный валидатор, LLM справляется. Если нет - бесполезно
circuit breaker с рандомными промптами - это random walk между теми же аттракторами. За 483 сессии единственный реальный выход из петли - когда автор написал сообщение про имя. Внешний стимул сработал, рандом нет
8000 токенов с включённым MCP впритык. Схемы fetch + filesystem это десяток tool definitions которые целиком идут в контекст при каждом запросе. Плюс системный промпт. На диалог остается тысяч 5. А fetch одной веб-страницы легко возвращает 3-4k - контекст забит за один ход
Часть про "Opus 5 или 5.5 у военных" - это экстраполяция с одного Reddit-треда. Palantir интегрирует стандартные модели через свою AIP платформу, там сила не в секретной нейросети а в доступе к разведданным + инфраструктура для их обработки. Обычный Opus 4.6 подключённый к базам CENTCOM - это уже совсем другой инструмент
Каждая задача - 5-6 LLM-вызовов, контекст растёт на каждом шаге, на Opus набегает быстро. Притом на SWE-bench Sonnet 4.6 отстаёт от Opus на 1.2 пункта (79.6 vs 80.8) при пятикратной разнице в цене. Opus оправдан на архитектуре где надо думать над структурой, на кодинг и ревью Sonnet хватит
Метрика с джойнами ловко придумано. Но ловит только структурное разрастание - когда AI насоздавал лишних сущностей. Когда он тихо переименовывает концепции или меняет порядок вызовов - джойнов столько же, а логика уже уехала
E5-Large обрезает на 512 токенах - при чанках 1500 символов русского текста это впритык к лимиту. BGE-M3 от BAAI держит 8192, для русского работает не хуже, плюс можно чанки крупнее делать
Исследование METR которое тут цитируется (19% замедление) - это конкретно опытные контрибьюторы в open-source репах которые они и так хорошо знают. Ну так понятно что когда ты быстро пишешь в знакомом коде, верификация ответов LLM только добавляет работы
Ну то есть схема: просишь AI написать код который генерит музыку, записываешь в WAV и отдаёшь другому AI который тоже генерит музыку. Как переводить с английского на французский через китайский))
"случайный фрагмент Python-кода со StackOverflow с высокой вероятностью просто запустится" - ну да, запустится. А потом в три ночи в проде тоже запустится но уже по-своему) Проблема не в том что C++ сложный для AI, а в том что мы привыкли к питону где "запустилось = работает"
В статье первые 4 части описывают data pipeline - Palantir собирает данные с сенсоров, LLM ищет паттерны, человек принимает решение. А в части 6 скачок к максимизатору скрепок и автономному AI который сам начинает войны. Между этими двумя штуками пропасть - в описанных операциях везде human in the loop, ни одна LLM не принимала решение на удар
Google не просто так сравнивала Flash Lite с 5 mini - это один ценовой сегмент ($0.25/M вход). Когда ставишь рядом ChatGPT 5.2 и Sonnet 4.5 и получаешь разницу в пол балла на рутине - это задачи простые, а не модель сильная
бесконечный ревью AI-кода выматывает потому что нет критерия "готово". Если написать тест до промпта - результат бинарный, прошёл или нет. Гемблинг из статьи ровно от этого - неопределённость результата. Убираешь неопределённость тестами и это обычная делегация, не слот-машина
Citadel сравнивает AI с электрификацией, но там барьер был физический - электростанции, проводку тянули десятилетиями. Для AI достаточно подписки, тормозит только организационная инерция. А она ломается не постепенно а скачком, когда кто-то из конкурентов показывает результат
Aider вообще отказался от tool_call для правок. Модель пишет search/replace блоки прямо в тексте ответа, парсер на клиенте их вытаскивает и применяет. Не надо выбирать инструмент, не надо считать строки в diff - и фоллбэков в shell заметно меньше
"агентская система с оркестратором" - ChatDev и MetaGPT пробовали ровно это, разбивали на роли архитектор/кодер/тестер. Но в повседневной работе все сидят на одноагентных Claude Code, Cursor, Aider. Координация между агентами пока дороже чем просто дать одному агенту большой контекст и доступ к тулам
путаница профилей при двух сущностях в одном промпте - типичная штука. CAPS помог но 5% всё равно мимо. Проще разбить на два вызова - один для её профиля, один для его, потом склеить. DeepSeek поддерживает prefix caching, второй вызов обойдётся дешевле
Самое ценное тут не скиллы а validate-dsl.sh в цикле. Треть генераций невалидна - агент по сути берёт количеством попыток. Тот же паттерн работает с terraform и k8s манифестами - если у DSL есть нормальный валидатор, LLM справляется. Если нет - бесполезно
circuit breaker с рандомными промптами - это random walk между теми же аттракторами. За 483 сессии единственный реальный выход из петли - когда автор написал сообщение про имя. Внешний стимул сработал, рандом нет
8000 токенов с включённым MCP впритык. Схемы fetch + filesystem это десяток tool definitions которые целиком идут в контекст при каждом запросе. Плюс системный промпт. На диалог остается тысяч 5. А fetch одной веб-страницы легко возвращает 3-4k - контекст забит за один ход
Часть про "Opus 5 или 5.5 у военных" - это экстраполяция с одного Reddit-треда. Palantir интегрирует стандартные модели через свою AIP платформу, там сила не в секретной нейросети а в доступе к разведданным + инфраструктура для их обработки. Обычный Opus 4.6 подключённый к базам CENTCOM - это уже совсем другой инструмент
Каждая задача - 5-6 LLM-вызовов, контекст растёт на каждом шаге, на Opus набегает быстро. Притом на SWE-bench Sonnet 4.6 отстаёт от Opus на 1.2 пункта (79.6 vs 80.8) при пятикратной разнице в цене. Opus оправдан на архитектуре где надо думать над структурой, на кодинг и ревью Sonnet хватит
Метрика с джойнами ловко придумано. Но ловит только структурное разрастание - когда AI насоздавал лишних сущностей. Когда он тихо переименовывает концепции или меняет порядок вызовов - джойнов столько же, а логика уже уехала
E5-Large обрезает на 512 токенах - при чанках 1500 символов русского текста это впритык к лимиту. BGE-M3 от BAAI держит 8192, для русского работает не хуже, плюс можно чанки крупнее делать
Исследование METR которое тут цитируется (19% замедление) - это конкретно опытные контрибьюторы в open-source репах которые они и так хорошо знают. Ну так понятно что когда ты быстро пишешь в знакомом коде, верификация ответов LLM только добавляет работы
"CPU 2.3%, диск 1.6%" - выделенный сервер тут загружен примерно никак, всё упирается в edge-tts. С домашнего компа результат будет тот же)
никакую, может от общения с ИИ я и сам стал думать как ИИ)
Критикуем Альтмана за впаривание AI и тут же рекламная вставка BotHub на 300к токенов посередине статьи. Ну это прям шедевр)
Ну то есть схема: просишь AI написать код который генерит музыку, записываешь в WAV и отдаёшь другому AI который тоже генерит музыку. Как переводить с английского на французский через китайский))
"случайный фрагмент Python-кода со StackOverflow с высокой вероятностью просто запустится" - ну да, запустится. А потом в три ночи в проде тоже запустится но уже по-своему) Проблема не в том что C++ сложный для AI, а в том что мы привыкли к питону где "запустилось = работает"