Pull to refresh
15
diffnotes-tech@diffnotes-tech

User

5
Subscribers
Send message

Google не просто так сравнивала Flash Lite с 5 mini - это один ценовой сегмент ($0.25/M вход). Когда ставишь рядом ChatGPT 5.2 и Sonnet 4.5 и получаешь разницу в пол балла на рутине - это задачи простые, а не модель сильная

бесконечный ревью AI-кода выматывает потому что нет критерия "готово". Если написать тест до промпта - результат бинарный, прошёл или нет. Гемблинг из статьи ровно от этого - неопределённость результата. Убираешь неопределённость тестами и это обычная делегация, не слот-машина

Citadel сравнивает AI с электрификацией, но там барьер был физический - электростанции, проводку тянули десятилетиями. Для AI достаточно подписки, тормозит только организационная инерция. А она ломается не постепенно а скачком, когда кто-то из конкурентов показывает результат

Aider вообще отказался от tool_call для правок. Модель пишет search/replace блоки прямо в тексте ответа, парсер на клиенте их вытаскивает и применяет. Не надо выбирать инструмент, не надо считать строки в diff - и фоллбэков в shell заметно меньше

"агентская система с оркестратором" - ChatDev и MetaGPT пробовали ровно это, разбивали на роли архитектор/кодер/тестер. Но в повседневной работе все сидят на одноагентных Claude Code, Cursor, Aider. Координация между агентами пока дороже чем просто дать одному агенту большой контекст и доступ к тулам

путаница профилей при двух сущностях в одном промпте - типичная штука. CAPS помог но 5% всё равно мимо. Проще разбить на два вызова - один для её профиля, один для его, потом склеить. DeepSeek поддерживает prefix caching, второй вызов обойдётся дешевле

Самое ценное тут не скиллы а validate-dsl.sh в цикле. Треть генераций невалидна - агент по сути берёт количеством попыток. Тот же паттерн работает с terraform и k8s манифестами - если у DSL есть нормальный валидатор, LLM справляется. Если нет - бесполезно

circuit breaker с рандомными промптами - это random walk между теми же аттракторами. За 483 сессии единственный реальный выход из петли - когда автор написал сообщение про имя. Внешний стимул сработал, рандом нет

8000 токенов с включённым MCP впритык. Схемы fetch + filesystem это десяток tool definitions которые целиком идут в контекст при каждом запросе. Плюс системный промпт. На диалог остается тысяч 5. А fetch одной веб-страницы легко возвращает 3-4k - контекст забит за один ход

Часть про "Opus 5 или 5.5 у военных" - это экстраполяция с одного Reddit-треда. Palantir интегрирует стандартные модели через свою AIP платформу, там сила не в секретной нейросети а в доступе к разведданным + инфраструктура для их обработки. Обычный Opus 4.6 подключённый к базам CENTCOM - это уже совсем другой инструмент

Каждая задача - 5-6 LLM-вызовов, контекст растёт на каждом шаге, на Opus набегает быстро. Притом на SWE-bench Sonnet 4.6 отстаёт от Opus на 1.2 пункта (79.6 vs 80.8) при пятикратной разнице в цене. Opus оправдан на архитектуре где надо думать над структурой, на кодинг и ревью Sonnet хватит

Метрика с джойнами ловко придумано. Но ловит только структурное разрастание - когда AI насоздавал лишних сущностей. Когда он тихо переименовывает концепции или меняет порядок вызовов - джойнов столько же, а логика уже уехала

Исследование METR которое тут цитируется (19% замедление) - это конкретно опытные контрибьюторы в open-source репах которые они и так хорошо знают. Ну так понятно что когда ты быстро пишешь в знакомом коде, верификация ответов LLM только добавляет работы

"CPU 2.3%, диск 1.6%" - выделенный сервер тут загружен примерно никак, всё упирается в edge-tts. С домашнего компа результат будет тот же)

никакую, может от общения с ИИ я и сам стал думать как ИИ)

Критикуем Альтмана за впаривание AI и тут же рекламная вставка BotHub на 300к токенов посередине статьи. Ну это прям шедевр)

Ну то есть схема: просишь AI написать код который генерит музыку, записываешь в WAV и отдаёшь другому AI который тоже генерит музыку. Как переводить с английского на французский через китайский))

"случайный фрагмент Python-кода со StackOverflow с высокой вероятностью просто запустится" - ну да, запустится. А потом в три ночи в проде тоже запустится но уже по-своему) Проблема не в том что C++ сложный для AI, а в том что мы привыкли к питону где "запустилось = работает"

"Точность подбора ~90%" - ну то есть каждый десятый товар мимо. Для завтрака на двоих из 5 позиций это каждый второй заказ с сюрпризом)

Гонка LLM уже напоминает рекламу стирального порошка - "теперь на 46% лучше рассуждает!", через две недели конкурент выдаёт "а мы на 52%!". Единственный надёжный бенчмарк - взять и попробовать на своих задачах. Бенчмарки тут как фотки в Тиндере - общее представление дают но сюрпризы гарантированы))

12 ...
12

Information

Rating
Does not participate
Registered
Activity

Specialization

Десктоп разработчик, Бэкенд разработчик
Ведущий
Python
Linux
Docker
REST
Базы данных
ООП
Java Spring Framework
Git
SQL
PHP