Обновить
32K+
12
diffnotes-tech@diffnotes-tech

Пользователь

85,4
Рейтинг
3
Подписчики
Отправить сообщение

хм, может и так. Если человеку не нужен язык прямо сейчас - это не лень, а просто нет реальной задачи. FSI не зря говорит про 600+ часов - без причины это время никто не потратит

Ну да в мире щас все больше и больше инструментов которые помогают изучать языки и решать проблемы, но главную проблему человечества пока не решают - лень)

Ревью AI-кода перед деплоем решает половину проблемы. Kiro сам решил удалить и пересоздать среду - тут ревью кода не поможет, агент действовал в рантайме с правами оператора. Пока агентам дают тот же IAM-уровень что и людям, это будет повторяться

Тест одним промптом через API показывает генерацию с нуля. Реальная разница между моделями вылезает в агентном режиме - когда модель видит ошибку, сама правит, запускает код снова. Claude Code и Codex делают по несколько итераций на задачу автоматически. На калькуляторе это незаметно

METR не доказали ускорение но эксперимент развалился - разработчики отказались работать без AI. В клинических испытаниях когда участники отказываются от контрольной группы обычно это значит лечение реально работает. А тут вывод - "данные слишком слабы". Зависимость без доказанной пользы

Весь расклад про расходы, но доходная часть - "прогноз 100 млрд выручки к 2028" и всё. А доходы тоже под давлением. Стоимость токена падает - модели эффективнее, конкуренты давят ценой. DeepSeek V3 обучили за $5.5M. Не снижаешь цены - клиенты уходят на open-source, снижаешь - выручка не растёт по плану

jdt внутри Explore субагента был бы идеальной связкой. Субагент и так защищает контекст основного агента, но сам всё равно грепает и тратит свой контекст на фильтрацию мусора. С jdt субагент получает 8 точных результатов сразу и возвращает основному агенту сухой остаток

В UPD самое ценное. Gemini залип на "бетон" и "дизель" - это ровно та же штука что и в коде. Модель увидела метафору в контексте и теперь тащит её в каждый ответ. В коде то же самое - написал хак, он в контексте, дальше всё строится поверх. UPD доказывает тезис статьи лучше чем сама статья

Логирование tool calls с трассами - LangSmith, LangFuse, Arize это умеют. Новое тут commitment protocol, агент фиксирует план до выполнения. Но реальные агентные пайплайны адаптивные, следующий шаг зависит от результата предыдущего. Агент обязался вызвать 3 инструмента, по ходу понял что нужен четвёртый - нарушение обязательства или нормальная работа?

Пользователи удаляют ChatGPT из-за Пентагона (+295%), Anthropic тут же запускает рекламу перехода на Claude. При этом Claude сам используется для определения целей в Иране. Маркетинг красивый

40% на планирование - самое больное место. Половина этого уходит не на задачу а на контекст: где лежат модели, как устроен API, какие конвенции. CLAUDE.md в корне проекта снимает эту часть - Claude Code читает его автоматически при старте. Один раз описал структуру и дальше планируешь только саму задачу

"90% задержки на CPU" - но это же не compute. Агент в основном ждёт ответа от API, парсит JSON, пишет в лог. Спрос растёт не из-за вычислений а из-за памяти - каждая агентная сессия держит контекст в RAM, и чем больше сокетов тем больше каналов DDR5 и параллельных сессий

Автор сам отмечает что код не страдает от повторного использования - и тут же натягивает аналогию с подделкой сыра. Для кода проблема не в авторстве а в отсутствии ментальной модели. Кто написал сортировку неважно, важно что вайб-кодер не проверил граничные случаи потому что не он их продумывал

git log пока единственный надёжный сигнал. Документацию, README, тесты LLM генерит за один промпт. А два года эволюции через коммиты и обсуждения в issues - нет

В статье первые 4 части описывают data pipeline - Palantir собирает данные с сенсоров, LLM ищет паттерны, человек принимает решение. А в части 6 скачок к максимизатору скрепок и автономному AI который сам начинает войны. Между этими двумя штуками пропасть - в описанных операциях везде human in the loop, ни одна LLM не принимала решение на удар

Google не просто так сравнивала Flash Lite с 5 mini - это один ценовой сегмент ($0.25/M вход). Когда ставишь рядом ChatGPT 5.2 и Sonnet 4.5 и получаешь разницу в пол балла на рутине - это задачи простые, а не модель сильная

бесконечный ревью AI-кода выматывает потому что нет критерия "готово". Если написать тест до промпта - результат бинарный, прошёл или нет. Гемблинг из статьи ровно от этого - неопределённость результата. Убираешь неопределённость тестами и это обычная делегация, не слот-машина

Citadel сравнивает AI с электрификацией, но там барьер был физический - электростанции, проводку тянули десятилетиями. Для AI достаточно подписки, тормозит только организационная инерция. А она ломается не постепенно а скачком, когда кто-то из конкурентов показывает результат

Aider вообще отказался от tool_call для правок. Модель пишет search/replace блоки прямо в тексте ответа, парсер на клиенте их вытаскивает и применяет. Не надо выбирать инструмент, не надо считать строки в diff - и фоллбэков в shell заметно меньше

"агентская система с оркестратором" - ChatDev и MetaGPT пробовали ровно это, разбивали на роли архитектор/кодер/тестер. Но в повседневной работе все сидят на одноагентных Claude Code, Cursor, Aider. Координация между агентами пока дороже чем просто дать одному агенту большой контекст и доступ к тулам

Информация

В рейтинге
102-й
Зарегистрирован
Активность

Специализация

Десктоп разработчик, Бэкенд разработчик
Ведущий
Python
Linux
Docker
REST
Базы данных
ООП
Java Spring Framework
Git
SQL
PHP