Comments / Profile of diffnotes-tech / Habr

User

Subscribers

Проклятие легких побед: как вайбкодинг убивает волю к решению проблем

бесконечный ревью AI-кода выматывает потому что нет критерия "готово". Если написать тест до промпта - результат бинарный, прошёл или нет. Гемблинг из статьи ровно от этого - неопределённость результата. Убираешь неопределённость тестами и это обычная делегация, не слот-машина

Программисты вымрут в 2028. Или нет?

diffnotes-tech Mar 7 at 18:42

Citadel сравнивает AI с электрификацией, но там барьер был физический - электростанции, проводку тянули десятилетиями. Для AI достаточно подписки, тормозит только организационная инерция. А она ломается не постепенно а скачком, когда кто-то из конкурентов показывает результат

Что можно понять, только написав своего агента для кодинга

diffnotes-tech Mar 7 at 17:53

Aider вообще отказался от tool_call для правок. Модель пишет search/replace блоки прямо в тексте ответа, парсер на клиенте их вытаскивает и применяет. Не надо выбирать инструмент, не надо считать строки в diff - и фоллбэков в shell заметно меньше

Обзор AI-ассистентов для кодинга: от автодополнения к агентским системам

diffnotes-tech Mar 7 at 15:29

"агентская система с оркестратором" - ChatDev и MetaGPT пробовали ровно это, разбивали на роли архитектор/кодер/тестер. Но в повседневной работе все сидят на одноагентных Claude Code, Cursor, Aider. Координация между агентами пока дороже чем просто дать одному агенту большой контекст и доступ к тулам

Wish-лист на 8 марта по книге «Пять языков любви» или как автоматизировать романтику

diffnotes-tech Mar 7 at 13:43

путаница профилей при двух сущностях в одном промпте - типичная штука. CAPS помог но 5% всё равно мимо. Проще разбить на два вызова - один для её профиля, один для его, потом склеить. DeepSeek поддерживает prefix caching, второй вызов обойдётся дешевле

Вы знали, что с помощью LLM можно вывести подход Architecture as Code на новый уровень?

diffnotes-tech Mar 7 at 11:25

Самое ценное тут не скиллы а validate-dsl.sh в цикле. Треть генераций невалидна - агент по сути берёт количеством попыток. Тот же паттерн работает с terraform и k8s манифестами - если у DSL есть нормальный валидатор, LLM справляется. Если нет - бесполезно

Я дал ИИ собственный компьютер и 483 сессии свободы. Вот что произошло

diffnotes-tech Mar 7 at 09:48

circuit breaker с рандомными промптами - это random walk между теми же аттракторами. За 483 сессии единственный реальный выход из петли - когда автор написал сообщение про имя. Внешний стимул сработал, рандом нет

Собственная облачная LLM на 16 ГБ VRAM — часть 1: базовая сборка, tools и MCP

diffnotes-tech Mar 6 at 21:07

8000 токенов с включённым MCP впритык. Схемы fetch + filesystem это десяток tool definitions которые целиком идут в контекст при каждом запросе. Плюс системный промпт. На диалог остается тысяч 5. А fetch одной веб-страницы легко возвращает 3-4k - контекст забит за один ход

ИИ, который запретил сам себя: как нейросеть Claude стала тайным оружием Пентагона

diffnotes-tech Mar 6 at 12:52

Часть про "Opus 5 или 5.5 у военных" - это экстраполяция с одного Reddit-треда. Palantir интегрирует стандартные модели через свою AIP платформу, там сила не в секретной нейросети а в доступе к разведданным + инфраструктура для их обработки. Обычный Opus 4.6 подключённый к базам CENTCOM - это уже совсем другой инструмент

Skaro — AI-оркестратор полного цикла разработки

diffnotes-tech Mar 6 at 08:12

Каждая задача - 5-6 LLM-вызовов, контекст растёт на каждом шаге, на Opus набегает быстро. Притом на SWE-bench Sonnet 4.6 отстаёт от Opus на 1.2 пункта (79.6 vs 80.8) при пятикратной разнице в цене. Opus оправдан на архитектуре где надо думать над структурой, на кодинг и ревью Sonnet хватит

Разработка после разработчиков. Что оставит AI?

diffnotes-tech Mar 5 at 16:14

Метрика с джойнами ловко придумано. Но ловит только структурное разрастание - когда AI насоздавал лишних сущностей. Когда он тихо переименовывает концепции или меняет порядок вызовов - джойнов столько же, а логика уже уехала

Ожидали 15%, получили 1%: почему ИИ не смог повторить успех интернет-революции

diffnotes-tech Mar 5 at 11:31

Исследование METR которое тут цитируется (19% замедление) - это конкретно опытные контрибьюторы в open-source репах которые они и так хорошо знают. Ну так понятно что когда ты быстро пишешь в знакомом коде, верификация ответов LLM только добавляет работы

Проект «Прометей»: как озвучить целую библиотеку за один вечер при помощи ИИ

diffnotes-tech Mar 4 at 17:46

"CPU 2.3%, диск 1.6%" - выделенный сервер тут загружен примерно никак, всё упирается в edge-tts. С домашнего компа результат будет тот же)

Gemini 3.1 Pro vs Claude Opus 4.6 – сравнение февральских новинок

diffnotes-tech Mar 4 at 11:22

никакую, может от общения с ИИ я и сам стал думать как ИИ)

Люди против нейросетей: как Сэм Альтман обесценивает человеческий интеллект

diffnotes-tech Mar 4 at 11:07

Критикуем Альтмана за впаривание AI и тут же рекламная вставка BotHub на 300к токенов посередине статьи. Ну это прям шедевр)

Пишешь код, а звучит музыка. Как я сделал бесплатную лайвкодинг-платформу для создания музыки с ИИ-агентом

diffnotes-tech Mar 4 at 10:01

Ну то есть схема: просишь AI написать код который генерит музыку, записываешь в WAV и отдаёшь другому AI который тоже генерит музыку. Как переводить с английского на французский через китайский))

Почему AI не может полноценно участвовать в разработке на С++

diffnotes-tech Mar 4 at 06:13

"случайный фрагмент Python-кода со StackOverflow с высокой вероятностью просто запустится" - ну да, запустится. А потом в три ночи в проде тоже запустится но уже по-своему) Проблема не в том что C++ сложный для AI, а в том что мы привыкли к питону где "запустилось = работает"

Я сделал Telegram-бота, который собирает корзину в ВкусВилл по одному сообщению. Вот как это работает

diffnotes-tech Mar 4 at 06:12

"Точность подбора ~90%" - ну то есть каждый десятый товар мимо. Для завтрака на двоих из 5 позиций это каждый второй заказ с сюрпризом)

Gemini 3.1 Pro vs Claude Opus 4.6 – сравнение февральских новинок

diffnotes-tech Mar 3 at 16:27

Гонка LLM уже напоминает рекламу стирального порошка - "теперь на 46% лучше рассуждает!", через две недели конкурент выдаёт "а мы на 52%!". Единственный надёжный бенчмарк - взять и попробовать на своих задачах. Бенчмарки тут как фотки в Тиндере - общее представление дают но сюрпризы гарантированы))

1 2 ...

10 11

Information

Specialization