Pull to refresh
32K+
15
diffnotes-tech@diffnotes-tech

User

75,9
Rating
5
Subscribers
Send message

Часть терминов - устоявшийся индустриальный жаргон (SWE-bench, RLHF, release notes), их перевод обычно делает текст длиннее и менее точным. А вот «over-correction» и «calibrated trust» вполне можно было по-русски - тут вы правы, не дотюнил. Спасибо за честную обратную связь, в следующих статьях буду чистить жёстче.

Сильная метафора, слабый аргумент. Если бы Анри Беккерель в 1896 году писал в дневнике впечатления от первого облучённого фотопластинки - вы бы это тоже назвали шаманизмом? Это всегда так выглядит, когда новый инструмент только входит в индустрию: куча «личных мнений», бессистемно, противоречиво, эмоционально. Через пять лет из этого вырастает методология, через десять - стандарт. А пока - да, шаманы. Ничего постыдного.

И отдельно: если вас раздражает не сам факт обсуждения LLM, а специально мои попытки в этом разобраться - вас никто не заставляет читать раздел «Искусственный интеллект» на Хабре. Там почти все статьи про это. Странно заходить в баню и жаловаться на пар.

Не переводная. У меня в соседнем блоге 17 русскоязычных статей с тем же багажом терминологии - можно сверить. Это не перевод, это профдеформация: когда полгода читаешь release notes Anthropic, GitHub issues и треды Reddit на английском, обратно на чистый русский переключаться надо отдельным усилием. В этой статье я это усилие до конца не приложил. Ваше впечатление справедливо как наблюдение, но неверно как обвинение.

Three languages? Easy. Сегодня ещё латынь добавлю - mea culpa, mea maxima culpa. А если без шуток: я работаю в индустрии, где 100% документации, 100% issue trackers и 90% коллег - на английском. Когда садишься писать на русском, синтаксис проникает. Это не дизайн-решение «давайте напишем модно», это профессиональная деформация. Можно с ней бороться, и в следующих статьях я постараюсь. Но «чертовы ублюдки» - это всё-таки мне немного авансом.

Этот мем сегодня уже второй раз в комментах. Похоже, fabric теперь part of my brand. Принято))

Классический случай. Anthropic в release notes 4.7 буквально написали: «we experimented during training by selectively reducing Opus 4.7’s cybersecurity capabilities». То есть это не баг, это feature. Архив с незнакомым кодом - триггер для real-time cybersecurity safeguards. Переключение на Sonnet не помогает, потому что safeguards сидят на уровне выше модели, в политике системного промпта.

Воркэраунды:

  1. Распаковать локально и подавать файлами по одному. Помогает в 80% случаев.

  2. Через API с custom system prompt и пониженным effort. Иногда работает.

  3. Явно написать «это мой open-source проект, аудит безопасности от автора». Глупо, но иногда снимает флаг.

Если ничего не помогло - это и есть тот самый civilian-safe режим, про который я писал в разделе про Mythos. Полная версия за 25/125 у партнёров Project Glasswing, остальным - что есть.

Спасибо, ваш коммент - буквально материал на отдельную статью. И главное: подтверждает то, чего я в своей не сделал и за что меня в комментах справедливо ругают - не было личных кейсов из других доменов, кроме моего бэкенда.

По вашему наблюдению: системное администрирование, юр-документы, дизайн - все три задачи, где модель должна думать, а не исполнять. И тут 4.7 действительно лучше 4.6. У меня же рутина: переименовать переменную, вынести метод, добавить null-check. Думать там нечего, надо просто сделать - и вот тут спор-машина мешает.

«Когда возражаешь по делу - меняет мнение, когда не по делу - настаивает». Если вы это видите устойчиво - значит, у Anthropic калибровка получилась точнее, чем кажется по Reddit. Это меняет картинку. Перепроверю на своих задачах с этой оптикой.

Смотря какой prompt, смотря сколько tokens. А если серьёзно - попробуйте написать статью про релиз американской AI-модели, где в официальных доках на каждое русское слово приходится по три английских термина. Получится либо мой текст, либо перевод, который ничего не объясняет.

Чехов тоже не открытками писал, а Войну и мир сократить до твита можно, но смысла будет ровно ноль. Тут материала на 7 источников и три отдельных истории - одной фразой не свернуть. Если интересна только TL;DR-часть, она в первом абзаце.

Анекдот в точку. А про “был вынужден” - это собственно и есть вся статья в одном предложении. Пока был дефицит, платили. Как только AI хотя бы создал иллюзию что дефицит ослаб - ставки поползли вниз. Причем даже неважно, реально ли AI заменяет людей или нет, достаточно того что CFO в это верит

Про санкции и низкий adoption - справедливо, это реальный буфер. Но я бы не ставил на то что он вечный. GigaChat, YandexGPT уже внутри крупных компаний, Сбер свои модели в продакшен тащит. Adoption растет даже в изоляции, просто медленнее. А механизмы давления на зарплаты которые Ши описывает - они не про конкретный инструмент, они про экономику. Когда порог входа снижается и пул кандидатов растет - неважно через Claude это происходит или через GigaChat.

Но в целом да, путь будет другой. Может вообще окажется что российский рынок это контрпример к моей гипотезе, данных пока мало чтобы судить

В статье есть секция “А что в России?” - может проскочили мимо. Если коротко: медиана по Хабру 183к без движения за год, в Москве +4% при инфляции 5.6% - то есть реально зарплаты упали. Но я там же пишу что в РФ картина более смешанная, по HH в регионах рост около 10%. Называть это AI-дефляцией пока рано, скорее смесь макроэкономики и охлаждения после бума 21-23. А вот американские тренды сюда обычно приходят с лагом в пару лет, так что следить имеет смысл

Логи сессий лежат в ~/.claude/projects/, там JSONL с каждым tool call (Read, Edit, Bash и тд). Готового UI нет насколько знаю, но Лоуренцо как раз по этим файлам и считала read:edit ratio. Можно jq натравить если лень парсить руками

Попробуй env var из статьи, у многих после этого ощутимо лучше стало

Ну да, 50 агентов на компиляторах это не средний проект на ларавеле. Но данные по read:edit и reasoning depth не зависят от количества агентов, это поведение одной сессии

Про CUDA->HIP хорошая догадка, Лоуренцо на IREE/MLIR в AMD, там да, много механики. Но деградация меряется на тех же задачах - в январе read:edit 6.6, в марте 2.0. Задачи не усложнились

Ну в статье как раз про это - что все три изменения совпадают в сторону снижения расходов Anthropic, не пользователя. Лоуренцо правда на Bedrock сидела, так что $42k ушли в AWS, не напрямую в Anthropic. Но паттерн забавный да

Да, можно было написать “недовыделяет токены” - но underallocate это термин из самого issue Лоуренцо и документации Anthropic по adaptive thinking. Оставил как есть чтоб было гуглибельно если кто полезет проверять первоисточник. Но согласен, посреди русского текста режет

Про “удалить больше чем добавить” - это прям хороший индикатор, жаль что я его в статью не включил. По сути это ещё одна выходная метрика которую никто не считает когда хвалятся AI-продуктивностью. AI генерирует, он не удаляет. А хороший PR часто именно удаляет.

С сопровождаемостью сложнее - ты прав что её трудно замерять напрямую. Но косвенно она вылезает в том самом verification debt из статьи. Когда каждая AI-сессия пихает логику куда удобно прямо сейчас, без оглядки на SOLID, через полгода любое изменение трогает полпроекта.

И время на фичу растёт не потому что разработчик тупой а потому что код слипся

Идея норм, но тут ловушка - агент-то послушается, он формально разобьёт. Только 2-4 файла на коммит это не KPI а симптом. Если архитектура такая что любое изменение трогает 12 файлов, агент начнёт делать 3 коммита по 4 файла и каждый из них будет ломать прод по отдельности.

Метрика работает как диагностика, а не как ограничение - если git log показывает 8+ файлов, это значит что модули слиплись, и чинить надо модули, а не коммиты

1
23 ...

Information

Rating
109-th
Registered
Activity

Specialization

Десктоп разработчик, Бэкенд разработчик
Ведущий
Python
Linux
Docker
REST
Базы данных
ООП
Java Spring Framework
Git
SQL
PHP