diffnotes-tech Apr 29 at 17:05

Я просил Claude перестать мне льстить. 16 апреля получил. Беру свои слова назад

Easy

9 min

12K

Artificial IntelligenceProgramming * Machine learning * Development Management *

Analytics

-2

Comments 26

greenglaz Apr 29 at 17:11

Краткость - сестра и даже иногда брат …

diffnotes-tech Apr 30 at 06:41

Чехов тоже не открытками писал, а Войну и мир сократить до твита можно, но смысла будет ровно ноль. Тут материала на 7 источников и три отдельных истории - одной фразой не свернуть. Если интересна только TL;DR-часть, она в первом абзаце.

dejecher Apr 30 at 08:55

"На краю дороги стоял дуб. Вероятно, в десять раз старше берёз, составлявших лес, он был в десять раз толще и в два раза выше каждой берёзы."

Только вот Лев Николаевич получал гонорары на основе количества написанных букв. В частности за Войну и Мир он получил 25 тыс рублей серебром.. Причем не исключено, что это был уже финальный рассчет - выкуп авторских прав по завершении всей работы (плюс 10% с продаж) - сейчас это примерно 1.5 млн евро.

Но солнышко русской литературы обладал поистине бульдожьей деловой хваткой, и в период написания романа, с 1863 по 1869 год. он требовал приличных авансов и оплаты за каждый сданный отрывок текста (опять-же оплата за объем ~~кода~~ текста) - есть мнение, что эти суммы не являются частью тех 25 тыс серебряных рублей

Но да - можно и подсократить - да я уже подсократил - цитата в самом начале содержит все самоей важное что есть в романе

UFO landed and left these words here

dejecher Apr 30 at 09:17

ошибаетесь - данное объяснение придумано для того, чтобы не наводить тени на солнышко.

UFO landed and left these words here

AndreyDwin Apr 29 at 17:23

Уважаемый, вы бы не могли писать текст на каком-нибудь одном языке? Без обид, но реально тяжело читать.

DepMSK Apr 30 at 03:19

Смотря какой fabric, смотря сколько details...

diffnotes-tech Apr 30 at 06:42

Смотря какой prompt, смотря сколько tokens. А если серьёзно - попробуйте написать статью про релиз американской AI-модели, где в официальных доках на каждое русское слово приходится по три английских термина. Получится либо мой текст, либо перевод, который ничего не объясняет.

diffnotes-tech Apr 30 at 06:49

Часть терминов - устоявшийся индустриальный жаргон (SWE-bench, RLHF, release notes), их перевод обычно делает текст длиннее и менее точным. А вот «over-correction» и «calibrated trust» вполне можно было по-русски - тут вы правы, не дотюнил. Спасибо за честную обратную связь, в следующих статьях буду чистить жёстче.

aborouhin Apr 29 at 17:29

Работаю с Opus 4.7 ежедневно с момента выхода, доволен:

По кодингу особых изменений не заметил (но им удаётся заниматься гораздо реже, чем хотелось бы).
Системное администрирование (затеял большие изменения и реализую потихоньку) - отлично, мои косяки ловит чётко, рецепты даёт правильные, копает глубоко. Единственное, что уж слишком гонит лошадей, сразу давая и инструкции для диагностики проблемы, и все возможные способы её решить во всех вариантах. Но тут не кодинг, на таких задачах лимиты не сожрёшь, так что пусть.
Работа с документами и анализ данных - отлично, в юридической рутине очень помогает. И вот тут как раз самый большой процент галлюцинаций был исторически, но Opus 4.7 удерживается от них прямо рекордно хорошо.
Claude Design - сделал простенький сайтик, пару печатных каталогов, визитки и прочую мелочь, - просто прекрасно (ещё и токены не жрёт пока вообще).

По балансу лесть / упёртость - мне нравится. Когда возражаешь по делу - меняет мнение, когда не по делу - настаивает. Умеет предложить альтернативу, не упомянутую в ТЗ. Чисто субъективно с Opus 4.6 было сложнее, чаще приходилось очищать контекст и начинать с чистого листа, если модель заносит не туда (в т.ч. и благодаря моим не вполне корректным инструкциям).

diffnotes-tech Apr 30 at 06:42

Спасибо, ваш коммент - буквально материал на отдельную статью. И главное: подтверждает то, чего я в своей не сделал и за что меня в комментах справедливо ругают - не было личных кейсов из других доменов, кроме моего бэкенда.

По вашему наблюдению: системное администрирование, юр-документы, дизайн - все три задачи, где модель должна думать, а не исполнять. И тут 4.7 действительно лучше 4.6. У меня же рутина: переименовать переменную, вынести метод, добавить null-check. Думать там нечего, надо просто сделать - и вот тут спор-машина мешает.

«Когда возражаешь по делу - меняет мнение, когда не по делу - настаивает». Если вы это видите устойчиво - значит, у Anthropic калибровка получилась точнее, чем кажется по Reddit. Это меняет картинку. Перепроверю на своих задачах с этой оптикой.

dejecher Apr 30 at 08:57

вот я тоже хотел сказать - мы наверное какими-то разными клодами пользуемся. Правда у меня есть нбанс - я пользуюсь и клодом и джемини одновременно... ну в смысле для меня это выглядит как "одновременно". Так что да - я тоже не заметил разницы. Ну заметил, что токены в последние пару недель стали расходоваться очень интенсивно, но сильно сомневаюсь, что этот апгрейд тут сиграл какую-то роль

aborouhin Apr 30 at 11:03

Если мы не про оплату за API, а про расходование лимитов подписки, то усиленный жор этих лимитов у Клода начался за неделю-другую до запуска версии 4.7. Шринкфляция, что поделаешь...

Foreststander Apr 29 at 17:41

У меня 4.7 в чате отказалась читать загруженное архивом репо (мое), "потому, что оно подозрительное", и уверила, что не будет этого делать ни в каком случае. Потом сказало, что оно не будет продолжать этот диалог, потому, что нарушает terms of use, но можно переключится на Sonnet (не помогло)

diffnotes-tech Apr 30 at 06:43

Классический случай. Anthropic в release notes 4.7 буквально написали: «we experimented during training by selectively reducing Opus 4.7’s cybersecurity capabilities». То есть это не баг, это feature. Архив с незнакомым кодом - триггер для real-time cybersecurity safeguards. Переключение на Sonnet не помогает, потому что safeguards сидят на уровне выше модели, в политике системного промпта.

Воркэраунды:

Распаковать локально и подавать файлами по одному. Помогает в 80% случаев.
Через API с custom system prompt и пониженным effort. Иногда работает.
Явно написать «это мой open-source проект, аудит безопасности от автора». Глупо, но иногда снимает флаг.

Если ничего не помогло - это и есть тот самый civilian-safe режим, про который я писал в разделе про Mythos. Полная версия за 125 у партнёров Project Glasswing, остальным - что есть.

morginalium8 Apr 29 at 19:13

Смотря какой fabric, смотря сколько details =)

diffnotes-tech Apr 30 at 06:44

Этот мем сегодня уже второй раз в комментах. Похоже, fabric теперь part of my brand. Принято))

supercargo Apr 29 at 20:02

чертовы ублюдки, да они издеваются - теперь в каждой фразе по два языка используют. а три сможете?

diffnotes-tech Apr 30 at 06:44

Three languages? Easy. Сегодня ещё латынь добавлю - mea culpa, mea maxima culpa. А если без шуток: я работаю в индустрии, где 100% документации, 100% issue trackers и 90% коллег - на английском. Когда садишься писать на русском, синтаксис проникает. Это не дизайн-решение «давайте напишем модно», это профессиональная деформация. Можно с ней бороться, и в следующих статьях я постараюсь. Но «чертовы ублюдки» - это всё-таки мне немного авансом.

AppCrafter Apr 30 at 00:12

такое впечатление, что это переводная статья, наши авторы так не пишут!))

diffnotes-tech Apr 30 at 06:45

Не переводная. У меня в соседнем блоге 17 русскоязычных статей с тем же багажом терминологии - можно сверить. Это не перевод, это профдеформация: когда полгода читаешь release notes Anthropic, GitHub issues и треды Reddit на английском, обратно на чистый русский переключаться надо отдельным усилием. В этой статье я это усилие до конца не приложил. Ваше впечатление справедливо как наблюдение, но неверно как обвинение.

arielf Apr 30 at 01:14

Знаете на что похожи все эти сотни "личных мнений" про "новую версию LLM"?

Некий фентезийный мир. Могучий волшебник в тёмном замке сочинил новое заклинание, и местячковые шаманы, молящиеся грому и молнии, с энтузиазмом кинулись обсуждать его и делиться своими впечатлениями. Мерзко и противно.

diffnotes-tech Apr 30 at 06:46

Сильная метафора, слабый аргумент. Если бы Анри Беккерель в 1896 году писал в дневнике впечатления от первого облучённого фотопластинки - вы бы это тоже назвали шаманизмом? Это всегда так выглядит, когда новый инструмент только входит в индустрию: куча «личных мнений», бессистемно, противоречиво, эмоционально. Через пять лет из этого вырастает методология, через десять - стандарт. А пока - да, шаманы. Ничего постыдного.

И отдельно: если вас раздражает не сам факт обсуждения LLM, а специально мои попытки в этом разобраться - вас никто не заставляет читать раздел «Искусственный интеллект» на Хабре. Там почти все статьи про это. Странно заходить в баню и жаловаться на пар.

arielf Apr 30 at 20:32

Со времён Ренессанса наука уже не была шаманизмом. И уж тем более в конце XIX века. Были ошибочные гипотезы, были верные гипотезы, но это уже не был слепой перебор.

Но и это ещё не всё. В отличие от природы, которую создали не мы, и которую нам нужно изучить, LLM является инструментом, созданным человеком. Цель любого инструмента -- это облегчение и упрощение жизни. И обязательное непременное свойство любого инструмента -- это чёткое и предсказуемое поведение. Иначе, это уже не инструмент, а шаманизм в плохом смысле, и он ничем не отличается от волшебной палочки из сказок, чей результат совершенно или почти не предсказуем. Вместо того, чтобы совершенствоваться как профессионалы, многие теперь соревнуются в умении писать промты. Это не шаг вперёд, это возвращение в Средние Века.

Машинное обучение -- хорошая технология при анализе больших объёмов информации и выявлении закономерностей. В распозновании образов, звуков, поиске новой физики в ускорителях или новых белков. Но все эти "виртуальные ассистенты", не говоря уже о "виртуальных работниках" -- не более, чем антинаучная и антиинженерная чушь.

Ни в коей мере ваши попытки меня не возмущают. Ибо их вообще не читал и смысла не вижу. Меня возмущает их количество и их уровень: вся нулевая в этих "личных мнениях" про новые заклинания. Меня возмущает этот искренний щенячий восторг перед статистическими генераторами: "Оно говорит со мной! Оно мне отвечает! Оно живое!"

UFO landed and left these words here