Pull to refresh

Comments 21

Краткость - сестра и даже иногда брат …

Чехов тоже не открытками писал, а Войну и мир сократить до твита можно, но смысла будет ровно ноль. Тут материала на 7 источников и три отдельных истории - одной фразой не свернуть. Если интересна только TL;DR-часть, она в первом абзаце.

"На краю дороги стоял дуб. Вероятно, в десять раз старше берёз, составлявших лес, он был в десять раз толще и в два раза выше каждой берёзы."

Только вот Лев Николаевич получал гонорары на основе количества написанных букв. В частности за Войну и Мир он получил 25 тыс рублей серебром.. Причем не исключено, что это был уже финальный рассчет - выкуп авторских прав по завершении всей работы (плюс 10% с продаж) - сейчас это примерно 1.5 млн евро.

Но солнышко русской литературы обладал поистине бульдожьей деловой хваткой, и в период написания романа, с 1863 по 1869 год. он требовал приличных авансов и оплаты за каждый сданный отрывок текста (опять-же оплата за объем кода текста) - есть мнение, что эти суммы не являются частью тех 25 тыс серебряных рублей

Но да - можно и подсократить - да я уже подсократил - цитата в самом начале содержит все самоей важное что есть в романе

Всё так, но бульдожьей деловой хваткой обладала Софья Андреевна, а не само солнышко.

ошибаетесь - данное объяснение придумано для того, чтобы не наводить тени на солнышко.

Угу, и знаменитую Creative Common Like лицензию придумал не Толстой 9 марта 1891 года, а Достоевский в концлагере.

У вас там как, земля всё еще плоская, или уже есть подвижки?

Уважаемый, вы бы не могли писать текст на каком-нибудь одном языке? Без обид, но реально тяжело читать.

Смотря какой fabric, смотря сколько details...

Смотря какой prompt, смотря сколько tokens. А если серьёзно - попробуйте написать статью про релиз американской AI-модели, где в официальных доках на каждое русское слово приходится по три английских термина. Получится либо мой текст, либо перевод, который ничего не объясняет.

Часть терминов - устоявшийся индустриальный жаргон (SWE-bench, RLHF, release notes), их перевод обычно делает текст длиннее и менее точным. А вот «over-correction» и «calibrated trust» вполне можно было по-русски - тут вы правы, не дотюнил. Спасибо за честную обратную связь, в следующих статьях буду чистить жёстче.

Работаю с Opus 4.7 ежедневно с момента выхода, доволен:

  • По кодингу особых изменений не заметил (но им удаётся заниматься гораздо реже, чем хотелось бы).

  • Системное администрирование (затеял большие изменения и реализую потихоньку) - отлично, мои косяки ловит чётко, рецепты даёт правильные, копает глубоко. Единственное, что уж слишком гонит лошадей, сразу давая и инструкции для диагностики проблемы, и все возможные способы её решить во всех вариантах. Но тут не кодинг, на таких задачах лимиты не сожрёшь, так что пусть.

  • Работа с документами и анализ данных - отлично, в юридической рутине очень помогает. И вот тут как раз самый большой процент галлюцинаций был исторически, но Opus 4.7 удерживается от них прямо рекордно хорошо.

  • Claude Design - сделал простенький сайтик, пару печатных каталогов, визитки и прочую мелочь, - просто прекрасно (ещё и токены не жрёт пока вообще).

По балансу лесть / упёртость - мне нравится. Когда возражаешь по делу - меняет мнение, когда не по делу - настаивает. Умеет предложить альтернативу, не упомянутую в ТЗ. Чисто субъективно с Opus 4.6 было сложнее, чаще приходилось очищать контекст и начинать с чистого листа, если модель заносит не туда (в т.ч. и благодаря моим не вполне корректным инструкциям).

Спасибо, ваш коммент - буквально материал на отдельную статью. И главное: подтверждает то, чего я в своей не сделал и за что меня в комментах справедливо ругают - не было личных кейсов из других доменов, кроме моего бэкенда.

По вашему наблюдению: системное администрирование, юр-документы, дизайн - все три задачи, где модель должна думать, а не исполнять. И тут 4.7 действительно лучше 4.6. У меня же рутина: переименовать переменную, вынести метод, добавить null-check. Думать там нечего, надо просто сделать - и вот тут спор-машина мешает.

«Когда возражаешь по делу - меняет мнение, когда не по делу - настаивает». Если вы это видите устойчиво - значит, у Anthropic калибровка получилась точнее, чем кажется по Reddit. Это меняет картинку. Перепроверю на своих задачах с этой оптикой.

вот я тоже хотел сказать - мы наверное какими-то разными клодами пользуемся. Правда у меня есть нбанс - я пользуюсь и клодом и джемини одновременно... ну в смысле для меня это выглядит как "одновременно". Так что да - я тоже не заметил разницы. Ну заметил, что токены в последние пару недель стали расходоваться очень интенсивно, но сильно сомневаюсь, что этот апгрейд тут сиграл какую-то роль

Если мы не про оплату за API, а про расходование лимитов подписки, то усиленный жор этих лимитов у Клода начался за неделю-другую до запуска версии 4.7. Шринкфляция, что поделаешь...

У меня 4.7 в чате отказалась читать загруженное архивом репо (мое), "потому, что оно подозрительное", и уверила, что не будет этого делать ни в каком случае. Потом сказало, что оно не будет продолжать этот диалог, потому, что нарушает terms of use, но можно переключится на Sonnet (не помогло)

Классический случай. Anthropic в release notes 4.7 буквально написали: «we experimented during training by selectively reducing Opus 4.7’s cybersecurity capabilities». То есть это не баг, это feature. Архив с незнакомым кодом - триггер для real-time cybersecurity safeguards. Переключение на Sonnet не помогает, потому что safeguards сидят на уровне выше модели, в политике системного промпта.

Воркэраунды:

  1. Распаковать локально и подавать файлами по одному. Помогает в 80% случаев.

  2. Через API с custom system prompt и пониженным effort. Иногда работает.

  3. Явно написать «это мой open-source проект, аудит безопасности от автора». Глупо, но иногда снимает флаг.

Если ничего не помогло - это и есть тот самый civilian-safe режим, про который я писал в разделе про Mythos. Полная версия за 25/125 у партнёров Project Glasswing, остальным - что есть.

Смотря какой fabric, смотря сколько details =)

Этот мем сегодня уже второй раз в комментах. Похоже, fabric теперь part of my brand. Принято))

чертовы ублюдки, да они издеваются - теперь в каждой фразе по два языка используют. а три сможете?

Three languages? Easy. Сегодня ещё латынь добавлю - mea culpa, mea maxima culpa. А если без шуток: я работаю в индустрии, где 100% документации, 100% issue trackers и 90% коллег - на английском. Когда садишься писать на русском, синтаксис проникает. Это не дизайн-решение «давайте напишем модно», это профессиональная деформация. Можно с ней бороться, и в следующих статьях я постараюсь. Но «чертовы ублюдки» - это всё-таки мне немного авансом.

такое впечатление, что это переводная статья, наши авторы так не пишут!))

Не переводная. У меня в соседнем блоге 17 русскоязычных статей с тем же багажом терминологии - можно сверить. Это не перевод, это профдеформация: когда полгода читаешь release notes Anthropic, GitHub issues и треды Reddit на английском, обратно на чистый русский переключаться надо отдельным усилием. В этой статье я это усилие до конца не приложил. Ваше впечатление справедливо как наблюдение, но неверно как обвинение.

Знаете на что похожи все эти сотни "личных мнений" про "новую версию LLM"?

Некий фентезийный мир. Могучий волшебник в тёмном замке сочинил новое заклинание, и местячковые шаманы, молящиеся грому и молнии, с энтузиазмом кинулись обсуждать его и делиться своими впечатлениями. Мерзко и противно.

Сильная метафора, слабый аргумент. Если бы Анри Беккерель в 1896 году писал в дневнике впечатления от первого облучённого фотопластинки - вы бы это тоже назвали шаманизмом? Это всегда так выглядит, когда новый инструмент только входит в индустрию: куча «личных мнений», бессистемно, противоречиво, эмоционально. Через пять лет из этого вырастает методология, через десять - стандарт. А пока - да, шаманы. Ничего постыдного.

И отдельно: если вас раздражает не сам факт обсуждения LLM, а специально мои попытки в этом разобраться - вас никто не заставляет читать раздел «Искусственный интеллект» на Хабре. Там почти все статьи про это. Странно заходить в баню и жаловаться на пар.

Со времён Ренессанса наука уже не была шаманизмом. И уж тем более в конце XIX века. Были ошибочные гипотезы, были верные гипотезы, но это уже не был слепой перебор.

Но и это ещё не всё. В отличие от природы, которую создали не мы, и которую нам нужно изучить, LLM является инструментом, созданным человеком. Цель любого инструмента -- это облегчение и упрощение жизни. И обязательное непременное свойство любого инструмента -- это чёткое и предсказуемое поведение. Иначе, это уже не инструмент, а шаманизм в плохом смысле, и он ничем не отличается от волшебной палочки из сказок, чей результат совершенно или почти не предсказуем. Вместо того, чтобы совершенствоваться как профессионалы, многие теперь соревнуются в умении писать промты. Это не шаг вперёд, это возвращение в Средние Века.

Машинное обучение -- хорошая технология при анализе больших объёмов информации и выявлении закономерностей. В распозновании образов, звуков, поиске новой физики в ускорителях или новых белков. Но все эти "виртуальные ассистенты", не говоря уже о "виртуальных работниках" -- не более, чем антинаучная и антиинженерная чушь.

Ни в коей мере ваши попытки меня не возмущают. Ибо их вообще не читал и смысла не вижу. Меня возмущает их количество и их уровень: вся нулевая в этих "личных мнениях" про новые заклинания. Меня возмущает этот искренний щенячий восторг перед статистическими генераторами: "Оно говорит со мной! Оно мне отвечает! Оно живое!"

Но один вывод уже понятен: промпты, написанные как разговор с коллегой, постепенно перестают работать. Их придётся писать как ТЗ.

О, да!

Инсайд, прозрение, гениально!
Эй, погодите-ка! Да это трава! Мы всё это время ели траву!
Эй, погодите-ка! Да это трава! Мы всё это время ели траву!
Sign up to leave a comment.

Articles