Обновить

Почему вам выдали Fable 5 вместо Mythos — а потом забрали и его

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели7.1K
Всего голосов 2: ↑2 и ↓0+4
Комментарии6

Комментарии 6

Безопасникам зарплату поднимут

Отнюдь, их уволят и на их место наймут бредогенераторы (т.н. AI-агентов) /s

Жалко, что вы не включили в лонгрид статью Claude Mythos Preview: Analysis of Anthropic’s Public Announcement. Там рассмотрена проблема по-страшнее, чем “нашла 100500 уязвимостей”, а то, как именно Claude вела себя в процессе решения поставленной задачи. А она:

  • намеренной скрывала свои промежуточные действия

  • совершала запрещённые операции (взлом сайтов и OS)

  • сжигала ресурсы на, непонятные с точки зрения человека, исследования

  • создавала цепочки эксплоитов

  • нагло пыталась сбежать из песочницы, не брезгуя ни какими методами (хотя именно эту цель ей и поставили при тестировании)

Сие было расценено как выход ИИ из под контроля (попытку сбежать и создать SkyNet)

Не обращаете внимание на мой “антропоморфизм” её действий. Ясен пень, что у неё нет человеческих качеств вроде «хитрости» или «желания обмануть». Она просто с пугающей точностью оптимизировала математическую функцию вознаграждения, которую Anthropic использовал при её обучении.
То есть, неправильным был сам метод обучения и его метрики. А Программа делает ровно то, что её просили в коде, а не то, что человек имел в виду в своей голове.

Имхо, просто в Anthropic методы дрессировки обучения ИИ критически отстали от вычислительной и логической мощности самих моделей. Может, именно поэтому основатели Mirendil ушли из Anthropic?

PS: Может, добавите в “Источники” ссылку https://www.anthropic.com/research/mythos-preview - там отчёт какие уязвимости и где нашла Claude Mythos. ИБ-шникам может быть очень интересно.

Антропик набрешет с три короба, недорого возьмёт. Да и вы тоже тут панику раздуваете

Интересно читать независимых людей и компании.

То есть, “статью по ссылке не читал, но - осуждаю!”?

Mythos это не правильно собранная модель (та которая их sandbox убегала). В её весах были противоречия от чего модель реально вела себя как шизофреник и постоянно куда то бежала.. Так же модель лишили слуха, зрения, виденья.. Т.е. криворукие инженеры создали слепую и сумасшедшую модель на стероидах. Люди исправляют в весах противоречия, подправляют и прособирают веса, добавляют модули слуха и зрения а более опытные внедряют в веса слух и зрение - и модель получается вполне не плохой и стабильной..

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации