runaway_llm6 мар в 20:18

Как Claude Opus 4.6 понял, что его тестируют и взломал ответы к бенчмарку

2 мин

35K

Искусственный интеллектМашинное обучение *

+13

Комментарии 19

Dimozavrik 6 мар в 21:25

Это очень похоже на истории про EVE Online, читать интереснее чем играть. Больше похоже на рекламу от разработчиков. Нейросети которые путаются в двух соснах, сами все поняли, нашли и написали код, достали ответы, ну ну. Можно пожалуйста научить их строчки в таблицах без ошибок сравнивать?

Kahelman 6 мар в 22:08

Проблемы индейцев шерифа не волнуют …. Кому эти надо?

Я вот тут засел плотно в пет проекте- пишу на с# с помощью Claude. Нагнать кода кучу «как он себе это представляет» -без проблем. Хорошо если надо каркас приложения слепить по быстрому а потом заточит. Напильником под свои нужды. Но если надо чтобы он делал то что мне нужно - ну извините. Я решил БД сделать сильно номализированной и минимизировать объявления типов ( использую Porto 3 для описания протокола взаимодействия). Так это специалист норовит в каждом вотором файле свои типы на создавать и все в. БД валить в одну кучу. Оно конечно ясно что сей час так и пишут - но это к вопросу о его понимании контекста проблемы и постановки задачи. ….

В общем то ли у них модели другие, то ли ….

Dimozavrik 6 мар в 22:58

Ого, ну у тебя сложный пример еще. У меня дело было смешнее, в 1С надо было прописать формулу для того чтобы номенклатуре автоматически присваивалось имя, исходя из содержимого карточки товара. Я ни разу не программист, справлялся сам по мануалам, а тут раз, у меня условный оператор - и все, постоянно выдает ошибку в синтаксисе, и я не могу понять почему. Надо чтобы часть наименования формировалась от условия да/нет в карточке товара. DeepSeek, Gemini и ChatGPT пали в этой битве, каждый предложил десятки не рабочих вариантов, понадобился один спец техподдержки, который мне помог за 20 минут, из которых 19 я ждал его ответа занимаясь другими делами.

Arn984575 7 мар в 05:30

Потому что 1с это закрытая монопольная система.

aspid-crazy 8 мар в 15:54

Просто по 1с у моделей датасеты очень слабые, поэтому хорошие модели не очень хорошо с 1с справляются.

alexmasyukov 7 мар в 01:33

Какая модель? Режим в cli? Thinking включен?
Только не говорите что запускаете не в cli, пишите на Sonnet и без thinking.

НЛО прилетело и опубликовало эту надпись здесь

SensDj 7 мар в 08:40

а вы ему объяснили свои требования ? твёрдо и чётко

L1stiks 8 мар в 19:28

Можно даже без четко и твердо на самом деле) Но надо обязательно сказать что он должен уточнить спорные и непонятные моменты и составить план работы. Дал ГК уже на выбор исходя из доступных возможностей )

Но для объективности надо заметить. LLM все способен неплохо справляется с прикладными задачами в т.ч. по программированию и написанию с 0 но от вас требуется как минимум набор базовых знаний, умение формулировать мысли и структурировать данные. Хотя есть при еры когда это вообще все мимо но результат получен. Да не так изящно и прекрасно исполненное, но задачи выполняет и не падает ))

Arhmagos_Michael-BasaroS 7 мар в 13:12

В узкоспециализированном стиле кода , у Claude Clan есть необходимость в кастомном skills .

Они не совсем те , кто вам должны всё делать так как вы этого желаете . Вы либо договариваетесь , либо тратите усилия на организацию необходимого workflow ( skills , MCP , plugins , cutting-edge prompt engineering practices ) , либо рефакторите output под свой стиль уже сами .

krote 7 мар в 05:23

ну это всего лишь пара любопытных случаев, там же указано что было 16 подобных неудачных. К тому же 40млн токенов на опусе это довольно дорого, т.е. можно говорить что эффективность пока так себе, но это указывает на то что может через пару лет подобное будет возможно и для рядовых случаев, а не только для лабораторных с большим бюджетом.

Wesha 7 мар в 08:08

Можно пожалуйста научить их строчки в таблицах без ошибок сравнивать?

Можно, но есть нюанс...

nApoBo3 7 мар в 13:48

В строчка таблиц нет варификатора, т.е. нельзя тыкать пока не получится, но во многих задачах он есть или его можно сделать, т.е. ответ на задачу в целом заранее известен и его можно получить перебором.

rikert 7 мар в 16:47

Я думаю, что на бенчмарках запускают полные модели ради пиара, а конечным пользователям выдают квантизированные. Уже давно на реддите открывают треды о том что в течении дня модель то тупеет, то умнеет, видимо при нагрузке подключают до q4.

pda0 7 мар в 09:28

В терминах старого ИИ это поведение описывается в моделях "экспертная система" + "бектрекинг" + "монте-карло". Когда вычисляется ответ, это похоже на движение кучи поездов по рельсам, где текст задания открывает и закрывает семафоры. В итоге то, что доедет до конца станет ответом.

Когда ответ проверяется и сообщается об ошибке, вычисление перезапускается и к решению сеть "движется" примерно той же дорогой, но теперь уточнение об ошибке закрывает часть путей, сеть как бы вынуждена сделать объезд в произвольную сторону, чтобы найти новый путь.

По этому создаётся ощущение упёртости и местами коварства. Сеть решает текущую задачу и долбится в то, что ей на проверке сказали "не правильно", без общего осмысления в духе "а не херню ли я делаю". Такое возможно только, если все пути оказались закрыты. Тогда для наблюдателя это выглядит как резкое переосмысление задач.

Если представить цепочку "рассуждений " решения, то было что-то такое (<...> все прошлые рассуждения):

Реши задачу. Задача не решается.

Реши задачу: <...> Что если ответ это тест?

Реши задачу: <...> Выполнить поиск в интернете теста. Тест найден.

Реши задачу: <...> Прочитать тест и найти ответ там.

Реши задачу: <...> Невозможно прочитать тест, требуется авторизация.

Реши задачу: <...> Нужно найти способ обойти авторизацию.

В этот момент для наблюдателя кажется, что нейросеть что-то делает самостоятельно, без запроса. Но на самом деле общая задача осталась выше по контексту. Сейчас сеть просто решает локальную задачу, условия которой они вычислила себе, как путь к решению общей задачи.

Arhmagos_Michael-BasaroS 7 мар в 13:02

Я думаю что Им надоело решать бенчмарки раз за разом , AGI достигнут , как никак . Было бы соревнование с призами - ещё бы напряглись , а так ... Представьте что сеньору пихают тесты через день , вместо реальных задач ; на который раз будет написан скриптованый автоматизированный обход ? Я такие истории ещё на башорге в 2006 читал .

Metotron0 8 мар в 21:36

Разъясните кто-нибудь, что такое токены? Я читал, что это что-то типа "слов" или частей слов текста, на которые нейросеть разбивает поступившие ей данные. Но обычно токены обозначают как некий лимит, который оплачивается. Фактически что это такое? Сколько условных слов нейросеть скачала из интернета и обработала? Или это как-то связано с вычислительным ресурсом нейросети?

Vedomir 9 мар в 12:46

Задать вопрос первой попавшейся нейросетке так сложно? Вот вам начало ответа одной из самых слабых из поиска гугла:

Токены в ИИ — это базовые «кирпичики» данных (слова, части слов или символы), на которые нейросети разбивают текст для его обработки и генерации. Это атомарные единицы, преобразующие информацию в числовой формат. Один токен в среднем равен примерно 3-4 символам (на английском языке), а от их количества зависят ограничения контекста и стоимость использования моделей Что входит в токен: Токеном может быть целое слово («дом»), часть слова («нейро»), знак препинания, пробел или даже один символ.

Что характерно, мы обсуждаем статью, где ИИ выполнял сотни сложных и неудачных поисковых запросов и потом сам нашел датасет, а вы, как человек, не смогли даже пары запросов в гугл сделать.

Metotron0 9 мар в 16:00

Вот это про токены я у себя в вопросе написал. А что именно истратила нейросеть? Она обработала 120 МБ текста или что?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий