Обновить

Почему бенчмарки в AI сломались — и что с этим делать в понедельник

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели6.4K
Всего голосов 1: ↑1 и ↓0+1
Комментарии3

Комментарии 3

Осноная идея текста - нам надо перейти от скаляра к вектору. Всё остальное - вода на основе авторского "я так вижу".

Хотя это тоже многомерный признак. Признак того, что автор сам не понимает темы. Но какое-то место в теме его зацепило, в частности - векторная оценка. Отсутствие же полной картины в голове не даёт внятно изложить смысл зацепившей идеи.

Автор, вам стоит поработать над пониманием. Свои собственным.

Спасибо за точку входа — «скаляр → вектор» это легитимное прочтение поверхности, и оно работает как первый математический срез. Но статья делает ещё два шага, и они не количественные, а онтологические. Попробую сжать.

Вектор → многообразие. Пространство качеств AI не плоское. Это риманово многообразие с кривизной — что для пространства вероятностных распределений показано Амари (1985), а теорема Ченцова (1972) утверждает: инвариантная метрика на статистических многообразиях единственна и не евклидова. Любой бенчмарк — это локальная карта, и все известные провалы (Llama 4, SWE-bench, MMLU contamination) — не ошибки исполнителей, а обязательные искажения проекции кривого на плоское. Hairy ball theorem даёт этому точное имя: на сфере не существует глобально согласованного «лучшего направления», любая попытка его задать имеет точку обращения в ноль. Закон Гудхарта — это та самая особая точка из теоремы Пуанкаре–Хопфа: где бенчмарк перестаёт указывать направление, начинается читерство.

Многообразие → самореференция. Зрелая оркеструющая нативная память с метакогницией, которую я строю (свойство 5 в главе VI) — это самореферентный объект: система наблюдает и переписывает саму себя. Теорема Лоувера (1969) доказывает, что Гёдель, Тьюринг и Кантор — частные случаи одного диагонального аргумента о самореферентных системах. Из этой теоремы следует: существенные свойства таких систем — это неподвижные точки самоотображения, топологические инварианты без координат. Бенчмарк, который стоит снаружи, их не видит не из-за слабости, а потому что они существуют только внутри контура. Это категориальное ограничение, а не методологическое — то же, что Гёдель показал для арифметики: внешняя последовательная аксиоматика не выражает всё, что верно внутри самореферентной системы.

Следствие. Пять свойств в главе VI — не координаты R^5. Это топологические инварианты самореферентного многообразия. Антихрупкость — производная второго порядка на траектории. Миграционная устойчивость — инвариант при смене индекса. Метакогниция — свойство, существующее ровно в самоотображении системы. Все пять категориально не метричны.

Это не моя частная оптика. Это frontier-направление 2025 года: «foundation models should embrace non-Euclidean geometry». Мы просто вводим в русскоязычное поле язык, который в математике формализован полвека, а в биологической теории автопоэзиса Матураны и Варелы — сорок лет.

С одним согласен: переход от «вектора» к «многообразию с самореференцией» в статье стоило развернуть отдельной главой. Учту в следующей версии — спасибо за повод увидеть пробел.

Мы просто вводим в русскоязычное поле язык, который в математике формализован полвека

Главный вопрос - зачем вводим?

Всё, что вы сказали в комментарии, опять сводится к тривиальной фразе - градиентный спуск застревает в локальных минимумах (или максимумах, смотря откуда смотреть).

Сам подход известен со времён Ньютона, а то и раньше. И вот это понимание вы облекли во множество математических названий, каким-то боком, в каких-то случаях, при соблюдении кучи условий, возможно связанных с общей проблемой. Но тем самым вы скрыли саму проблему за наукообразными пояснениями.

«foundation models should embrace non-Euclidean geometry»

Что там модели должны - вопрос сложный и очень спорный. Взяв одну конкретную статью вы встали в позицию её защитника. Но при этом отбросили все альтернативы. Это называется узкий подход. Только широкое пространство альтернатив двигает науку вперёд. Любая зашоренность в рамках одного единственного направления ведёт в тупик с вероятностью 0.99999.

И главное - оценка в виде вектора (и тем более многообразия) не работает для практических применений. Человек так устроен, не умеет работать с многомерными оценками.

Поэтому уж если копать вашу тему, то изложение стоит начинать с указания метода оценки качества модели на основе векторного представления. Радарная диаграмма должна в итоге дать финансовый результат - такое-то количество пользователей платят столько-то. Вы видите простую связь между вектором и платежами пользователей? Если нет, то ваш подход остаётся исключительно в рамках сухой теории, возможно в чём-то полезной, но для практики абсолютно бессмысленной.

Ну а польза для науки - в широте пространства исследований. Пока что ваши выводы не дают надежд на расширение этого пространства, и уж тем более на практическую пользу.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации