Comments 5
Проблемы спецификации цели: Существующие методы часто сталкиваются с «неправильной спецификацией целей» и «игрой с функцией вознаграждения». Небольшие ошибки в формулировке целевых показателей могут привести к тому, что ИИ будет достигать высоких наград, нарушая при этом намерения разработчиков.
Совсем как кожаный сотрудник, симулирующий работу и рисующий красивые графики ради премии. AGI уже здесь.
"Традиционно считалось, что большие языковые модели (LLM) работают пошагово, предсказывая каждый следующий токен. Однако новое исследование от Шанхайской ИИ-лаборатории выявило феномен «эмерджентного планирования». Согласно исследованию, внутренние активации, скрытые от пользователей, содержат информацию о глобальных характеристиках ещё не сформированного ответа. "
Они и предсказывают пошагово. Если же речь о том, что предсказания зашиты в весах сетки, то не понятно к чему это. Нейроны, учатся предсказывать значения. В этом весь смысл любой сети. Конечно в слоях будет скрытая информация о локальных и глобальных признаках. И естественно эти признаки предопределяют будущее предложение. Точно так же как это делает человек на основе грамматики например.

Та же ошибка предсказания в нейробиологии (Bastos) или минимизация энергии в работах (Friston). Не понятно, что конкретно они обнаружили и не является ли это, уже давно известным явлением нейронов (неважно искусственных или живых).
Эмерджентное планирование — это, правда, открытие! Некое формирование аттрактора мысли. Надеюсь, все аттракторы ИИ будут в пределах безопасного 🥲
использовали метод «проб» (probes)
Ложные друзья переводчика?
Как ИИ научился читать мысли и чем опасны суперинтеллектуальные агенты: топ-10 исследований ИИ за февраль 2025