Search
Write a publication
Pull to refresh

Comments 5

Проблемы спецификации цели: Существующие методы часто сталкиваются с «неправильной спецификацией целей» и «игрой с функцией вознаграждения». Небольшие ошибки в формулировке целевых показателей могут привести к тому, что ИИ будет достигать высоких наград, нарушая при этом намерения разработчиков.

Совсем как кожаный сотрудник, симулирующий работу и рисующий красивые графики ради премии. AGI уже здесь.

"Традиционно считалось, что большие языковые модели (LLM) работают пошагово, предсказывая каждый следующий токен. Однако новое исследование от Шанхайской ИИ-лаборатории выявило феномен «эмерджентного планирования». Согласно исследованию, внутренние активации, скрытые от пользователей, содержат информацию о глобальных характеристиках ещё не сформированного ответа. "

Они и предсказывают пошагово. Если же речь о том, что предсказания зашиты в весах сетки, то не понятно к чему это. Нейроны, учатся предсказывать значения. В этом весь смысл любой сети. Конечно в слоях будет скрытая информация о локальных и глобальных признаках. И естественно эти признаки предопределяют будущее предложение. Точно так же как это делает человек на основе грамматики например.

https://t.me/greenruff/2152

Та же ошибка предсказания в нейробиологии (Bastos) или минимизация энергии в работах (Friston). Не понятно, что конкретно они обнаружили и не является ли это, уже давно известным явлением нейронов (неважно искусственных или живых).

Эмерджентное планирование — это, правда, открытие! Некое формирование аттрактора мысли. Надеюсь, все аттракторы ИИ будут в пределах безопасного 🥲

использовали метод «проб» (probes)

Ложные друзья переводчика?

Хорошее замечание. думал как правильно перевести термин: зонды или пробы. В итоге обновил статью, оставив только «небольшие нейросети, обученные анализировать скрытые состояния модели» 

Sign up to leave a comment.

Articles