andre_dataist Mar 13 at 08:30

Как ИИ научился читать мысли и чем опасны суперинтеллектуальные агенты: топ-10 исследований ИИ за февраль 2025

Medium

23 min

Artificial IntelligenceMachine learning *

Review

Comments 5

wtigga Mar 13 at 09:46

Проблемы спецификации цели: Существующие методы часто сталкиваются с «неправильной спецификацией целей» и «игрой с функцией вознаграждения». Небольшие ошибки в формулировке целевых показателей могут привести к тому, что ИИ будет достигать высоких наград, нарушая при этом намерения разработчиков.

Совсем как кожаный сотрудник, симулирующий работу и рисующий красивые графики ради премии. AGI уже здесь.

proxy3d Mar 13 at 14:11

"Традиционно считалось, что большие языковые модели (LLM) работают пошагово, предсказывая каждый следующий токен. Однако новое исследование от Шанхайской ИИ-лаборатории выявило феномен «эмерджентного планирования». Согласно исследованию, внутренние активации, скрытые от пользователей, содержат информацию о глобальных характеристиках ещё не сформированного ответа. "

Они и предсказывают пошагово. Если же речь о том, что предсказания зашиты в весах сетки, то не понятно к чему это. Нейроны, учатся предсказывать значения. В этом весь смысл любой сети. Конечно в слоях будет скрытая информация о локальных и глобальных признаках. И естественно эти признаки предопределяют будущее предложение. Точно так же как это делает человек на основе грамматики например.

Та же ошибка предсказания в нейробиологии (Bastos) или минимизация энергии в работах (Friston). Не понятно, что конкретно они обнаружили и не является ли это, уже давно известным явлением нейронов (неважно искусственных или живых).

turivny Mar 14 at 06:06

Эмерджентное планирование — это, правда, открытие! Некое формирование аттрактора мысли. Надеюсь, все аттракторы ИИ будут в пределах безопасного 🥲

firehacker Mar 14 at 10:00

использовали метод «проб» (probes)

Ложные друзья переводчика?

andre_dataist Mar 14 at 10:54

Хорошее замечание. думал как правильно перевести термин: зонды или пробы. В итоге обновил статью, оставив только «небольшие нейросети, обученные анализировать скрытые состояния модели»