Pull to refresh
9
0
Send message

В остаточном потоке трансформеров представлена геометрия состояний их убеждений

Level of difficultyMedium
Reading time15 min
Views1.3K

Какую вычислительную структуру мы встраиваем в LLM, когда обучаем их предсказанию следующего токена? В этом посте мы представляем свидетельство того, что это структура задаётся мета-закономерностями обновления убеждений о скрытых состояниях генерирующего данные процесса.

Читать далее
Total votes 3: ↑3 and ↓0+4
Comments6

Обоснования безопасности: как показать безопасность продвинутого ИИ

Level of difficultyMedium
Reading time77 min
Views526

По мере развития ИИ-систем, компаниям и регулирующим органам придётся принимать сложные решения о том, безопасно ли их обучать и развёртывать. Чтобы к этому подготовиться, мы изучили, как разработчики могут приводить “обоснования безопасности” – то есть, структурировано аргументировать, почему маловероятно, что их ИИ-системы вызовут катастрофу. Мы предлагаем подход к организации обоснований безопасности и обсуждаем четыре категории аргументов: полная неспособность вызвать катастрофу, достаточно сильные меры контроля, убеждённость в добросовестности системы, несмотря на её способность причинить вред и, если ИИ-системы станут куда сильнее, апелляция мнению надёжных ИИ-советников. Мы оценили конкретные примеры аргументов в каждой категории и обрисовали, как их можно комбинировать, чтобы обосновать, что ИИ-система безопасна.

Читать далее
Total votes 3: ↑2 and ↓1+3
Comments1

GPT-2030 и катастрофические стремления — четыре зарисовки

Level of difficultyMedium
Reading time16 min
Views2.4K

Это перевод статьи Якоба Стейнхардта, базирующейся на двух предыдущих, уже переведённых статьях: "Какой будет GPT-2030?" и "Внутренние стремления и внешние злоупотребления — переплетённые риски ИИ".

Я уже писал о способностях, которых можно ожидать от будущих ИИ-систем, на примере GPT2030 – гипотетического наследника GPT-4, обученного в 2030 году. GPT2030 обладала бы весьма продвинутыми способностями, включая сверхчеловеческие навыки программирования, взлома и убеждения, способность думать быстрее людей и быстро обучаться, разделяя информацию между параллельными копиями, и, возможно, другие сверхчеловеческие навыки вроде проектирования белков. Давайте называть “GPT2030++” систему, которая обладает этими способностями и, в дополнение к ним, умеет планировать, принимать решения и моделировать мир не хуже людей. Я использую допущение, что во всём этом мы в какой-то момент достигнем как минимум человеческого уровня.

Ещё я писал о том, как несогласованность, злоупотребления и их комбинация усложняют контроль ИИ-систем. Это относится и к GPT2030. Это тревожит, ведь, получается, нам придётся столкнуться с очень мощными системами, которые будут очень плохо поддаваться контролю.

Меня тревожат суперинтеллектуальные агенты с несогласованными целями и без надёжного метода контроля за ними. Для этого даже не обязательны конкретные сценарии того, что может пойти не так. Но я всё же думаю, что примеры были бы полезны. Поэтому я опишу четыре достаточно конкретных сценария того, как GPT2030++ могла бы привести к катастрофе. Они охватят как несогласованность, так и злоупотребления, и проиллюстрируют некоторые риски экономической конкуренции ИИ-систем. Я буду конкретно обосновывать правдоподобность “катастрофических” исходов – масштаба вымирания, перманентного обессиливания человечества и потери ключевой социальной инфраструктуры.

Читать далее
Total votes 5: ↑2 and ↓3+1
Comments1

Внутренние стремления и внешние злоупотребления — переплетённые риски ИИ

Level of difficultyMedium
Reading time16 min
Views743

С учётом того, насколько они будут способными, будущие ИИ‑системы смогут представлять серьёзные риски для общества. Некоторые из рисков исходят от того, что люди будут использовать ИИ в плохих целях (злоупотребление). А некоторые — от сложности контроля ИИ‑систем, «даже если бы мы пытались» (несогласованность).

В обоих случаях можно провести аналогию с уже существующими рисками. Для злоупотребления можно рассмотреть пример ядерного оружия: массовое производство водородных бомб привело к экзистенциально‑щекотливой ситуации. Если мировой арсенал водородных бомб будет применён в военном конфликте, результатом вполне может стать наше уничтожение. Схожим образом ИИ могут дать странам создать мощное автономное вооружение, ускорить исследования других опасных технологий вроде супервирусов или развернуть массовую слежку и другие формы контроля.

Лучшей аналогией для несогласованности могут стать биология и патогены. При разработке ИИ‑системы адаптируются под обучающие данные, аналогично тому, как биологические организмы адаптируются к своему окружению. Поэтому, в отличие от традиционных технологий, большую часть свойств ИИ обретают не из‑за явного намерения или плана людей. Следовательно, ИИ‑системы могут обладать не предполагавшимися целями или демонстрировать не предполагавшееся поведение, противоречащее желаниям разработчиков. Так что риски несёт даже обучение системы: она может «захотеть» стать сильнее для достижения своих целей и, подобно вирусу, размножиться и создать свои копии. Сдержать такую мятежную систему будет потом сложно.

Читать далее
Total votes 4: ↑3 and ↓1+5
Comments0

Какой будет GPT-2030?

Level of difficultyHard
Reading time31 min
Views6.9K

Это перевод статьи Якоба Стейнхардта, где он описывает и обосновывает свои оценки того, как будут выглядеть языковые модели в 2030 году. Статья подводит базу для ещё двух, в которых он описывает возможные при наличии подобных систем катастрофические сценарии. Их переводы тоже скоро будут выложены.

Способность GPT4 программировать, творчески генерировать идеи, писать письма и делать немало чего ещё много кого удивила. В машинном обучении она в этом не одинока: до неё меня, как и многих способных прогнозистов удивили математические способности Minerva.

Как меньше удивляться при появлении новых ИИ‑разработок? Наш мозг часто совершает прогноз нулевого порядка: смотрит на нынешнее положение дел и добавляет усовершенствования, которые «кажутся осмысленными». Но оценка, что именно «кажется осмысленным», подвержена когнитивным искажениям и будет недооценивать прогресс в столь быстро развивающейся области как машинное обучение. Более эффективный подход — прогнозирование первого порядка: численно оценить историческую скорость прогресса и экстраполировать её вперёд, обращая при этом внимание на возможные причины замедления или ускорения.1

В этом посте я использую этот подход для прогнозирования свойств больших предобученных ИИ в 2030 году. Я дальше буду говорить о «GPT2030». Это гипотетическая система, которая обладает способностями, вычислительными ресурсами и скоростью вывода, которые получатся, если экстраполировать большие языковые модели на 2030 год (но эта система скорее всего будет обучена и в других модальностях, таких как изображения). Чтобы предсказать свойства GPT2030, я рассмотрел много источников информации, включая эмпирические законы масштабирования, прогнозы о будущих вычислительных мощностях и будущей доступности данных, скорость улучшения по конкретным метрикам, скорость вывода нынешних систем и возможные будущие улучшения параллелизма.

Читать далее
Total votes 9: ↑7 and ↓2+8
Comments37

Обзор катастрофических рисков ИИ

Level of difficultyMedium
Reading time126 min
Views8.7K

Это перевод статьи Дэна Хендрикса, Мантаса Мазейки и Томаса Вудсайда из Center for AI Safety. Статья не требует практически никаких предварительных знаний по безопасности ИИ, хотя предполагает некоторый (небольшой) уровень осведомлённости о прогрессе ИИ в последние годы.

Читать далее
Total votes 9: ↑8 and ↓1+10
Comments5

Риски Выученной Оптимизации — 5. Заключение и связанные работы

Level of difficultyHard
Reading time7 min
Views1K

Это – перевод последнего из пяти постов Цепочки «Риски Выученной Оптимизации», основанной на статье «Риски Выученной Оптимизации в Продвинутых Системах Машинного Обучения» за авторством Эвана Хубингера, Криса ван Мервика, Владимира Микулика, Йоара Скалсе и Скотта Гаррабранта. Посты цепочки соответствуют разделам статьи.

Читать далее
Rating0
Comments0

Риски Выученной Оптимизации — 4. Обманчивая Согласованность

Level of difficultyHard
Reading time18 min
Views1.7K

Это перевод четвёртого из пяти постов Цепочки «Риски Выученной Оптимизации», основанной на статье «Риски Выученной Оптимизации в Продвинутых Системах Машинного Обучения» за авторством Эвана Хубингера, Криса ван Мервика, Владимира Микулика, Йоара Скалсе и Скотта Гаррабранта. Посты цепочки соответствуют разделам статьи.

Кажется правдоподобным, что при достаточном обучении в достаточно разнообразных окружениях базовая цель в какой-то момент будет полностью представлена в меса-оптимизаторе. Мы, однако, предполагаем, что это может произойти и без того, чтобы он стал устойчиво согласованным. Конкретнее, меса-оптимизатор может научиться моделировать базовую целевую функцию и учитывать, что если н плохо будет справляться с базовой целью, то базовый оптимизатор его модифицирует.

Если меса-оптимизатор имеет цель, выходящую за пределы обновлений параметров, то он будет иметь стимул избегать модификаций[1], так как он может перестать преследовать ту же цель после модификации (и в результате его нынешняя цель не будет достигнута в будущих итерациях). Это означает, что меса-оптимизатор будет инструментально мотивирован действовать так, будто он оптимизирует базовую целевую функцию, несмотря на то, что его настоящая меса-цель совершенно иная. Мы будем называть это гипотетическое явление обманчивой согласованностью[2]. Обманчивая согласованность – это форма инструментальной прокси-согласованности, так как выполнение базовой цели становится для меса-оптимизатора инструментальным.

Читать далее
Rating0
Comments0

Риски Выученной Оптимизации — 3. Задача Внутреннего Согласования

Level of difficultyHard
Reading time15 min
Views953

Это перевод третьего из пяти постов Цепочки «Риски Выученной Оптимизации», основанной на статье «Риски Выученной Оптимизации в Продвинутых Системах Машинного Обучения» за авторством Эвана Хубингера, Криса ван Мервика, Владимира Микулика, Йоара Скалсе и Скотта Гаррабранта. Посты цепочки соответствуют разделам статьи.

В этом посте мы обрисуем причины считать, что меса-оптимизатор может оптимизировать не ту же целевую функцию, что и его базовый оптимизатор. Машинное обучение даёт контроль над базовой целевой функцией – либо прямым определением функции вознаграждения, либо обучением её модели – но не даёт возможности напрямую определить выработанную меса-оптимизатором меса-цель. Мы называем эту задачу согласования меса-оптимизаторов с базовыми целями задачей внутреннего согласования. Она отделена от задачи внешнего согласования – удостовериться, что базовая цель соответствует намерениям программистов.

Нынешние методы машинного обучения отбирают обученные алгоритмы эмпирически оценивая их работу на наборе обучающих данных согласно базовой целевой функции. Таким образом базовые оптимизаторы отбирают меса-оптимизаторы по их выводам, а не напрямую по меса-целям. Более того, стратегия отобранного меса-оптимизатора должна хорошо работать (по оценке базовой цели) лишь на обучающих данных.Если мы примем предположение, что меса-оптимизатор вычисляет оптимальную стратегию для своей целевой функции, то мы можем описать отношение между базовой и меса- целями следующим образом: (17)

Θ* = argmaxΘ E(ObaseΘ)), где

Читать далее
Total votes 3: ↑2 and ↓1+1
Comments0

Риски Выученной Оптимизации — 2. Условия меса-оптимизации

Level of difficultyHard
Reading time13 min
Views810

Это перевод второго из пяти постов Цепочки «Риски Выученной Оптимизации», основанной на статье «Риски Выученной Оптимизации в Продвинутых Системах Машинного Обучения» за авторством Эвана Хубингера, Криса ван Мервика, Владимира Микулика, Йоара Скалсе и Скотта Гаррабранта. Посты цепочки соответствуют разделам статьи.

В этом посте мы рассмотрим, как на вероятность того, что обучающая система создаст меса-оптимизатор, влияют два её компонента:

Читать далее
Rating0
Comments0

Риски Выученной Оптимизации — 1. Вступление

Level of difficultyHard
Reading time13 min
Views2.3K

Это – перевод первого из пяти постов Цепочки «Риски Выученной Оптимизации», основанной на статье «Риски Выученной Оптимизации в Продвинутых Системах Машинного Обучения» за авторством Эвана Хубингера, Криса ван Мервика, Владимира Микулика, Йоара Скалсе и Скотта Гаррабранта. Посты цепочки соответствуют разделам статьи.

Эван Хубингер, Крис ван Мервик, Владимир Микулик и Йоар Скалсе в равной степени вложились в эту цепочку. Они выражают благодарность Полу Кристиано, Эрику Дрекслеру, Робу Бенсинджеру, Яну Лейке, Рохину Шаху, Вильяму Сандерсу, Бак Шлегерис, Дэвиду Далримпле, Абраму Демски, Стюарту Армстронгу, Линде Линсфорс, Карлу Шульману, Тоби Орду, Кейт Вулвертон и всем остальным, предоставлявшим обратную связь на ранние версии этой цепочки.

Читать далее
Rating0
Comments1

Безопасность СИИ с чистого листа

Level of difficultyMedium
Reading time53 min
Views1.3K

Это перевод доклада Ричарда Нго 2020 года, в котором он обрисовывает самые простые и не требующие предварительных знаний аргументы в пользу того, что разработка ИИ представляет экзистенциальную угрозу.

Читать далее
Total votes 3: ↑2 and ↓1+3
Comments24

Information

Rating
Does not participate
Registered
Activity