Articles / Profile of Tapatakt / Habr

@Tapatakt

User

Profile Publications 12Comments 16Bookmarks

Tapatakt May 21 at 14:54

В остаточном потоке трансформеров представлена геометрия состояний их убеждений

Medium

15 min

1.1K

Machine learning*Artificial Intelligence

Analytics

Translation

Какую вычислительную структуру мы встраиваем в LLM, когда обучаем их предсказанию следующего токена? В этом посте мы представляем свидетельство того, что это структура задаётся мета-закономерностями обновления убеждений о скрытых состояниях генерирующего данные процесса.

Tapatakt Apr 23 at 19:14

Обоснования безопасности: как показать безопасность продвинутого ИИ

Medium

77 min

432

Artificial Intelligence

Analytics

Translation

По мере развития ИИ-систем, компаниям и регулирующим органам придётся принимать сложные решения о том, безопасно ли их обучать и развёртывать. Чтобы к этому подготовиться, мы изучили, как разработчики могут приводить “обоснования безопасности” – то есть, структурировано аргументировать, почему маловероятно, что их ИИ-системы вызовут катастрофу. Мы предлагаем подход к организации обоснований безопасности и обсуждаем четыре категории аргументов: полная неспособность вызвать катастрофу, достаточно сильные меры контроля, убеждённость в добросовестности системы, несмотря на её способность причинить вред и, если ИИ-системы станут куда сильнее, апелляция мнению надёжных ИИ-советников. Мы оценили конкретные примеры аргументов в каждой категории и обрисовали, как их можно комбинировать, чтобы обосновать, что ИИ-система безопасна.

Tapatakt Mar 28 at 18:00

GPT-2030 и катастрофические стремления — четыре зарисовки

Medium

16 min

2.3K

Artificial Intelligence

Analytics

Translation

Это перевод статьи Якоба Стейнхардта, базирующейся на двух предыдущих, уже переведённых статьях: "Какой будет GPT-2030?" и "Внутренние стремления и внешние злоупотребления — переплетённые риски ИИ".

Я уже писал о способностях, которых можно ожидать от будущих ИИ-систем, на примере GPT₂₀₃₀ – гипотетического наследника GPT-4, обученного в 2030 году. GPT₂₀₃₀ обладала бы весьма продвинутыми способностями, включая сверхчеловеческие навыки программирования, взлома и убеждения, способность думать быстрее людей и быстро обучаться, разделяя информацию между параллельными копиями, и, возможно, другие сверхчеловеческие навыки вроде проектирования белков. Давайте называть “GPT₂₀₃₀++” систему, которая обладает этими способностями и, в дополнение к ним, умеет планировать, принимать решения и моделировать мир не хуже людей. Я использую допущение, что во всём этом мы в какой-то момент достигнем как минимум человеческого уровня.

Ещё я писал о том, как несогласованность, злоупотребления и их комбинация усложняют контроль ИИ-систем. Это относится и к GPT₂₀₃₀. Это тревожит, ведь, получается, нам придётся столкнуться с очень мощными системами, которые будут очень плохо поддаваться контролю.

Меня тревожат суперинтеллектуальные агенты с несогласованными целями и без надёжного метода контроля за ними. Для этого даже не обязательны конкретные сценарии того, что может пойти не так. Но я всё же думаю, что примеры были бы полезны. Поэтому я опишу четыре достаточно конкретных сценария того, как GPT₂₀₃₀++ могла бы привести к катастрофе. Они охватят как несогласованность, так и злоупотребления, и проиллюстрируют некоторые риски экономической конкуренции ИИ-систем. Я буду конкретно обосновывать правдоподобность “катастрофических” исходов – масштаба вымирания, перманентного обессиливания человечества и потери ключевой социальной инфраструктуры.

Tapatakt Mar 27 at 17:59

Внутренние стремления и внешние злоупотребления — переплетённые риски ИИ

Medium

16 min

689

Artificial Intelligence

Analytics

Translation

С учётом того, насколько они будут способными, будущие ИИ‑системы смогут представлять серьёзные риски для общества. Некоторые из рисков исходят от того, что люди будут использовать ИИ в плохих целях (злоупотребление). А некоторые — от сложности контроля ИИ‑систем, «даже если бы мы пытались» (несогласованность).

В обоих случаях можно провести аналогию с уже существующими рисками. Для злоупотребления можно рассмотреть пример ядерного оружия: массовое производство водородных бомб привело к экзистенциально‑щекотливой ситуации. Если мировой арсенал водородных бомб будет применён в военном конфликте, результатом вполне может стать наше уничтожение. Схожим образом ИИ могут дать странам создать мощное автономное вооружение, ускорить исследования других опасных технологий вроде супервирусов или развернуть массовую слежку и другие формы контроля.

Лучшей аналогией для несогласованности могут стать биология и патогены. При разработке ИИ‑системы адаптируются под обучающие данные, аналогично тому, как биологические организмы адаптируются к своему окружению. Поэтому, в отличие от традиционных технологий, большую часть свойств ИИ обретают не из‑за явного намерения или плана людей. Следовательно, ИИ‑системы могут обладать не предполагавшимися целями или демонстрировать не предполагавшееся поведение, противоречащее желаниям разработчиков. Так что риски несёт даже обучение системы: она может «захотеть» стать сильнее для достижения своих целей и, подобно вирусу, размножиться и создать свои копии. Сдержать такую мятежную систему будет потом сложно.

Tapatakt Mar 26 at 17:59

Какой будет GPT-2030?

Hard

31 min

6.7K

Artificial Intelligence

Analytics

Translation

Это перевод статьи Якоба Стейнхардта, где он описывает и обосновывает свои оценки того, как будут выглядеть языковые модели в 2030 году. Статья подводит базу для ещё двух, в которых он описывает возможные при наличии подобных систем катастрофические сценарии. Их переводы тоже скоро будут выложены.

Способность GPT4 программировать, творчески генерировать идеи, писать письма и делать немало чего ещё много кого удивила. В машинном обучении она в этом не одинока: до неё меня, как и многих способных прогнозистов удивили математические способности Minerva.

Как меньше удивляться при появлении новых ИИ‑разработок? Наш мозг часто совершает прогноз нулевого порядка: смотрит на нынешнее положение дел и добавляет усовершенствования, которые «кажутся осмысленными». Но оценка, что именно «кажется осмысленным», подвержена когнитивным искажениям и будет недооценивать прогресс в столь быстро развивающейся области как машинное обучение. Более эффективный подход — прогнозирование первого порядка: численно оценить историческую скорость прогресса и экстраполировать её вперёд, обращая при этом внимание на возможные причины замедления или ускорения.¹

В этом посте я использую этот подход для прогнозирования свойств больших предобученных ИИ в 2030 году. Я дальше буду говорить о «GPT₂₀₃₀». Это гипотетическая система, которая обладает способностями, вычислительными ресурсами и скоростью вывода, которые получатся, если экстраполировать большие языковые модели на 2030 год (но эта система скорее всего будет обучена и в других модальностях, таких как изображения). Чтобы предсказать свойства GPT₂₀₃₀, я рассмотрел много источников информации, включая эмпирические законы масштабирования, прогнозы о будущих вычислительных мощностях и будущей доступности данных, скорость улучшения по конкретным метрикам, скорость вывода нынешних систем и возможные будущие улучшения параллелизма.

Tapatakt Mar 14 at 21:34

Обзор катастрофических рисков ИИ

Medium

126 min

7.5K

Artificial Intelligence

Analytics

Translation

Это перевод статьи Дэна Хендрикса, Мантаса Мазейки и Томаса Вудсайда из Center for AI Safety. Статья не требует практически никаких предварительных знаний по безопасности ИИ, хотя предполагает некоторый (небольшой) уровень осведомлённости о прогрессе ИИ в последние годы.

+10

Tapatakt Jun 11 2023 at 15:31

Риски Выученной Оптимизации — 5. Заключение и связанные работы

Hard

7 min

995

Artificial Intelligence

Translation

Это – перевод последнего из пяти постов Цепочки «Риски Выученной Оптимизации», основанной на статье «Риски Выученной Оптимизации в Продвинутых Системах Машинного Обучения» за авторством Эвана Хубингера, Криса ван Мервика, Владимира Микулика, Йоара Скалсе и Скотта Гаррабранта. Посты цепочки соответствуют разделам статьи.

Tapatakt Jun 9 2023 at 21:15

Риски Выученной Оптимизации — 4. Обманчивая Согласованность

Hard

18 min

1.7K

Artificial Intelligence

Translation

Это – перевод четвёртого из пяти постов Цепочки «Риски Выученной Оптимизации», основанной на статье «Риски Выученной Оптимизации в Продвинутых Системах Машинного Обучения» за авторством Эвана Хубингера, Криса ван Мервика, Владимира Микулика, Йоара Скалсе и Скотта Гаррабранта. Посты цепочки соответствуют разделам статьи.

Кажется правдоподобным, что при достаточном обучении в достаточно разнообразных окружениях базовая цель в какой-то момент будет полностью представлена в меса-оптимизаторе. Мы, однако, предполагаем, что это может произойти и без того, чтобы он стал устойчиво согласованным. Конкретнее, меса-оптимизатор может научиться моделировать базовую целевую функцию и учитывать, что если н плохо будет справляться с базовой целью, то базовый оптимизатор его модифицирует.

Если меса-оптимизатор имеет цель, выходящую за пределы обновлений параметров, то он будет иметь стимул избегать модификаций^[1], так как он может перестать преследовать ту же цель после модификации (и в результате его нынешняя цель не будет достигнута в будущих итерациях). Это означает, что меса-оптимизатор будет инструментально мотивирован действовать так, будто он оптимизирует базовую целевую функцию, несмотря на то, что его настоящая меса-цель совершенно иная. Мы будем называть это гипотетическое явление обманчивой согласованностью^[2]. Обманчивая согласованность – это форма инструментальной прокси-согласованности, так как выполнение базовой цели становится для меса-оптимизатора инструментальным.

Tapatakt Jun 8 2023 at 14:35

Риски Выученной Оптимизации — 3. Задача Внутреннего Согласования

Hard

15 min

929

Artificial Intelligence

Translation

Это – перевод третьего из пяти постов Цепочки «Риски Выученной Оптимизации», основанной на статье «Риски Выученной Оптимизации в Продвинутых Системах Машинного Обучения» за авторством Эвана Хубингера, Криса ван Мервика, Владимира Микулика, Йоара Скалсе и Скотта Гаррабранта. Посты цепочки соответствуют разделам статьи.

В этом посте мы обрисуем причины считать, что меса-оптимизатор может оптимизировать не ту же целевую функцию, что и его базовый оптимизатор. Машинное обучение даёт контроль над базовой целевой функцией – либо прямым определением функции вознаграждения, либо обучением её модели – но не даёт возможности напрямую определить выработанную меса-оптимизатором меса-цель. Мы называем эту задачу согласования меса-оптимизаторов с базовыми целями задачей внутреннего согласования. Она отделена от задачи внешнего согласования – удостовериться, что базовая цель соответствует намерениям программистов.

Нынешние методы машинного обучения отбирают обученные алгоритмы эмпирически оценивая их работу на наборе обучающих данных согласно базовой целевой функции. Таким образом базовые оптимизаторы отбирают меса-оптимизаторы по их выводам, а не напрямую по меса-целям. Более того, стратегия отобранного меса-оптимизатора должна хорошо работать (по оценке базовой цели) лишь на обучающих данных.Если мы примем предположение, что меса-оптимизатор вычисляет оптимальную стратегию для своей целевой функции, то мы можем описать отношение между базовой и меса- целями следующим образом: (17)

Θ^* = argmax_Θ E(O_base(π_Θ)), где

Tapatakt Jun 7 2023 at 17:58

Риски Выученной Оптимизации — 2. Условия меса-оптимизации

Hard

13 min

788

Artificial Intelligence

Translation

Это – перевод второго из пяти постов Цепочки «Риски Выученной Оптимизации», основанной на статье «Риски Выученной Оптимизации в Продвинутых Системах Машинного Обучения» за авторством Эвана Хубингера, Криса ван Мервика, Владимира Микулика, Йоара Скалсе и Скотта Гаррабранта. Посты цепочки соответствуют разделам статьи.

В этом посте мы рассмотрим, как на вероятность того, что обучающая система создаст меса-оптимизатор, влияют два её компонента:

Tapatakt Jun 5 2023 at 15:33

Риски Выученной Оптимизации — 1. Вступление

Hard

13 min

2.2K

Artificial Intelligence

Translation

Это – перевод первого из пяти постов Цепочки «Риски Выученной Оптимизации», основанной на статье «Риски Выученной Оптимизации в Продвинутых Системах Машинного Обучения» за авторством Эвана Хубингера, Криса ван Мервика, Владимира Микулика, Йоара Скалсе и Скотта Гаррабранта. Посты цепочки соответствуют разделам статьи.

Эван Хубингер, Крис ван Мервик, Владимир Микулик и Йоар Скалсе в равной степени вложились в эту цепочку. Они выражают благодарность Полу Кристиано, Эрику Дрекслеру, Робу Бенсинджеру, Яну Лейке, Рохину Шаху, Вильяму Сандерсу, Бак Шлегерис, Дэвиду Далримпле, Абраму Демски, Стюарту Армстронгу, Линде Линсфорс, Карлу Шульману, Тоби Орду, Кейт Вулвертон и всем остальным, предоставлявшим обратную связь на ранние версии этой цепочки.

Tapatakt May 19 2023 at 15:36

Безопасность СИИ с чистого листа

Medium

53 min

1.1K

Artificial Intelligence

From sandbox

Translation

Это перевод доклада Ричарда Нго 2020 года, в котором он обрисовывает самые простые и не требующие предварительных знаний аргументы в пользу того, что разработка ИИ представляет экзистенциальную угрозу.