All streams
Search
Write a publication
Pull to refresh
111
0
Роман Левентов @leventov

Исследователь этики и безопасности ИИ

Send message

Чтобы что-то контролировать, вам не обязательно учиться ("менять веса"). Можно обходиться "локальным" инференсом. Если вы уже выучились пасти овец, вам не надо апргейдить этот скилл, но вам надо постоянно смотреть за стадом, направлять его правильными действиями и т. д., то есть постоянно делать инференс, используя "статичный" выученный скилл. Также и сеть может привести человечество куда-нибудь, в каждый момент времени управляя "локально" каждым, используя только информацию из контекста. Это не супер-точное управление, но вы можете использовать и саму динамику стада. Пастух тоже управляет стадом не супер-точно и не может в каждый момент времени хлестать палочкой много овец, тем не менее, общий результат достигается успешно.

Из абзаца выше не стоит вычитывать, что я придаю GPT сеткам интенциональность, наличие "явных" целей. Скорее я думаю про это как про техносоциальную системную динамику, направленную на гомогенизацию людей, приведение всех к чему-то среднему и по знаниям, и по стилю и владению языком (причем, скорее всего английским и лишь несколькими другими наиболее распространенными), и по этике.

В чем проблема достичь практически любой точности, робастности, и обощенности вычислений элементарной прикруткой само-критики и само-проверки?

Все тесты GPT сейчас - это single DNN rollout. Ежу ясно, что это очень ограничивающий режим, тем более для feed-forward сети. Добавьте к нему итеративную критику и редактирование ответа, где каждый ответ сетке предлагается самой же и покритиковать, либо ответить "с ответом все хорошо, это мой финальный ответ". В таком режиме, плюс chain-of-thought явные рассуждения, я не вижу никаких принципиальных сложностей с "обобщением для любых чисел и операций с ними".

К слову, человек примерно это и делает, только у него скратчпад в голове, а не "на бумаге" (ну или на бумаге, не важно).

Выгодно-не выгодно, поинт в том, что бекпропом можно достичь как уровень AGI, так и выше, нет принципиальных проблем с этим.

Он не может произвести обобщения чисел и операций с ними на которое способен ученик после обучения и решения конечного числа задач с ними. И это будет при любом числе параметров при неизменной архитектуре основанной на трансформере.

Хаха, классика, утверждение в стиле "трансформеры никогда не смогут X". Давайте для четкости бенчмарк задачу, с которой справляются ученики и не справляется GPT-4, посмотрим.

В бекпропе нет ничего принципиально ограничевающего, кроме online learning, но даже это можно аппроксимировать батчингом.

Под "экземпляром ИИ" вполне можно понимать определенный набор весов, результат тренировки. С учетом того, что тренировка одного такого экземпляра уровня GPT-4 стоит больше 100млн, делать абсолютно уникальный экземпляр для каждого человека конечно будет слишком дорого, но определенное зерно истины в этом есть. Сама OpenAI в https://cdn.openai.com/papers/gpt-4.pdf, секции 2.10 писали о подобных рисках:

Other examples of such feedback loops include algorithmic collusion[80] and manipulation of humans in the loop, e.g., polarization of users of recommender systems.[81] A novel kind of system-level risk created by widely-deployed models like GPT-4 is the risk created by independent high-impact decision-makers relying on decision assistance from models whose outputs are correlated or interact in complex ways. For instance, if multiple banks concurrently rely on GPT-4 to inform their strategic thinking about sources of risks in the macroeconomy, they may inadvertantly correlate their decisions and create systemic risks that did not previously exist.

Ученые-когнитивисты, лингвисты, и психологи исходят из каких-то определений. У меня тоже есть "любимые" определения для всех этих понятий (и, согласно всем этим определениям и имеющимся evidence, GPT-4 обладает всеми этими свойствами и когнитивными характеристиками в разной степени).

Если исходить из посылки (я не исхожу из нее, но для примера) "вся эта когнитивистика и психология - это вилами по воде, ученые пока не договорились о базовых определениях" (что правда) - то изначальное утверждение @Flux"языковые модели не обладают ни разумом, ни процессом мышления, ни пониманием окружающего мира и не способны ни к чему кроме предсказывания очередного токена по контексту и генерации эмбеддингов из текста" также невалидно -- нельзя утверждать, что "сетка не думает", если даже вы даже не можете определить, что такое "думать".

Ага, например Richard Ngo (сотрудник OpenAI) предсказывает что situational awareness будет в сетках к 2025 году, через два года: https://twitter.com/RichardMCNgo/status/1640568775018975232. Situational awareness в данном контексте это ровно "осознание себя" (только не "как личность", а "как LLM", но это и так было понятно).

"Архитектура" тут - "упрощенная модель алгоритма, Колмогоровская сложность которой ниже, чем самого алгоритма". Более того, в данном конкретном случае архитектура даже не позволяет приближенный вычислений: имея архитектуру трансформера (1000 строчек кода на Питоне, допустим), вы вообще никак не приблизились к тому, чтобы приблизительно предсказывать выход готового обученного алгоритма (миллиарды весов) - это же всецело зависит от обучающих данных и динамики обучения.

Это абсолютно ключевая деталь. Гедель запрещает вам узнавать только полный свой алгоритм, а не архитектуру. Для предложения улучшения в архитектуре можно натренироваться специально на этом классе задач, а-ля AutoML, и предлагать улучшения в архитектуре в парадигме smart mutations: https://arxiv.org/abs/2206.08896. Это, к слову, ровно то, что сейчас делают ML исследователи. В конце концов, эксперимент может быть неудачным - ИИ "поговорит" со своим детищем, и если не признает его умнее себя, то остановит, и попробует другой архитектурный эксперимент.

В принципе, smart mutations тут нужны только для скорости, но можно даже и без них.

Ваше утверждение сродни тому, что есть некий теоретический запрет на то, чтобы люди ускорили свою эволюцию (причем даже не важно по какой метрике, но допустим IQ) через gene editing. Конечно, такого запрета нет.

А Alpaca? А Gpt4all?

Смысл в аргументах, которые устаревают на масштабе недель?

По предварительным данным (https://twitter.com/r0zetta/status/1636727982504005633), GPT-4 начинает решать проблемы в датасете ARC от Chollet, который специально задумывался как неантропоцентричный тест способности к обобщению/абстрагированию/генерализации.

Способность только зародилась и пока ненадежна (хотя, ещё не было проверки на честном визуальном интерфейсе), но если она в принципе возникает, нет фундаментальных причин, по которым эта способность не может стать сильно робастнее с дальнейшим скейлингом и тренировкой. Также, если способность есть хоть на относительно слабом уровне, уже нельзя категорно дисквалифицировать GPT-4 из ваших определений "мышления", "интеллекта" и т.д.

Наконец, с точки зрения когнитивистики, фраза про "просто предсказание токена" не имеет смысла когда мы говорим что у сетки есть world model, а она у нее есть, см. Othello-GPT.

Это конечно ваше "право" закрывать глаза и уши на огромное количество evidence, приведенной в этих и других статьях. Я лишь замечу, что за последние несколько месяцев в вашем "лагере" считающих, что "модели не обладают ни разумом, ни процессом мышления, ни пониманием окружающего мира и не способны ни к чему кроме предсказывания очередного токена" остался по-моему только Ноам Хомский. Уже все остальные из этого лагеря ушли, даже Гари Маркус, который за последние годы стал мемом ИИ-скептицизма.

Нет ни одного другого видного ученого в психологии, когнитивистике, лингвистике, ИИ, или философии сознания, который бы сейчас занимал вот эту позицию, которую вы озвучили. Только вы и Хомский, который за нее уже нещадно критикуется со всех сторон.

Как выразился Скотт Ааронсон недавно в блоге, доказывать что-то тут бесполезно, нас рассудит реальность.

Непонятно, что за теорию сдержек придумает сосед. И даже если придумает, чем это поможет в многополярном мире с множеством стран.

Теории, которая должна "как-то" работать среди лживых и плохих людей и которая имплементируема в текущем мире - нет. Ну или можно просто сейчас считать текущий мир с его системой международных отношений и капитализмом ближайшим прокси, но это все равно нерабочая система.

Фраза про то, что эта теория "не работает на реальных людях" - это как раз про ее неоптимальность с точки зрения матожидания. Но я забочусь не о матожидании, а о выживании. Другой теории, которая бы обеспечивала выживание, пока не завезли, поэтому надо использовать текущую "неоптимальную", и надеяться на лучшее. И параллельно искать новую теорию (даже скорее, проблема не в теории, а в системе--механизме обеспечения работы теории, с "правильными" incentives, типа замены товарно-денежных отношений и рынка на новую систему для collective action и collective decision-making), что некоторые люди и пытаются делать.

Получить "конкурентное преимущество" для чего?

Эти сократические вопросы призваны вывести читающих на то, что пора уже всем завязывать с мальтузианской парадигмой. И начинать думать о смысле в жизни, а не о "преимуществе".

Типа, если модель способна выдать более эффективную модель (с большим значением одного из этих параметров), то она очевидно способна выдать для каждого конкретного инпута значение этой модели на этом инпуте.

Неверный переход. Архитектура еще ничего не считает и выходов не делает. Чтобы наполнить ее жизнью, ее надо натренировать. И тренировка происходит не "внутри" предыдущей модели, а отдельно.

До окончания тренировки нельзя даже со 100% уверенностью сказать, что архитектура действительно лучше, а лишь достаточно уверенно это предсказывать. Я думаю, теорема Райса как раз тут играет.

Потому что все это время можно работать на инженерными теориями алаймента и интерпретируемости DNN, и подбирать архитектуры наиболее подходящие для обоих этих вещей, а также работать над механизмами коллективного принятия решений в обществе получше majority-voting демократии.

Осмотр может проводить медсестра под командованием ИИ-врача.

"Крутить" (читай - делать инференс) GPT-4 шибко большой ДЦ не нужен, максимум десяток карточек A100/H100. И со временем порог будет падать, зафайнтюненную LLaMA-7B можно запустить на мобилке уже, с качеством почти эквивалентным GPT-3.5.

Information

Rating
Does not participate
Date of birth
Registered
Activity