Pull to refresh
3
0.1
Иван Ильющенко @ivan_ilushenko

ML engineer

Send message

Если не хотите лазить по статьям, то вот краткий ответ: трансформерные нейронные сети (к которым относятся и большие языковые модели, например ChatGPT) обсчитывают каждое слово (на самом деле токен, что является частью слова, изображения или другой сущности, но для простоты пусть будет слово) с помощью последовательных матричных умножений.

Но в языке важен контекст, в котором это слово стоит, поэтому при обработке каждого слова классический трансформер "ходит" за информацией к каждому другому слову.

Этот механизм и называется вниманием, или attention, т.е. слово обрабатывается с обращением внимания на все остальные слова в контексте. Поскольку в классическом трансформере используется внимание "каждый-с-каждым", то вычислительная сложность растет квадратично от длины контекста. Вдобавок там еще и квадратичные требования по памяти из-за операции softmax, т.к. всю матрицу n*n надо держать в памяти.

Длинный контекст позволяет делать многие крутые вещи, которые не позволяет короткий контекст, например сеть с длинным контекстом можно попросить прочитать большую статью и объяснить ее. Поэтому львиная доля работ по трансформерным архитектурам направлено на повышение эффективности механизма внимания за счет снижения его качества. Усилия направлены на то, чтобы эффективность повысить как можно сильнее, а в качестве проиграть как можно меньше.

Количество людей, "предназначенных" для IT (по складу ума и характера) вряд ли сильно изменилось. Поэтому "перехерачить" выпускников инфоцыганских курсов для таких кандидатов не сильно сложно.

Другое дело, что пройти HR-фильтр практически нереально, там тебя не заметят в огромном потоке кандидатов. Так что залезть в IT можно джуном, но надо пробивать место на собеседование самому, через знакомства.

Модели могут поражать воображение своими ответами на довольно сложные вопросы, и ровно эти же модели могут поражать воображения абсолютно идиотскими ошибками, которые человек никогда не совершит.

Вот буквально, сейчас она рассуждает о теории разума, следующим запросом фейлится на задачке вида "в комнате было 4 свечи, 3 свечи задули, сколько в комнате осталось свечей?"

Подсовываешь фотографию автомобиля и спрашиваешь что это, она распишет про эту марку и ее характеристики абсолютно все. Поменяешь один пиксель, и модель становится уверенной, что смотрит на банан.

Это прямо следует из того факта, что человек и модель получают и обрабатывают информацию принципиально разными способами, см. adversarial attacks.

Устранимо ли это простым увеличением размеров модели и качества данных? Не знаю, время покажет. Может сказаться, что и нет. На сегодняшний день атакам подвержены все модели, вне зависимости от размера.

Будете ли вы доверять такой модели ключевые и ответственные решения? Кажется, что нет.

Ключевая разница между МЛ моделями и человеком: модель не умеет адекватно экстраполировать. Она не способна сделать какой-либо вывод на данных, выходящих за пределы обучающей выборки. Т.е. если модель учить на данных, сгенерированных предыдущими поколениями моделей, то модель деградирует.

Человек, учащийся на данных, сгенерированных предыдущими поколениями людей, развивается.

Появится ли это свойство при увеличении размеров моделей еще на три порядка? Хз, поглядим. Может быть это и будет ключевым свойством AGI.

По вычислительным ресурсам тоже вопрос - мы не знаем, как долго мы можем увеличивать наши вычислительные возможности и сколько их потребует AGI.

Может так случиться, что не хватит. Или это будет планетарный AGI в единственном экземпляре.

При дообучении огромной модели после каждого инференс запроса много инженерных трудностей. Это как с колонией на Марсе - теоретически вроде хоть сейчас, но на практике надо прорву денег, пока не получится и по срокам тоже хз.

Как по мне, слишком много неопределенностей для прогноза "AGI к концу десятилетия".

Мы полетели не из-за эмерджентности, а из-за качественного и радикального изменения подхода к выживанию (относительно муравьев).

По поводу прогнозирования тоже поспорю - на момент появления трансформеров в 2017 году никто и не догадывался, какими свойствами могут обладать 175B трансформеры, обученные на триллионах токенов.

Однако попытка масштабировать те же конволюционные сети до условно 100B ни к чему хорошему не приводят, они не становятся умнее. Попытки сделать из LSTM большие и сильные LLM тоже пока мало к чему привели (недавно была статья о новых LSTM, но они все равно хуже трансформеров).

Т.е. где-то у трансформеров, как и у любой архитектуры, есть предел, где он - предсказать сложно, не скажем пока не уткнемся.

Плюс у всех нейросетей есть большой минус - отсутствие памяти, "жизненного опыта" если хотите. Каждый инференс мы должны передавать им весь предыдущий контекст, это жутко неэффективно и накладывает сильное ограничение на существование AGI в этой парадигме. Представьте, что вы используете AGI дома на протяжении 20 лет, вы каждый инференс будете передавать 20-летнюю историю? Можно попытаться соорудить память, как в mLSTM, но там свои ограничения. Т.е. сеть останавливается в развитии в момент окончания обучения. Онлайн-обучение какой-нибудь GPT-4 это пока трудоемкая задача.

А если у большой сети будет своя память, то не "сойдет ли она с ума" от миллионов запросов в секунду? Делать отдельную память (читай личность) под каждого пользователя? Как вариант, но кажется здесь тоже будут ограничения.

А если увеличить количество муравьев в муравейнике в миллион раз, они образуют супер-муравейник, построят космический шаттл и полетят к звездам?

Упс. Не полетят. Эмерджентность существует, но у любого явления есть границы.

С 2019 по 2023 год, от GPT-2 до GPT-4, был пройден путь от моделей с интеллектом дошкольника до моделей, сравнимых с одаренным старшеклассником. Этот гигантский скачок произошел всего за 4 года.

Нет, это ложное утверждение. GPT-4 знает много, но модель не обладает интеллектом. Это понимает любой, кто поработал с LLM хотя бы один рабочий день. Ее нельзя сравнивать ни со старшеклассником, ни с дошкольником. По объему знаний? Ну давайте с википедией еще сравнивать, та тоже много "знает".
LLM не может стать AGI, сколько весов в нее не заливай, просто потому что это языковая модель. Она может делать крутые штуки, она может быть очень большой, но это просто языковая модель.

AGI скорее всего будет, но весьма вероятно он будет построен на несколько других принципах. Предсказать его появление со сколько-нибудь адекватной точностью практически невозможно, т.к. в ИИ вкладывают большие деньги, им занимается много людей, прорывное открытие может случиться хоть завтра (а может и через 10+ лет).

Но кто сказал, что AGI будет намного умнее человека? Современным LLM системам зачастую требуются десятки минут, чтобы пофиксить простой баг в гитхаб репозитории. Это быстро, но сравнимо с человеком. Это не микросекунды. Если мы сделаем AGI, то вполне возможно что он будет думать не намного быстрее и не намного лучше человека. Плюс только в том, что, в отличие от человека, AGI можно распараллелить на множество устройств, но технологической сингулярности может и не быть.

AGI может эффективно использовать все знания Интернета? Ну давайте сделаем чип в мозг к человеку с прямым подключением к Интернету, чем не сверхразум? Добавим в чип АЛУ для быстрых вычислений и точную память. Может быть AGI появится в этом направлении, как синтез человека и машины.

В общем, скептически я отношусь к технологической сингулярности (тм). Особенно в ближайшее десятилетие, весьма маловероятно.

Меня всегда в идее переноса личности волновал один вопрос.

Вот, например, я. У меня есть свой внутренний наблюдатель, которым я себя и ощущаю. Доказать наличие такого же внутреннего наблюдателя у других людей пока не представляется возможным (если это возможно в принципе). Более того, когда я поднимал эту тему, некоторые люди не понимали, о чем я говорю, что заставляет меня подозревать, что не каждый человек в принципе себя осознает личностью (шутка, а может быть и нет).

Вот я решил перенести свою личность. Иду в некий Центр Переноса Личности. Меня вводят в искусственную кому. Создают моего клона, переносят состояние моего мозга клону (например, методом, описанным в статье). Просыпаемся и я, и мой клон.

Вопрос: а в чьем теле буду ощущать себя я, как внутренний наблюдатель? Логично предположить, что в оригинале. А буду ли я как-то ощущать "себя" в клоне? Кажется, что нет. Это будет точная моя копия, она будет думать как я, и она будет думать что она - это "настоящий я". Для внешнего наблюдателя мы будем не отличимы. Но фактически это будет другой человек.

Если в процессе переноса оригинальный "я" умру, то логично предположить, что я не "проснусь" в теле моего клона. Я по-настоящему умру, мое сознание исчезнет. А вот для всех остальных людей я буду продолжать жить, моя копия будет утверждать, что все ок, перенос сознания прошел гладко.

Усложняем эксперимент. А если создать клон без мозга, а потом пересадить клону мой мозг, то буду ли я ощущать "себя" в клоне? Ну, наверное, буду. А если пересадить только часть мозга? А если только ту часть, что отвечает за личность? А если половину этой части или треть? Где "я" буду "жить"?

Самое печальное, что если наличие "внутреннего наблюдателя" и его идентичность нельзя проверить, то сама формулировка вопроса будет ненаучной.

Information

Rating
3,083-rd
Location
Железнодорожный (Московск.), Москва и Московская обл., Россия
Date of birth
Registered
Activity