Учимся совершать правильные ошибки — краткое сравнение человеческого восприятия и мультимодальных языковых моделей / Comments / Habr

phenik Mar 28 2023 at 08:26

Спасибо за перевод. Интересная тематика с учетом дискуссий о достоверности выводов различных больших ЯМ на базе трансформеров. Мультимодальные модели позволят повысить эту достоверность, хотя и рамках чисто языкового подхода не все возможности исчерпаны. Язык в некотором виде содержит модель мира, включая физического, и это позволяет корректировать выводы с помощью Системы 2, см., напр, эту публикацию.

Однако поскольку автор статьи упомянул нейрофизиологические исследования в рамках байесовского подхода к изучению функций мозга несколько критических замечаний. К сожалению методологического характера. По видимому автор переселился в свой внутренний мир — internal models на всех уровнях, и полагается, в основном, на нисходящие top-down влияния)

«Нисходящий аспект»: Обрабатывает данные и выводит заключения на основании исходной информации, получаемой от органов чувств. Пугающий силуэт + вой = снежный человек.
«Восходящий аспект»: Добавляет поверх исходной информации «слой мышления», который принимает и использует «прежние знания» (то есть — опыт, полученный в прошлом) для того чтобы осмысливать данные. Пугающий силуэт + вой = слишком увлечённый путешествием (или пьяный) турист.

Чтобы произвести окончательное заключение — Active inference, и тем самым минимизировать свободную энергию дачник должен выйти из дачи и удостоверится, что это не снежный человек, не медведь, и тд, а веселый турист, как он ожидает) И только в том случае, если это не так, а им оказался отставший от корабля возбужденный инопланетянин, скорректировать свои представления — внутреннюю модель, и минимизировать св. энергию таким путем.

Если по простому, то в конце концов, критерием истины является практика, в том числе, наблюдательная.

Эта странная особенность мозга может показаться нам чем-то вроде «бага», но для наших предков, которые были охотниками или собирателями, это было скорее не «багом», а жизненно важной «фичей». Для них безопаснее было предполагать, что они видят где-то лицо, даже тогда, когда на самом деле никакого лица там не было. Это было средством защиты от хищников в дикой природе.

Это правильно быть на стороже… но причины появления внутренних моделей, пресдказательного режима функционирования и нисходящих контуров управления в том, что это повышает реактивность, минимизирует потребление энергии — дорогого ресурса, и уменьшает вредные последствия связанного с ней метаболизма. Все это начало появляться уже у первых микроорганизмах, до появления многоклеточных и нервных систем, и у человека вылилось в предсказательный разум. По сути это физические ограничения с которыми приходилось считаться не только эволюции, но сейчас разработчикам процессоров, уменьшая ими потребление энергии, решая проблемы теплоотвода и уменьшения вредных последствий ее выделения.

Для решения задач машинного зрения чаще всего используются свёрточные нейронные сети. Это — особая архитектура нейронных сетей. Такие сети обучают на специализированных наборах данных для решения весьма специфических задач наподобие классификации изображений.
На другом краю спектра архитектур нейронных сетей находятся большие языковые модели. Здесь было сказано, что они, в своей основе, представляют собой всего лишь по-настоящему большие нейронные сети с «простой единообразной архитектурой, обученные наитупейшим из возможных способов» (их учат предсказанию следующего слова).

Сравним упомянутые архитектуры ИНС с теми, что в мозге. Сверточные сети являются неплохим приближением структуры вентрального тракта зрительной системы приматов, архитектурой трансформеров являются прямые сети. Не та, не другая архитектура в полной мере не соответствуют структуре биологических сетей, которые являются принципиально рекуррентными. Нисходящие контуры управления в мозге как раз реализуются обратными связями. До биологической правдоподобности эти архитектурам еще далеко. Вероятно это удастся в перспективе достичь только с помощью нейроморфных технологий, над которыми работают многие производители железа. Они энергоэффективны благодаря импульсному режиму работы, асинхронны, непрерывно обучаемы на основе хеббовских принципов, и тд.

Но когда мы подстроим ту же свёрточную нейронную сеть в расчёте на кодирование изображений, совместимое с «пространством эмбеддингов» языковой модели, мы можем, решая вышеописанную задачу, задействовать знания о мире, которые есть у языковой модели. Эти знания о мире внутри языковой модели примерно аналогичны той форме «нисходящего восприятия», которое обрабатывает исходную визуальную информацию, поступающую от кодировщика изображений.

Как у человека представления о мире, так и знания о мире в языковых моделях являются ограниченными. В конечном итоге их стабилизирует именно сенсорный ввод, а также образный уровень мышления. Причем в случае ИИ не ввод изображений, видео, и тп, а ввод именно с датчиков, которые непосредственно контактируют с внешней средой. Эта архитектура описывается понятием когнитивной архитектуры (обзор), и до ее приближенной реализации также еще далеко. То что сейчас делается, включая чаты на основе GPT, является технологией интеллектуальных ассистентов, пусть продвинутыми в сравнении существующими — Сири, Алиса, и тд., но пока даже не интеллектуальными агентами.

Я уверен, что многие исследователи искусственного интеллекта были бы несказанно счастливы в тот день, когда ИИ начнёт видеть некие образы в облаках — так же, как видим их мы.

Как то автор статьи поленился посмотреть по теме. Уже существующие ИНС испытывают иллюзии, которые испытывают люди, см. 1, 2 , 3, 4 .