Ноам Хомский о будущем глубокого обучения

Автор оригинала: Эндрю Куо
  • Перевод
В течение последних нескольких недель я вёл переписку по электронной почте с моим любимым анархо-синдикалистом Ноамом Хомским. Сначала я обратился к нему, чтобы спросить, не заставили ли его недавние разработки в области ANNs (искусственных нейронных сетей) пересмотреть свою знаменитую лингвистическую теорию универсальной грамматики. Наш разговор коснулся возможных ограничений глубокого обучения, того, насколько хорошо на самом деле ANN моделирует биологический мозг, а также побеседовали на философские темы. Здесь я не буду напрямую цитировать профессора Хомского, поскольку наша дискуссия была неофициальной, но попытаюсь резюмировать ключевые выводы.

И, между прочим, вчера, 7 декабря, Ноаму Хомскому исполнилось аж 92 года!
кф «Капитан Фантастик»


Немного о Ноаме Хомском


Ноам Хомский — прежде всего профессор лингвистики (многие называют его «отцом современной лингвистики»), но он, вероятно, более известен за пределами академических кругов как активист, философ и историк. Хомский — автор более 100 книг, признан ведущим мировым общественным интеллектуалом в опросе 2005 года, проведённом журналами Foreign Policy и Prospect.

Я восхищаюсь работами Хомского, особенно его критикой американского империализма, неолиберализма и средств массовой информации. Где наши взгляды несколько разошлись, так это в отношении его отказа от континентальных философов (особенно французских постструктуралистов). Возможно, я был испорчен слишком частыми заимствованиями из источников Фуко, Лакана и Деррида во времена, когда только стал взрослым, но я всегда находил аналитический подход Хомского к философии нравственно привлекательным, но немного «очищенным» ради удовлетворительного объяснения нашего мира. Хотя его презрение к этим постструктуралистским светилам бросается в глаза, философские взгляды Хомского тоньше, чем полагают его недоброжелатели.

Универсальная грамматика


Сразу скажу, что я не лингвист, но в этой части статьи попытаюсь дать обзор теории универсальной грамматики. До Хомского преобладающей гипотезой в лингвистике была гипотеза о том, что люди рождаются с разумом «tabula rasa» (чистый лист) и овладевают языком через подкрепление. То есть дети слышат, как говорят их родители, имитируют услышанное, а когда правильно употребляют слово или строят предложение, то их хвалят. Хомский показал, что подкрепление — только часть процесса и что в человеческом мозге должны иметь место врождённые универсальные структуры, облегчающие усвоение языка. Его основными аргументами были:

  1. Дети усваивают язык слишком быстро, а данных слишком мало, чтобы это можно было объяснить обучением с подкреплением (аргумент известен как «бедность стимула»).
  2. Животные не овладевают языком даже тогда, когда им представлены те же данные, что и людям. В 1960-х годах проводился знаменитый эксперимент, в ходе которого лингвисты попытались научить шимпанзе по имени Ним Чимпски языку жестов, но спустя 10 лет обезьяна всё ещё не могла общаться, выполняя лишь несколько элементарных задач.
  3. Общие черты есть во всех человеческих языках. Этот факт показывает, что даже при независимом развитии языка существуют универсальные черты, которые проявляются благодаря общим структурам в человеческом мозге вообще.
  4. Дети не запрограммированы на изучение определённого языка. Если вы возьмёте ребенка, родившегося в Кении, и воспитаете его в Германии, он овладеет немецким языком так же легко, как и немецкий ребенок.

Эта теория жёстко генетически закодированной способности к языку получила широкое признание в научном сообществе, но очевидным был следующий вопрос: «Как выглядит эта универсальная грамматика?» Вскоре отважные исследователи начали открывать общие свойства всех человеческих языков, но до сих пор нет единого мнения о том, какую форму имеют наши врождённые способности к языку. Можно с уверенностью предположить, что универсальная грамматика не состоит из конкретных синтаксических правил, но, скорее всего, является фундаментальной когнитивной функцией.

Хомский постулировал, что в какой-то момент истории люди развили способность выполнять простой рекурсивный процесс, называемый «слиянием», и этот процесс отвечает за свойства и ограничения синтаксических структур в человеческих языках. Это немного абстрактно (и слишком сложно, чтобы разрешить всё правильно), но по существу «слияние» — это процесс взятия двух объектов и их объединения для формирования нового объекта. Несмотря на кажущуюся прозаичность, способность мысленно комбинировать понятия и делать это рекурсивно обманчива и позволяет нам создавать «бесконечное разнообразие иерархически структурированных выражений». Этот небольшой, но решающий генетический скачок может не только объяснить нашу способность к вербальному общению, но и привести к тому, что он может отвечать (по крайней мере частично) за наши математические таланты и творческие способности человека в более широком смысле. Эта мутация «слияния», произошедшая у одного из наших предков около 100 000 лет назад, может быть одной из ключевых вещей, отделяющих человека от других животных.

Искусственная нейронная сеть


Основная причина, по которой я связался с профессором Хомским, заключалась вот в чём: я хотел услышать его взгляды на искусственные нейронные сети (о них я знаю значительно больше, чем о лингвистике). ANN — это подмножество моделей машинного обучения, которые смоделированы по образцу человеческого мозга и учатся аналогичным образом: просматривая множество примеров. Такие модели требуют очень мало кода и могут выполнять довольно широкий спектр сложных задач (например маркирование изображений, распознавание голоса, генерация текста) с относительно простой архитектурой. Поучительный пример такого подхода — модель AlphaGo (разработана компанией Google), которая научилась играть в Go (сложную, проблемную настольную игру) и в конечном счёте стала непобедимой для чемпионов мира среди людей. Самое впечатляющее в этом то, что она была обучена играть без жёстко закодированных правил или вмешательства человека, то есть модель была «tabula rasa». Хотя ANN, безусловно, не идеальная аналогия с человеческим мозгом, я спросил профессора, не говорят ли ANN о том, что на самом деле, чтобы учиться на разбросанных данных, нам не нужны жёстко закодированные когнитивные структуры.



Хомский корректно указал на то, что ANN полезны в узкоспециализированных задачах, но эти задачи должны быть резко ограничены (хотя их объём может показаться огромным, учитывая память и скорость современных компьютеров). Он сравнил ANN с массивным краном, работающим на высотном здании; хотя такая работа, безусловно, впечатляет, и здание, и кран существуют в системах с фиксированными границами. Это направление рассуждений согласуется с моим наблюдением о том, что все прорывы в глубоком обучении, которые я наблюдал, происходили в очень специфических областях, и мы, похоже, не приближаемся ни к чему подобному в обобщённом искусственном интеллекте (что бы он ни значил). Хомский также указал на растущее число свидетельств того, что ANN не могут точно моделировать человеческие способности к познанию, которые сравнительно богаты настолько, что задействованные вычислительные системы могут распространяться даже на клеточный уровень.

Если Хомский прав (а я думаю, что он прав), каковы последствия продвигающихся исследований глубокого обучения? В конце концов, в человеческом мозге нет ничего волшебного. Это просто физическая структура, состоящая из атомов, и поэтому вполне рационально полагать, что в какой-то момент в будущем мы сможем создать искусственную версию мозга, способную к обобщённому интеллекту. С учётом сказанного современные ANN предлагают только симулякр познания такого рода, и по логике Хомского, мы не достигнем этой следующей границы, не углубив вначале понимание того, как работают органические нейронные сети.

Моральный релятивизм




Этичное применение ИИ — основная проблема современных дата-сайентистов, но временами она может казаться неопределённой и субъективной в другой конкретной области. Работа Хомского не только даёт уникальную техническую перспективу будущего глубокого обучения; универсальная грамматика также имеет глубокие моральные последствия, поскольку язык — это то, как мы говорим о мире и интерпретируем его. Например, Хомский считает, что упомянутые выше врождённые нейронные структуры исключают моральный релятивизм и что должны существовать универсальные моральные ограничения. Существует много различных разновидностей морального релятивизма, но основной принцип в том, что не может быть объективной основы для этических определений. Моральные релятивисты утверждают, что, хотя мы можем глубоко верить в такие утверждения, как «рабство аморально», у нас нет эмпирического способа доказать это тем, кто с нами не согласен, поскольку любое доказательство обязательно будет опираться на ценностные суждения, а наши ценности в конечном счёте экзогенны и определяются культурой и опытом.

Хомский утверждает, что мораль проявляется в мозге и, следовательно, по определению является биологической системой. Все биологические системы имеют вариации (естественные и обусловленные различными стимулами), но эти вариации также имеют пределы. Рассмотрим зрительную систему человека: эксперименты показали, что она обладает некоторой пластичностью и формируется опытом (особенно в раннем детстве). Варьируя данные, поступающие в зрительную систему человека, можно буквально изменить распределение рецепторов и тем самым изменить способ восприятия человеком горизонтальных и вертикальных линий. Чего вы не можете сделать, так это превратить человеческий глаз в глаз насекомого или дать кому-то возможность видеть рентгеновские лучи. Согласно Хомскому, биологические системы (включая мораль) могут изменяться довольно широко, но не бесконечно. Он продолжает говорить, что, даже если вы верите, что наша мораль полностью происходит от культуры, вам всё равно нужно получить эту культуру таким же образом, как вы приобретаете любую систему (в результате работы врожденных когнитивных структур, которые универсальны).

Мое первое дополнение к сказанному этой статье заключается вот в чём: если мы предполагаем, что мораль — это просто следствием «слияния» (или чего-то столь же примитивного), то, хотя это может накладывать теоретические ограничения, моё интуитивное понимание заключается в том, что наша мораль может изменяться настолько дико, что делать универсальные суждения практически невозможно. В прошлом Хомский дискутировал о том, как моральный прогресс, по-видимому, следует определённым тенденциям (например, принятие различий, отказ от угнетения и т. д.), но я изо всех сил пытаюсь понять, как эти широкие тенденции будут последовательно возникать из таких простых атомарных когнитивных структур. Когда я говорил об этом профессору, он утверждал, что этот взгляд иллюзорен и что, когда мы не понимаем вещей, они кажутся более разнообразными и сложными, чем на самом деле. Он привел пример отклонения, наблюдавшегося в скелетах тел животных после кембрийского взрыва. Всего лишь 60 лет назад в биологии господствовало мнение, что организмы изменяются настолько сильно, что каждый из них должен изучаться индивидуально, но теперь мы знаем, что это совершенно неверно и что генетические различия между видами довольно незначительны. Вариации в сложных приобретённых системах должны быть минимальными, иначе мы не смогли бы их приобрести.

image

Не забывайте про промокод HABR, добавляющий 10% к скидке на баннере.


SkillFactory
Школа Computer Science. Скидка 10% по коду HABR

Комментарии 20

    0
    Больше всего меня удивляет как в России принято коверкать его фамилию.
    Чомски!
      +2

      Скорее всего это связано с тем, что фамилия в оригинале имеет польские корни и на польском звучит как Хомский если же фамилию записать по-английски Homsky, то читаться она будет как Омский. В общем исторически так сложилось, что в русском языке Хомский на моей памяти с 70х годов прошлого века.

        0
        стало интересно как, в таком случае, по-английски читается фамилия Holmes
        0
        Браузер Гугл Чром) Вообще да, называть лучше всего так, как кто-то сам себя называет. Но, наверное, не стоит удивляться существованию Экзонимов и разных Эндоэтнонимов
        +4
        Это немного абстрактно (и слишком сложно, чтобы разрешить всё правильно), но по существу «слияние» — это процесс взятия двух объектов и их объединения для формирования нового объекта… Этот небольшой, но решающий генетический скачок может не только объяснить нашу способность к вербальному общению, но и привести к тому, что он может отвечать (по крайней мере частично) за наши математические таланты
        За математические способности в большей степени отвечает чувство численности, это достаточно надежно установленный факт в когнитивных исследованиях. То о чем говорит Хомский больше относится к символьной математике, это надстройка над нативным пониманием численности. Возможно автор статьи именно это имеет в виду говоря о частичности в скобках. В свою очередь чувство численности и способность к грамматике лишь небольшая часть врожденных способностей, кот. составляют содержание когнитивного ядра. В него, кроме математической и лингвистической составляющей, входит также физическая и психологическая составляющие.

        Поучительный пример такого подхода — модель AlphaGo (разработана компанией Google), которая научилась играть в Go (сложную, проблемную настольную игру) и в конечном счёте стала непобедимой для чемпионов мира среди людей. Самое впечатляющее в этом то, что она была обучена играть без жёстко закодированных правил или вмешательства человека, то есть модель была «tabula rasa».
        Это распространенное мнение среди части разработчиков приложений ИНС, но не совсем обоснованное. Сам по себе модельный нейрон содержит некоторые определенные возможности + заданная архитектура сети. Чем сеть архитектурно богаче и мощнее, тем большими возможностями моделирования она обладает, и тем более широкий круг задач способна успешно решить. Причем эффективность решений предполагает некоторую оптимизацию их архитектуры в соответствии с решаемыми задачам. Для биологических сетей эту оптимизацию произвела эволюция путем отбора, ИНС могут повторять эту архитектуру при решении аналогичных задач, что собственно объясняет биологическую инспирированность их разработки, кот. декларируется в таких работах со ссылками на нейрофизиологические исследования. Если архитектура ИНС приближается к архитектуре биологических сетей, то можно говорить о масштабировании эффектов в сетях в сравнении с биологическими. Пример такого масштабирования для распознавания (сегментации) сцен, связанного с глубиной сети, см. это исследование. Чем больше глубина сети, тем точнее сегментация для разных условий, и тем ближе результаты к результатам человека.
        Выполнение задачи не сводится только к настройке весов связей в сети, роль играет ее архитектура, и часто требуется специфическое предобучение сети, с привлечением методов оптимизации релевантных решаемой задаче. Эти неявные моменты не учитываются при аргументации обучения с чистого листа, а они существенные, см. публикацию на эту тему, в ней обсуждается ситуация с AlphaGo.
          0
          с привлечением методов оптимизации релевантных решаемой задаче
          Типа дерева перебора с альфа-бета отсечением? А AlphaGo Zero его все еще использует ли. Даже если использует, это не представляется необходимым. Архитектура, алгоритм тренировки, вот и вся априорная информация, имхо и в биологии также, слишком сложный «стартер обучения» в процессе эволюции будет ломаться быстрее чем совершенствоваться.
          0
          А я считаю, что Хомский не прав, и семейство моделей GPT и BERT наглядно это показывает. Эти модели хотя и не умеют в интеллект, успешно справляются с пониманием произвольных языков, чем по сути опровергают его теорию, что языки — такие, какие они есть и доступны нам именно из-за специфических структур мозга. BERT гораздо дальше по структуре от мозга человека, чем мозг обезъяны, однако с задачей работы с языком справляется на много поярдков лучше.

          Если кто-либо с этим не согласен (мб сам Хомский) — пусть тогда опишет как фальсифицировать эту теорию, если не демонстрацией примера в виде нейросетей на основе Transformer.
            0

            https://youtu.be/cMscNuSUy0I?t=1358


            So for example, take the structure dependence case that I mentioned, suppose there was a language in which you used linear proximity as the mode of interpretation, these deep learning
            would work very easily on that. In fact, much more easily than on an actual language.
            Is that a success? No, that's a failure. From a scientific point of view that's a failure. It shows that we're not discovering the nature of the system at all 'cause it does just as well or even better
            on things that violate the structure of the system, and it goes on from there.

            Он считает, что безусловно есть некая структура человеческого языка, и если нейросети могут выучивать и языки другой структуры, то это доказывает только то, что у них нет этой свойственной человеку структуры. Вот такая занятная точка зрения.

              0
              Здесь нет ответа на вопрос фальсифицируемости. Без него можно бесконечно приводить аналогии и отрицать предполагаемые контрпримеры.
                +2
                Я думаю, его идея как раз в том, что большой объем информации о грамматике закреплен в наследственности. И это позволяет детям изучать язык быстро и эффективно, даже не замечая его сложности. Поэтому мы играючи следуем сложным грамматическим правилам во всех нюансах, даже не осознавая того, но при этом 10 лет школы тратим на запоминание небольшого количества примитивных исключений и соглашений, которые теряются на фоне сложности того, что далось нам без усилий. Это эволюционно-выигрышное свойство и логично предположить, что оно было подвержено положительному отбору.

                Чтобы проверить эту теорию надо сравнить количество информации, которое необходима ребенку, чтобы начать говорить, и количество информации, которое необходимо искусственной модели, заведомо способной обучиться гораздо более обширному классу языков, чтобы освоить естественный язык на том же уровне. Проведя такое исследование можно даже количественно оценить объем врожденных знаний о грамматике.
              0
              BERT гораздо дальше по структуре от мозга человека, чем мозг обезъяны, однако с задачей работы с языком справляется на много поярдков лучше.

              сколько нужно ватт для эффктивной работы BERT и сколько для работы с языком мозгу?

                0
                2Вт на память, 10Вт на процессор могут генерировать 1024 символа текста за 30 секунд с GPT-2. Мозг примерно 20Вт.
                0
                А я считаю, что Хомский не прав, и семейство моделей GPT и BERT наглядно это показывает.
                Ключевой момент в подборе архитектуры и предобучении этих сетей. До какой-то степени это позволяет воссоздать модель (псевдограмматику) человеческого языка в них.
                BERT гораздо дальше по структуре от мозга человека, чем мозг обезъяны, однако с задачей работы с языком справляется на много поярдков лучше.
                Обезьяны могут усвоить сотни слов языка в виде жестов, т.к. устройство их гортани не позволяет полноценно использовать речь, и правильно оперировать ими в простых контекстах, комбинировать, делать обобщения. Упомянутые нейросети могут грамматически правильно генерировать тексты и делать переводы, но без учета контекста (семантических связей). Как пример перевод предложений с омонимами — Девушка с косой косила траву косой. Гугл (трансформер) переводит все косы как scythe — инструмент. Даже если сделать уточнение — Девушка с косой на голове косила траву косой — переводчик все равно считает косу на голове инструментом. Это следствие статистики встречаемости упоминания кос в сочетании с кошением и головой в обучающей выборке. Первое очевидно встречается чаще. В этом отношении достижения обезьян пока недоступно этим нейросетям, особенно в новых контекстах. Но за этой способностью обезьян стоят все когнитивные возможности их мозга. Нейросети же оптимизированы под выполнение определенной задачи.
                Можно улучшить эти навыки у обезьян? Несомненно, путем искусственного отбора. Стоит вспомнить, например, эксперименты с доместикацией лис. После нескольких десятков поколений отбора они не только изменили свое поведение, но и поменяли связанные фенотипические признаки — окрас и др, стали «лаять», изменили ритм размножения. Точно также могут отбираться структуры мозга отвечающие за оперирование понятиями. Для этого нужно воссоздать и поддерживать некое подобие культурного слоя в котором накопленный опыт будет непрерывно передаваться. По этой причине пример содержания в зоопарках не подходит. В некоторой форме это уже имеется в дикой природе у шимпанзе, можно ускорить этот процесс искусственно. Другой вариант — генетические модификации, но зачем нам говорящие обезьяны? Для прикола?)
                  0
                  Гугл (трансформер) переводит все косы как scythe

                  А как объяснить ситуации, когда натренированная сетка не переводит омонимы одним и тем-же словом?


                  Следствие — это процесс нахождения виновного.
                  An investigation is the process of finding the culprit.


                  Следствие — это результат какого-либо действия.
                  A consequence is the result of an action.


                  Следствие не было удовлетворено следствием принятых мер.
                  The investigation was not satisfied with the consequences of the measures taken.


                  Духи предков на капище разлили духи.
                  The spirits of the ancestors poured perfume on the temple.


                  Рыцарский замок запирался большим замком.
                  The knight's castle was locked with a large padlock.


                  Это был странный замок — он закрывался ещё одним замком.
                  It was a strange lock — it was closed with another lock.


                  Рыцарь повесил замок на ворота замка.
                  The knight hung the padlock on the castle gate.


                  Рыцарь повесил модель замка на ворота замка.
                  The knight hung a model of the castle on the castle gate.


                  Рыцарь повесил замок на ещё один замок.
                  The knight hung the padlock on another padlock.


                  И тому подобное.

                    0

                    Попробовал ради интереса. В примерах с замком Google Translate и DeepL не справились. Yandex переводчик справился.


                    The knight's castle was locked with a large castle
                      0
                      Контрпримеры. Со следствием:
                      Следствие по делу было проведено, но его следствие для правосудия осталось не замеченным
                      The case was investigated, but its investigation for justice remained unnoticed

                      С замком:
                      Замок был очень большим, но замок с ключами от него хранился у ключницы)
                      The lock was very large, but the lock with the keys to it was kept by the housekeeper

                      Это более сложные предложения. Выглядят несколько вычурно) Но в литературе еще не такое можно встретить. Если перед но поставить точки, т.е. разбить на отдельные предложения, то перевод будет более адекватным.

                      Косвенно отвечал на такой же ваш вопрос в одной из тем. Там приводил ссылку на исследование структуры семантических отношений в мозге. Это отдельная система, независимая от синтаксического разбора предложений. Такого пока нет в существующих ИНС. Но именно такая структура позволяет делать наиболее правдоподобный подбор слов в сложных и неизвестных случая, когда прецедентов не было. Она имеет отношение к внутренней модели мира, исходно врожденной, но в большей степени уточняемой в ходе получения опыта. Можно ли получить ее некий эквивалент путем экстенсивного наращивания размера сети и обучающей выборки текста для ИНС? Возможно. У эволюции такой возможности не было, учитывая биологическую форму реализации и ее ограничения, поэтому она нашла такое решение.
                        0
                        Это отдельная система, независимая от синтаксического разбора предложений.

                        Трансформеры, в общем-то, не синтаксическим разбором занимаются. А то, чем они занимается на самом деле, явно не описывается словами "не учитывают контекст". И пока не известно, чем вызвано различие поведений человеческого мозга (который тоже может делать ошибки в сложных и неизвестных случаях) и трансформеров. Может быть очевидными различиями структуры этих сетей, может намного меньшим объемом (по сравнению с мозгом) существующих языковых моделей, может отсутствием аудио-визуально-кинестетической информации при обучении.

                          0
                          И пока не известно, чем вызвано различие поведений человеческого мозга (который тоже может делать ошибки в сложных и неизвестных случаях) и трансформеров.
                          В похожей по теме публикации сделал комент на тему возможных причин различия.
                  0
                  А что из научных работ Хомского находит практическое применение в наше время? У меня сложилось впечатление, что его оригинальные научные труды закончились в начале 70-х, и с тех пор он известен как политический комментатор.
                    +1

                    Регулярные и контекстно-свободные грамматики используются в компиляторах

                  Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                  Самое читаемое