Как стать автором
Поиск
Написать публикацию
Обновить

Комментарии 20

С маленькими детьми (2~6 мес, точно не скажу) проходит такой фокус: заманить его игрушкой и, пока он к ней подпозает, тут же при нём накрыть её пелёнкой. На лице недоумение, игрушка для него "исчезла".

Собственно, ваш пример подтверждает концепцию из статьи.

Необученный ребенок воспринимает спрятанную игрушку как исчезновение. Необученный ИИ так же воспринимает как исчезновение.

Показываем ребенку обучающий фокус ХХ месяцев. Показываем ИИ обучающие видео ХХ часов.

Обученный ребенок понимает, что игрушка не пропала. Обученный ИИ понимает, что объект не исчезает.

Показываем ребенку обучающий фокус ХХ месяцев. Показываем ИИ обучающие видео ХХ часов.

Хм, есть некоторые сомнения, что на текущем уровне развития нейросетей они будут выигрывать у ребенка в скорости обучения. Маленькие дети все-таки в реальности очень быстро учатся.

С другой стороны, ребенок учится сразу куче всяких вещей, а нейросеть обычно имеет узкий функционал. Если вы будете непрерывно ХХ часов подряд только и делать, что натаскивать ребенка отличать спрятанный предмет от исчезнувшего, не отвлекаясь на еду, сон и покакать, вами быстро заинтересуются компетентные органы и будут правы.

С другой стороны, ребенок учится сразу куче всяких вещей

Да, вы совершенно правы, и в этом плане тоже возможности человеческого мозга поражают.

Если вы будете непрерывно ХХ часов подряд только и делать, что
натаскивать ребенка отличать спрятанный предмет от исчезнувшего, не
отвлекаясь на еду, сон и покакать

В ребенка уже встроена защита от такого, он потеряет интерес и переключится на другую тему. Или заснет от усталости. Что не отменяет, конечно же, того, что над детьми (да и над взрослыми) издеваться нельзя.

Ну и я о том же - а нейросеть может непрерывно обучаться одной задаче, ни на что не отвлекаясь. За счёт этого при общей меньшей продуктивности обучения одну конкретную задачу она может выполнить сильно быстрее.

Ну наконец-то что-то как-то выходящее за пределы «китайской комнаты», ибо работает не со словами без связывания их со значениями, а сразу с самими значениями.

На самом деле даже взрослые люди, если им приходится иметь дело с виртуальными мирами, где физика «нереальная», быстро принейропластичниваются. Скажем, в восьмибитной игре часто нет ускорения свободного падения, а есть падение с постоянной скоростью. Игрок за какие-то секунды к этому привыкает, воспринимает как должное, и играет с учётом этого.
Ну наконец-то что-то как-то выходящее за пределы «китайской комнаты», ибо работает не со словами без связывания их со значениями, а сразу с самими значениями.
Да, пора переходит к реальным основаниям интеллекта и понимания смысла, а не их имитаций в языковых моделях.

В этом направлении давно работает специалист из MIT Д. Тененбаум со своими учениками, у него много подобных моделей, см. публикацию на Хабре, и комент в ней со ссылками на его работы.

Есть мультимодальные сети типа Gato. В подобных сетях должно уже появляться обобщённое представление образов и понятий. И ещё, думаю, важно, чтобы модель могла сама взаимодействовать с объектами через манипуляторы реальные или хотя бы виртуальные. Дети же всё как раз и исследуют, роняют, толкают, кусают, пробуют на вкус, то есть делают срезы представлений об объекте для всех рецепторов, формируя полное представление и осваивая физику на интуитивном уровне заодно. Если просто смотреть, полноценно мозг не разовьётся, были эксперименты с котятами.

Следующим этапом было бы интересно научить ИИ с помощью понятых законов физики пытаться найти различные варианты объяснения фокусов (сцены, где объекты ведут себя с нарушением этих самых воспринятых законов).

Мне кажется, если один и тот же простейший фокус с "оторванным пальцем" показать детям с разным возрастом, то эффект будет разный. Маленькие дети воспримут как реально оторванный палец. А дети постарше будут интуитивно понимать, что это не так, и будут пытаться построить в голове гипотизы реальности фокуса.

Мне кажется, следующий этап - добавить в обучающие датасеты "тактильные ощущения". Чтобы ИИ понимал не только концепции непрерывности в пространстве и во времени, но и что такое масса и энергия объекта. Например быстрый тяжелый объект может "больно ударить".

А может нужно взять робота типа Atlas от Boston Dynamics, налепить на него триллион разных датчиков, сенсоров и камер и чтобы всё это обрабатывала нейросеть?

Ну и обработает, а дальше? Думаешь она превратится в человека)?

В виртуальном мире можно гораздо быстрее проводить обучение. И дешевле. А потом, предобученную нейросеть, которая будет иметь представление о трехмерном пространстве можно дальше тренировать на реальных роботах.

Архитектуру использовали стандартную, трансформер? И необычный только датасет? Или ещё и архитектура какая-то "объектно-ориентированная"?

Upd. Вижу, стандартную, но не трансформер, а LSTM

Что-то я плохо понимаю разницу того что сделали и допустим обучением текстовой модели, которая пытается определить возможность текста или фактов в нем?

Есть ощущение что создание бесконечной нейросети, соберет в себя вероятности тех или иных событий или их оценку, но думать она сама не начнет.

Плюс она будет изначально ограниченна нашими возможностями и пониманием мира.

А это к сожалению очень сложный автомат, но точно не ИИ.

Ответ, промахнулся веткой.

А это к сожалению очень сложный автомат, но точно не ИИ.

Тут большой вопрос, не является ли даже естественный интеллект сложным автоматом, не говоря уж о том, что ИИ тоже мог бы им быть. У людей есть старинная забава делать себя пупом земли и потом разочаровываться. То Земля не в центре мира и галактика одна из миллиардов, то геномный набор ничего особого не представляет и у пшеницы ДНК в несколько раз длиннее.

Новизна тут, мне кажется, в том, что текстовые модели получают на вход уже смысловые единицы - слова, слоги, символы, а тут фактически raw data нашего мира на вход поступают, правда, только на зрительный сенсор, чего недостаточно по-моему, для создания идеомоторных ощущений понятий.

Вот что происходит в мозге человека когда он видит текст "на полу сидит кот" и когда он понимает его? По-моему, понимание это привязывание новой информации к уже сформированной ассоциативной сети. Иногда даже можно разделить эти процессы - пробежать текст глазами, но пока не совершишь определённого усилия, он является просто набором букв. А когда произошло понимание, всплывают образы-ощущения, в данном случае визуализация какого-то вполне конкретного кота, причём в ощущение кота входит воспоминание о том, что он мягкий на ощупь, тёплый и может поцарапать, например. Конечно, не всё это сразу всплывает, но где-то там облако ассоциаций крутится в быстром доступе.

Для более абстрактных понятий тоже идут аналогии с чем-то уже знакомым либо визуализация. Без этого ничего понять нельзя. Помню, изучая биологию, не было ощущение что такое белок. Только когда прошёл ещё кучу курсов, узнал про их роль, покрутил сам белки в FoldIT, появилось уже более интуитивное ощущение, привязал его к своей ассоциативной сети.

У текстовой же модели есть только ассоциации, связанные с расположением слов рядом, причём созданные кем-то другим. Она и из этого много правил извлекает, конечно, но ребёнок, впервые увидев цветок, понюхав его, сформирует самостоятельно представления о множестве правил мира, и получит в свою палитру множество кирпичиков-ощущений, с помощью которых потом будет формироваться по аналогии понимание других явлений мира, в том числе абстрактных, скажем, "процветание человечества" или "яркий эпитет". Вполне возможно, что для последнего он будет вспоминать конкретный цветок. С помощью этих же кирпичиков, гоняя запросы по ассоциативной сети, будет происходить и мышление. Вот сделать ИИ по такому принципу было бы интересно.

Что-то я плохо понимаю разницу того что сделали и допустим обучением текстовой модели, которая пытается определить возможность текста или фактов в нем?
В языке уже содержится некоторая поддержка интуитивной физики, вот здесь (текст под спойлером) написал как это проявляется на примере перевода текста. Но это не всегда работает, для незнакомых ситуаций мозг может моделировать (симулировать) ситуацию, чтобы предсказать результат. Это работает, как для восприятия, так и анализа текста. В мозге есть область кот. является своеобразным аналогом физического игрового движка, которая позволяет это сделать. В данной работе это пытаются проделать с помощью обучающих видео. У человека эта возможность частично врожденная, частично настраиваемая в ходе развития. В этом отличие. Можно ли эмулировать эволюционный опыт миллиардов лет развития жизни с помощью нескольких обучающих видео? Вряд ли, но что-то улавливается. Это вообще проблема разработки таких систем, известная как проблема фрейма. Полностью модель среды нельзя построить, для этого некоторые знания о ней должны быть вложены в системе заранее, некоторый набор ожиданий. Иначе обучение растянется на неопределенное большое время. Так же существует проблема непротиворечивого встраивания, связывания нового полученного знания в существующую модель. В полном объеме это пока не достижимо в существующих системах ИИ, тема только начинает осваиваться)
Плюс она будет изначально ограниченна нашими возможностями и пониманием мира.
Да, до тех пор пока такие системы не будут оснащены сенсорами, и они не будут их использовать для самообучения, и решения собственных задач, связанных с внутренними мотивами, кот. человек не навязывал. Тогда такие системы могут получить уникальные знания, кот. нет у человека, и их пути могут постепенно разойтись. Но до этого еще очень далеко)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости