Vasyutka Aug 16 2018 at 20:48

Автоэнкодеры и сильный искусственный интеллект

16 min

25K

Algorithms * Artificial Intelligence

+19

Comments 20

smer44 Aug 16 2018 at 21:31

чем же отличается сильный ИИ от слабого.

возможность обучения на маленьком наборе данных ( всего одну картинку покажи человеку) из за наличия общего смыслового представления о мире и навыкам обучения.
хотя нет, пока что нет полного описания что это такое
остальные три критерия — нет. дура вроде IBM Watson или какая нить экспертная система может эмулировать самосознание но не являться сильным ИИ
Равно как и сильный ИИ Маугли не подходит по критериям — просто его не обучили

Автоэнкодеры не имеют к сильному ИИ никакого отношения.

DjSens Aug 17 2018 at 05:19

У человека объёмное зрение, т.к. два глаза, поэтому он сперва ощутит форму кубика и его ориентацию в пространстве, а потом уже начнёт вникать что там на гранях написано (с поправкой на наклон и перевёрнутость грани). И читает не всегда быстро. Иначе человек мог бы легко читать текст составленный из таких повёрнутых под разным углом и сжатых букв.
А вы компутеру сразу усложнили задачу дав один глаз и показав плоское изображение 3д объекта.
Сильный ИИ будет сильным когда пройдёт то же взросление и обучение что и человеческий детёныш, а для этого не только софт нужен, но тело, взаимодействующее с реальностью (можно на первых порах виртуальные)

Vasyutka Aug 17 2018 at 07:34

Со стерео зрением все те же вопросы останутся. Это мы из математики умеем ловко умножать на матрицы поворота и знаем, как преобразуются координаты за счет этого. Мозгу нужно точно так же будет учиться и запоминать, как выглядят разные фигуры после поворота. Стерео лишь поможет, но не решит никаких фундаментальных проблем.

но вообще не претендую на то, что «вот так у человека», лишь демонстрация подхода. и да, а может у с рождения одноглазых так? как-то же люди с одним глазом берут объекты, не так ловко, но форму предмета понимают.

«начнёт вникать что там на гранях написано (с поправкой на наклон и перевёрнутость грани» — и вот тут как раз появится проблема трактовки, упускаемая сейчас многими.

«А вы компутеру сразу усложнили задачу дав один глаз и показав плоское изображение 3д объекта.
Сильный ИИ будет сильным когда пройдёт то же взросление и обучение что и человеческий детёныш, а для этого не только софт нужен, но тело, взаимодействующее с реальностью (можно на первых порах виртуальны» — тут полностью согласен

michael_v89 Aug 17 2018 at 08:39

Сильный ИИ будет сильным когда пройдёт то же взросление и обучение что и человеческий детёныш

Нет, он будет сильным, когда будет обучаться так же, как человеческий детёныш.

DjSens Aug 17 2018 at 09:54

Смысл тот же (я вкладывал)

michael_v89 Aug 17 2018 at 10:33

Не совсем, мне кажется, тело, взаимодействующее с реальностью, особо не влияет на «сильность» ИИ. Важны принципы обработки информации, способности к обучению, а не условия обучения.

DjSens Aug 17 2018 at 13:05

Проще дать ИИ вирт тело как у человека, чем потом каждый день объяснять нюансы, например смысл фразы "близок локоть — да не укусишь", или зачем в проектируемом с помощью ИИ здании писсуары и на какой высоте их вешать.

michael_v89 Aug 17 2018 at 15:27

Он вполне может прочитать об этом в книге, так же как мы читаем об особенностях хвоста у животных или идиомах иностранного языка.

red75prim Aug 17 2018 at 17:07

Сильным он будет, когда будет способен решать все задачи, решаемые людьми. А как он будет обучаться — детали реализации.

michael_v89 Aug 17 2018 at 18:00

Да, я имел в виду "обучаться чему-то новому так же быстро и качественно, как человеческий детеныш".

bogotoff Sep 20 2018 at 16:00

Когда ИИ сможет создать ИИ лучше, чем он сам, улучшенный ИИ сможет создать еще более улучшенный ИИ и так далее. В итоге скайнет решит уничтожить больше половины человечества и Джон Коннор нас спасет :)

buriy Aug 17 2018 at 09:55

Привет.
1) Твоё решение для оценки распределения плотности — весьма интересно, но требует теоретической оценки и экспериментальной проверки для более общих случаев: а) на случай непропорционального распределения числа обучающих примеров, скажем, 1000 цифр «0», 2000 цифр «8» и лишь 100 цифр «6».
б) более сложная взвесь, например, картинки из mnist с произвольным поворотом и смещением, т.е. хотя бы 100000, а не всего 100 аффинных преобразований.
в) неразделимая комбинация различных элементов, как в CIFAR-10 и CIFAR-100. Получится ли что полезное при попытке разложить новый незнакомый объект на классы из CIFAR?
г) более сложная метрика, чем L2.
Также рассмотрено очень мало примеров, и начинает казаться, что легко можно подобрать контрпример, где что-то из описанного не будет работать.
2) Интеллектом (а тем более, сильным), увы, тут пока всё же не пахнет, потому что ты так и не показал обучения без учителя и самостоятельное очищение данных.
3) Фактически, во многих примерах, аналогия твоим действиям — переход от одного мультиклассового классификатора к N бинарным классификаторам (другая аналогия — слои CNN, по слою на признак). Ты утверждаешь, что бинарные классификаторы + оценка дисперсии их предсказаний позволяют решать задачи лучше, чем альтернативные методы.
Более того, ты теперь раскладываешь по этим бинарным классификаторам объекты. Кажется, что при комбинировании в одно целое, легко можно было бы просто подобрать уровни срабатывания для этих отдельных классификаторов чисто статистическим образом (или с помощью backpropagation), что решало бы проблему оценки плотности распределения, которую умеет делать классификатор.
4) Есть работы по VAE и GAN, где авторы пытаются добиться некоррелированности («ортогональности») координатных осей в латентном пространстве. Я бы для дальнейшего развития рекомендовал посмотреть на них и сравнить с ними.

Vasyutka Aug 17 2018 at 10:15

Спасибо за конструктивную критику! :)

1) а) с непропорциональным разделением — это как раз история про то, что как бы байесов подход хорош, но он не про реальные объекты. Мы можем понять, что объект принадлежит какому-то классу, даже если никакогда не видели на входе такую реализацию. Вот потому что и приходится выдумывать систему «над», такую как общее латентное пространство, чтобы такие неровности в распределении компенсировать.
б) да, просто это уж много выч.мощности и GPU памяти нужно. работаю над этим. Не вижу теоретических пределов, почему бы не взлетело и при огромном количестве контекстов.
в) не понимаю, чем тут с CIFAR может помочь. мелкие картинки, никакой доп.закономерностей оттуда не вытащить, ну кроме аффиных преобрвазоний (а это уже очень много работ было на эту тему, те же Spatial Neural Networks)
г) безусловно.

Ну, да, пример один и в чем-то натянут. Работаю над другими задачами с помощью этого подхода — со временем станет больше.

2) конечно, не пахнет. но множественность трактовок и целеноправленное формирование абстрактных моделей, которые позволяют выбрать лучшую трактовку на нижнем уровне… ну это важная часть, пока что не нашедшая свое отражение в каждом первом ML framework.

3)CNN вообще имеет тут много общего, т.к. позиция на изображении — это тот же самый контекст, а «общее латентное пространство» — аналог общих весов в ядрах. И нет, это не бинарные классификторы, это именно что оценка функции правдопобия модели, описываемой атоэнкодером-контекстом. И да, если backpropogation всесилен и всегда находит отличный оптимум и мы знаем что за лоссы вставить, — то много проблем бы решелись. Но, как-то, это обычно не так. А как начинаются ограничения в размере обучающей выборке, то совсем все плохо. Вот и приходится что-то выдумывать.

4) Да, VAE, GAN — это определенно направления для развития. VAE дает распределение p(z) предсказуемое, а GAN вообще просто крут для формирования моделей автоэнкодеров. Теперь видя сон по ночам, просыпаюсь удовлетворенный, что потренировал свои GAN-ы, заметив пару нестыковок )))

RGrimov Aug 17 2018 at 11:45

1. Не совсем понятно как получается «Вектор правдоподобия контекстов», когда сам контекст превращается в «объект». Можно подробнее?
1. А если объект находится в нескольких контекстах. Тогда количество автоэнкодеров будет декартовым произведением множества контекстов? Или суммой?

Vasyutka Aug 17 2018 at 12:15

1) да, действительно плохо описал. Смотрите, каждый контекст — автоэнкодер. Когда на него приходят входные данные, мы можем оценить p(x | этот автоэнкодер описывает сию ситуацию), т.е. правдоподие данного контекста. Оценка этой вероятности должна бы делаться согласно мат.модели, которая описана в первой половине статье, т.е. 1) невяка реконструкции 2) p(z) 3) нормировка 4) апприорная вероятность. Оказалось, что в MNIST 1ый коэффициент дает больший вклад, так что я делал лишь грубую оценку p(x|i), считая lg(p(x|i)) пропорциональным невязке автоэнкодера. Таким образом, «вектор правдопобия контекстов» — это лишь вектор невязок автоэнкодеров в моих примерах. Но в общем случае, расчет там будет сложнее.

а превращается этот вектор в объект уже в следующей области обработки информации (просто «волевым решением», а давайте попробуем и тут найти что полезного). Т.е. гипотеза как раз в том, что сам по себе этот вектор тоже может быть полезен для формирования новых абстрактных понятий. И, оказывается, бывает полезен, да.

2) Ну т.е. пространство контекстов не такое простое и линейное, как в моем примере. Скажем, если есть 10 позиций по X, 10 позиций по Y и 15 ориентаций, то контекстов будет уже 1500, т.е. произведение. Может быть, что у человека в зоне зрительной коры V1 контексты позиции и ориентации для картинки 120х120 пикселей занимает примерно 600 000 миниколонок, и занимается она узнаванием небольших элементов изображений. Если предположить, что каждая миниколонка (структурная единица неокортекса) — это вот такой автоэнкодер ответственный за позицию и ориентацию, то выходит 120х120 позиций и 40 ориентаций. А на весь неокортекс 400млн. миниколонок. Это тоже не слишком много, но, за счет разумной декомпозиции информации, значит, хватит. Т.е. одна область про трактовки в контекстах позиции и ориентации, другая про звуки при условии разной частоты и тембра звука, третья о направлении и скорости движения, четвертая про трактовку событий в различных социальных контекстах и т.п. Должно как-то хватать, архитектура (т.е. кто с чем соединен) оттачивалась эволюцией миллионами лет.

RGrimov Aug 17 2018 at 12:29

1. Спасибо, теперь понятнее.
2. А с физиологической точки зрения, контексты поворота в мозге человека дискретны? Есть ли какие исследования на эту тему?

Vasyutka Aug 17 2018 at 12:37

ну вот в начале этой работы резюме про селективнсоть зоны V1: http://homepages.inf.ed.ac.uk/jbednar/papers/fischer.ms14.pdf. Это еще годах в 60х нашли (Hubel &Wisel). Там даже интересно то, что кажется не трехмерное пространство разложено на плоскость, а аж пятимерное: позиция, ориентация, масштаб, направление движения.

Vasyutka Aug 17 2018 at 12:52

Смотрите, стандартная позиция, что миниколонка отвечает за детектирование именно фич. Но есть предположение, что на деле каждая миниколонка — тот еще автоэнкодер, который описывает целое многообразие фич в своем контексте. Нужно еще проводить исследования действительно ли это так. Но моя позиция, что биологическая аналогия — это хорошо, но оставлю это нейрофизиологам, надо делать алгоритмы вне зависимости нашли ли чего они или нет.

death_code Aug 26 2018 at 14:13

Думаю будет показательным провести эксперимент с геометрическими примитивами, такими как Шар, Куб и Цилиндр, которые для некоторых ориентаций будут трактоваться двояко.
То есть для некоторых отдельно взятых контекстов правильными будет несколько трактовок.
Можно предположить что в общем латентном пространстве произойдет некоторое «связывание» этих трактовок.
Будет интересно увидеть, как будет выглядеть результат декодирования такой неопределенной (двоякой) трактовки в различных контекстах.
Так же будет интересно пронаблюдать дедуктивное урезание неопределенной трактовки, при дополнительном предъявлении примитива с другого ракурса (тоже не определенного)

Vasyutka Sep 3 2018 at 11:52

Да, такой план и был, но квадратные грани с рисунками MNIST затруднили :). Действительно, тут могут быть равновероятные результаты в каком контексте трактовать.

Все то, что Вы перечисляете — это неотъемлемая часть мат.аппарата, которую еще предстоит сделать.