Comments 20
чем же отличается сильный ИИ от слабого.
возможность обучения на маленьком наборе данных ( всего одну картинку покажи человеку) из за наличия общего смыслового представления о мире и навыкам обучения.
хотя нет, пока что нет полного описания что это такое
остальные три критерия — нет. дура вроде IBM Watson или какая нить экспертная система может эмулировать самосознание но не являться сильным ИИ
Равно как и сильный ИИ Маугли не подходит по критериям — просто его не обучили
Автоэнкодеры не имеют к сильному ИИ никакого отношения.
У человека объёмное зрение, т.к. два глаза, поэтому он сперва ощутит форму кубика и его ориентацию в пространстве, а потом уже начнёт вникать что там на гранях написано (с поправкой на наклон и перевёрнутость грани). И читает не всегда быстро. Иначе человек мог бы легко читать текст составленный из таких повёрнутых под разным углом и сжатых букв.
А вы компутеру сразу усложнили задачу дав один глаз и показав плоское изображение 3д объекта.
Сильный ИИ будет сильным когда пройдёт то же взросление и обучение что и человеческий детёныш, а для этого не только софт нужен, но тело, взаимодействующее с реальностью (можно на первых порах виртуальные)
но вообще не претендую на то, что «вот так у человека», лишь демонстрация подхода. и да, а может у с рождения одноглазых так? как-то же люди с одним глазом берут объекты, не так ловко, но форму предмета понимают.
«начнёт вникать что там на гранях написано (с поправкой на наклон и перевёрнутость грани» — и вот тут как раз появится проблема трактовки, упускаемая сейчас многими.
«А вы компутеру сразу усложнили задачу дав один глаз и показав плоское изображение 3д объекта.
Сильный ИИ будет сильным когда пройдёт то же взросление и обучение что и человеческий детёныш, а для этого не только софт нужен, но тело, взаимодействующее с реальностью (можно на первых порах виртуальны» — тут полностью согласен
Сильный ИИ будет сильным когда пройдёт то же взросление и обучение что и человеческий детёныш
Нет, он будет сильным, когда будет обучаться так же, как человеческий детёныш.
Смысл тот же (я вкладывал)
Проще дать ИИ вирт тело как у человека, чем потом каждый день объяснять нюансы, например смысл фразы "близок локоть — да не укусишь", или зачем в проектируемом с помощью ИИ здании писсуары и на какой высоте их вешать.
Сильным он будет, когда будет способен решать все задачи, решаемые людьми. А как он будет обучаться — детали реализации.
Да, я имел в виду "обучаться чему-то новому так же быстро и качественно, как человеческий детеныш".
1) Твоё решение для оценки распределения плотности — весьма интересно, но требует теоретической оценки и экспериментальной проверки для более общих случаев: а) на случай непропорционального распределения числа обучающих примеров, скажем, 1000 цифр «0», 2000 цифр «8» и лишь 100 цифр «6».
б) более сложная взвесь, например, картинки из mnist с произвольным поворотом и смещением, т.е. хотя бы 100000, а не всего 100 аффинных преобразований.
в) неразделимая комбинация различных элементов, как в CIFAR-10 и CIFAR-100. Получится ли что полезное при попытке разложить новый незнакомый объект на классы из CIFAR?
г) более сложная метрика, чем L2.
Также рассмотрено очень мало примеров, и начинает казаться, что легко можно подобрать контрпример, где что-то из описанного не будет работать.
2) Интеллектом (а тем более, сильным), увы, тут пока всё же не пахнет, потому что ты так и не показал обучения без учителя и самостоятельное очищение данных.
3) Фактически, во многих примерах, аналогия твоим действиям — переход от одного мультиклассового классификатора к N бинарным классификаторам (другая аналогия — слои CNN, по слою на признак). Ты утверждаешь, что бинарные классификаторы + оценка дисперсии их предсказаний позволяют решать задачи лучше, чем альтернативные методы.
Более того, ты теперь раскладываешь по этим бинарным классификаторам объекты. Кажется, что при комбинировании в одно целое, легко можно было бы просто подобрать уровни срабатывания для этих отдельных классификаторов чисто статистическим образом (или с помощью backpropagation), что решало бы проблему оценки плотности распределения, которую умеет делать классификатор.
4) Есть работы по VAE и GAN, где авторы пытаются добиться некоррелированности («ортогональности») координатных осей в латентном пространстве. Я бы для дальнейшего развития рекомендовал посмотреть на них и сравнить с ними.
1) а) с непропорциональным разделением — это как раз история про то, что как бы байесов подход хорош, но он не про реальные объекты. Мы можем понять, что объект принадлежит какому-то классу, даже если никакогда не видели на входе такую реализацию. Вот потому что и приходится выдумывать систему «над», такую как общее латентное пространство, чтобы такие неровности в распределении компенсировать.
б) да, просто это уж много выч.мощности и GPU памяти нужно. работаю над этим. Не вижу теоретических пределов, почему бы не взлетело и при огромном количестве контекстов.
в) не понимаю, чем тут с CIFAR может помочь. мелкие картинки, никакой доп.закономерностей оттуда не вытащить, ну кроме аффиных преобрвазоний (а это уже очень много работ было на эту тему, те же Spatial Neural Networks)
г) безусловно.
Ну, да, пример один и в чем-то натянут. Работаю над другими задачами с помощью этого подхода — со временем станет больше.
2) конечно, не пахнет. но множественность трактовок и целеноправленное формирование абстрактных моделей, которые позволяют выбрать лучшую трактовку на нижнем уровне… ну это важная часть, пока что не нашедшая свое отражение в каждом первом ML framework.
3)CNN вообще имеет тут много общего, т.к. позиция на изображении — это тот же самый контекст, а «общее латентное пространство» — аналог общих весов в ядрах. И нет, это не бинарные классификторы, это именно что оценка функции правдопобия модели, описываемой атоэнкодером-контекстом. И да, если backpropogation всесилен и всегда находит отличный оптимум и мы знаем что за лоссы вставить, — то много проблем бы решелись. Но, как-то, это обычно не так. А как начинаются ограничения в размере обучающей выборке, то совсем все плохо. Вот и приходится что-то выдумывать.
4) Да, VAE, GAN — это определенно направления для развития. VAE дает распределение p(z) предсказуемое, а GAN вообще просто крут для формирования моделей автоэнкодеров. Теперь видя сон по ночам, просыпаюсь удовлетворенный, что потренировал свои GAN-ы, заметив пару нестыковок )))
1. А если объект находится в нескольких контекстах. Тогда количество автоэнкодеров будет декартовым произведением множества контекстов? Или суммой?
а превращается этот вектор в объект уже в следующей области обработки информации (просто «волевым решением», а давайте попробуем и тут найти что полезного). Т.е. гипотеза как раз в том, что сам по себе этот вектор тоже может быть полезен для формирования новых абстрактных понятий. И, оказывается, бывает полезен, да.
2) Ну т.е. пространство контекстов не такое простое и линейное, как в моем примере. Скажем, если есть 10 позиций по X, 10 позиций по Y и 15 ориентаций, то контекстов будет уже 1500, т.е. произведение. Может быть, что у человека в зоне зрительной коры V1 контексты позиции и ориентации для картинки 120х120 пикселей занимает примерно 600 000 миниколонок, и занимается она узнаванием небольших элементов изображений. Если предположить, что каждая миниколонка (структурная единица неокортекса) — это вот такой автоэнкодер ответственный за позицию и ориентацию, то выходит 120х120 позиций и 40 ориентаций. А на весь неокортекс 400млн. миниколонок. Это тоже не слишком много, но, за счет разумной декомпозиции информации, значит, хватит. Т.е. одна область про трактовки в контекстах позиции и ориентации, другая про звуки при условии разной частоты и тембра звука, третья о направлении и скорости движения, четвертая про трактовку событий в различных социальных контекстах и т.п. Должно как-то хватать, архитектура (т.е. кто с чем соединен) оттачивалась эволюцией миллионами лет.
2. А с физиологической точки зрения, контексты поворота в мозге человека дискретны? Есть ли какие исследования на эту тему?
То есть для некоторых отдельно взятых контекстов правильными будет несколько трактовок.
Можно предположить что в общем латентном пространстве произойдет некоторое «связывание» этих трактовок.
Будет интересно увидеть, как будет выглядеть результат декодирования такой неопределенной (двоякой) трактовки в различных контекстах.
Так же будет интересно пронаблюдать дедуктивное урезание неопределенной трактовки, при дополнительном предъявлении примитива с другого ракурса (тоже не определенного)
Автоэнкодеры и сильный искусственный интеллект