Обновить

Нейросети наконец-то «прозрели»? DeepMind переписали логику машинного зрения: разбор Nature

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров6.4K
Всего голосов 9: ↑7 и ↓2+8
Комментарии19

Комментарии 19

Что значит "переписали"? Это же настоящий искусственный интелект, он думает, решает задачи по матике, скоро заменит программистов и вообще всех! Переписывание это убийство!

Ну уж и всех...

Мне все время бросается в глаза принципиальное отличие обучения сетей и обучение человека. Возьмем новорожденного и попытаемся проследить его обучение. Самое интересное здесь наличие предела. Ослиного моста в терминологии средневековой бурсы.

У нейросетей нет жестких стадий, как у ребенка, у них другая природа ограничений: архитектура, представления, математика. Текстурный байас из статьи это не 'ослиный мост', который модель не может пересечь по своей природе. Это просто свойство обучающих данных и оптимизационной процедуры, которое можно менять. DeepMind и показали, что никакого естественного предела здесь нет.

Можно почитать про архитектуру JEPA от Яна Лекуна, с помощью которой он хочет приблизить модели к человеческому мышление.

Если вкратце, то животные, и человек в том числе, рождаются с "предобученной моделью", с базовыми знаниями о законах мира, которая "быстро дообучается".

Авторы изобрели metric learning ;) Но вообще идея прикольная, забавно, что раньше не сделал никто (видимо, не знали, что есть такой набор данных, область немного другая же (когнитивная психология))

Ну это ожидаемый эффект. Если в loss функции учитывается только правильная классификация объектов и никак не используется иерархия, то нейросетям проще распознавать по текстурным фичам. Чтобы нейросети начали выстраивать иерархию объектов нужно адаптировать процесс обучения.

Особенности таких ожидаемых эффектов - это высокий уровень послезнания. Все понимают, что это логично и так и есть. Но никто не смог предложить такое решение проблемы ранее, хоть оно и выглядит очевидным сейчас.

Точнее, в общем информационном шуме всех комментариев интернета идея наверняка озвучивалась сотни раз, как и все другие, рабочие и не рабочие. Но до прототипа никто не довёл. Самое интересное, что наверняка есть ещё десятки таких же очевидных идей, которые можно реализовать.

Особенности таких ожидаемых эффектов - это высокий уровень послезнания. Все понимают, что это логично и так и есть. Но никто не смог предложить такое решение проблемы ранее, хоть оно и выглядит очевидным сейчас.

Послезнание тут ни при чём, решение как раз не выглядит очевидным, в отличие от причин проблемы.

Тут скорее про то, что не существовало объемных датасетов, размеченных под такую задачу. Авторы в статье описывают, как они создали такой датасет.

Если в задаче есть красное яблоко, зелёное яблоко, красный мяч, то нельзя будет ответить, что тут лишнее. Тут явно не хватает данных.

И насколько же бросается стиль чата жпт в этой статье...

При первом прочтении - не заметил. Но после этого комментария, пересмотрел и пожалуй, соглашусь.

Если вам не важно фрукты или мяч - то еще не известно, кто из нас жпт ))

Очень интересно ! Но я бы поступил немного по другому. Есть отличные ИИ алгоритмы сегментации изображений. Они выделяют участки принадлежащие к одному типу: небо, дорога, дома, деревья. Необходимо проводить раздельное распознавание таких участков при помощи маскирования. Наверняка можно повторят процедуру сегментирования отдельных объектов участков: облака, машины, отдельные дома и деревья и даже иерархически глубже если необходим. Существуют также специальные фильтры выделения контуров (форм) изображений объектов: Собеля и Кэнни. Очевидно надо подвергнуть фильтрации выделенные объекты в отдельные потоки и проводить обучение и распознавание по контурам. Выходной слой сети может интегрировать данные слоев распознавания по контурам и текстурам.

Если почитать оригинальную статью, то там не совсем про форму. Просто раньше не было датасетов, которые бы могли научить модели отличать "живое" от "неживого", растения от животных, сухопутное от морского и т.д. А за счет нового датасета модели могут это понять, что делает их восприятие близким к человеческому.

Я в общем то согласен, но мне просто сразу бросилась в глаза проблема неправильного распознавания обьектов с нестандартными текстурами и цветами. Я сам сталкивался с этим и думал как лечить болезнь. Спасибо за комментарий, хороших выходных и Удачи!

И будет как в сериале Некст (next 2020г)

Была статья - достаточно давняя, где изучалось, что видят сверточные модели, в зависимости от применённых аугментаций. И только использование специальных шумов приводило к тому, что модели начинали фокусироваться на силуэте объектов.

До сегодняшнего дня все наши SOTA-модели (Vision Transformers, CLIP и прочие) страдали одной болезнью: текстурным смещением (texture bias). Они «смотрели» на мир не как мы (через форму и суть объекта), а как инопланетяне — через пятна цвета и фактуру. Покажите модели кошку, обтянутую текстурой слоновьей кожи, и для неё это будет слон. Точка.

Почитал оригинальную статью, и это не совсем про texture bias и форму объекта. Это про то, что модели не обладают знаниями о природе вещей, поэтому не могут понять разницу между сковородкой и собакой. В статье приводится пример, что модель скорее отнесет ящерицу к растениям, а не к животным. Потому что из снимков невозможно понять, что ящерица - это живое, подвижное существо.

Суть статьи - авторы создали синтетический датасет, который дает моделям некоторое представление о природе вещей, что позволяет им классифицировать объекты по высокоуровневым признакам, как это делает человек.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации