Комментарии 19
Что значит "переписали"? Это же настоящий искусственный интелект, он думает, решает задачи по матике, скоро заменит программистов и вообще всех! Переписывание это убийство!
Мне все время бросается в глаза принципиальное отличие обучения сетей и обучение человека. Возьмем новорожденного и попытаемся проследить его обучение. Самое интересное здесь наличие предела. Ослиного моста в терминологии средневековой бурсы.
У нейросетей нет жестких стадий, как у ребенка, у них другая природа ограничений: архитектура, представления, математика. Текстурный байас из статьи это не 'ослиный мост', который модель не может пересечь по своей природе. Это просто свойство обучающих данных и оптимизационной процедуры, которое можно менять. DeepMind и показали, что никакого естественного предела здесь нет.
Можно почитать про архитектуру JEPA от Яна Лекуна, с помощью которой он хочет приблизить модели к человеческому мышление.
Если вкратце, то животные, и человек в том числе, рождаются с "предобученной моделью", с базовыми знаниями о законах мира, которая "быстро дообучается".
Авторы изобрели metric learning ;) Но вообще идея прикольная, забавно, что раньше не сделал никто (видимо, не знали, что есть такой набор данных, область немного другая же (когнитивная психология))
Ну это ожидаемый эффект. Если в loss функции учитывается только правильная классификация объектов и никак не используется иерархия, то нейросетям проще распознавать по текстурным фичам. Чтобы нейросети начали выстраивать иерархию объектов нужно адаптировать процесс обучения.
Особенности таких ожидаемых эффектов - это высокий уровень послезнания. Все понимают, что это логично и так и есть. Но никто не смог предложить такое решение проблемы ранее, хоть оно и выглядит очевидным сейчас.
Точнее, в общем информационном шуме всех комментариев интернета идея наверняка озвучивалась сотни раз, как и все другие, рабочие и не рабочие. Но до прототипа никто не довёл. Самое интересное, что наверняка есть ещё десятки таких же очевидных идей, которые можно реализовать.
Особенности таких ожидаемых эффектов - это высокий уровень послезнания. Все понимают, что это логично и так и есть. Но никто не смог предложить такое решение проблемы ранее, хоть оно и выглядит очевидным сейчас.
Послезнание тут ни при чём, решение как раз не выглядит очевидным, в отличие от причин проблемы.
Тут скорее про то, что не существовало объемных датасетов, размеченных под такую задачу. Авторы в статье описывают, как они создали такой датасет.
Если в задаче есть красное яблоко, зелёное яблоко, красный мяч, то нельзя будет ответить, что тут лишнее. Тут явно не хватает данных.
И насколько же бросается стиль чата жпт в этой статье...
Очень интересно ! Но я бы поступил немного по другому. Есть отличные ИИ алгоритмы сегментации изображений. Они выделяют участки принадлежащие к одному типу: небо, дорога, дома, деревья. Необходимо проводить раздельное распознавание таких участков при помощи маскирования. Наверняка можно повторят процедуру сегментирования отдельных объектов участков: облака, машины, отдельные дома и деревья и даже иерархически глубже если необходим. Существуют также специальные фильтры выделения контуров (форм) изображений объектов: Собеля и Кэнни. Очевидно надо подвергнуть фильтрации выделенные объекты в отдельные потоки и проводить обучение и распознавание по контурам. Выходной слой сети может интегрировать данные слоев распознавания по контурам и текстурам.
Если почитать оригинальную статью, то там не совсем про форму. Просто раньше не было датасетов, которые бы могли научить модели отличать "живое" от "неживого", растения от животных, сухопутное от морского и т.д. А за счет нового датасета модели могут это понять, что делает их восприятие близким к человеческому.
И будет как в сериале Некст (next 2020г)
Была статья - достаточно давняя, где изучалось, что видят сверточные модели, в зависимости от применённых аугментаций. И только использование специальных шумов приводило к тому, что модели начинали фокусироваться на силуэте объектов.
До сегодняшнего дня все наши SOTA-модели (Vision Transformers, CLIP и прочие) страдали одной болезнью: текстурным смещением (texture bias). Они «смотрели» на мир не как мы (через форму и суть объекта), а как инопланетяне — через пятна цвета и фактуру. Покажите модели кошку, обтянутую текстурой слоновьей кожи, и для неё это будет слон. Точка.
Почитал оригинальную статью, и это не совсем про texture bias и форму объекта. Это про то, что модели не обладают знаниями о природе вещей, поэтому не могут понять разницу между сковородкой и собакой. В статье приводится пример, что модель скорее отнесет ящерицу к растениям, а не к животным. Потому что из снимков невозможно понять, что ящерица - это живое, подвижное существо.
Суть статьи - авторы создали синтетический датасет, который дает моделям некоторое представление о природе вещей, что позволяет им классифицировать объекты по высокоуровневым признакам, как это делает человек.

Нейросети наконец-то «прозрели»? DeepMind переписали логику машинного зрения: разбор Nature