Исследование МТИ нашло «систематические» ошибки в датасетах для обучения нейросетей

    Исследователи из Массачусетского технологического института проанализировали популярные датасеты, которые используются для обучения нейросетей, и обнаружили в них существенное количество ошибок маркировки. Десять датасетов, включая ImageNet, базу данных изображений, используемую для обучения алгоритмов компьютерного зрения, содержат в среднем 3,4% ошибок. Число ошибок варьировалось от чуть более 2,9 тысяч в ImageNet до более 5 миллионов в QuickDraw.

    Исследователи проанализировали наиболее часто используемые наборы данных с открытым исходным кодом, созданные за последние 20 лет. В общей сложности они оценили шесть датасетов изображений (MNIST, CIFAR-10, CIFAR-100, Caltech-256 и ImageNet), три набора текстовых данных (20news, IMDB и Amazon Reviews) и один набор аудиоданных (AudioSet).

    По оценкам исследователей, у QuickDraw был самый высокий процент ошибок — 10,12% от общего числа меток. Второе место занял CIFAR с примерно 5,85% неверно промаркированных изображений, третье ImageNet с 5,83%. Примерно 4% от набора данных Amazon Reviews промаркировано неверно. 

    Речь идет о ситуациях, когда, например, одну породу собак путают с другой; отзыв о продукте Amazon маркирован как отрицательный, хотя на самом деле он положительный; звук обозначен как свист, хотя на самом деле он представляет собой высокую ноту в песне.

    Предыдущее исследование МТИ показало, что у ImageNet «систематические проблемы с аннотациями». В ходе эксперимента исследователи отфильтровали ошибки в ImageNet и протестировали несколько моделей на исправленном наборе. Исследователи пришли к выводу, что более крупные модели работали на исправленных датасетах хуже, чем нейросети с меньшей емкостью.

    «Удивительно, но мы обнаружили, что модели с более низкой емкостью могут быть практически более полезными, чем модели с более высокой емкостью, в реальных наборах данных с высокой долей ошибочно помеченных данных», — указывают авторы исследования.

    Кроме того, большое количество ошибок в датасетах делает результаты тестов нейросетей ненадежными. Исследователи выпустили версию каждого датасета с ​​исправленными ошибками. Команда рекомендует специалистам по данным измерять реальную точность нейросетей.

    Комментарии 8

      +8

      Если вдруг у кого-нибудь возникнет вопрос насколько это важно и новость ли это вообще, то вот примерный контекст, в котором нужно это понимать:


      • всем известно, что датасеты шумные, чаще все это реально пограничные случаи, когда непонятно что написано/услышано, часто это отдельные породы собак, которые без бутылки не различишь или подобное, иногда на картинке просто несколько объектов, а метка одна нужна (для классификации) и т.д.
      • работа над исправлением идёт по всем фронтам — 1) Это и переразметка разными способами: один только ImageNet за последнее время переразметили раз пять, это и Relabeling Imagenet и ImageNet v2 и ImageNet ReaL. 2) И обучение устойчивых к шуму меток нейросетей (тут у всех по-разному, у кого-то большие сети устойчивее, у кого-то мелкие, надо контекст смотреть и внимать в тонкости экспериментов). 3) И вообще, огромный свежий поток работ по самообучению без меток в принципе.
      • Никто (ух, люблю эти обобщения) эти данные не использует в продакшене. Это академические датасеты, чтобы сравниваться друг с другом публично.
      • Отсюда следствие — исходные датасеты никуда не уходят даже после переразметки и очистки, чтобы можно было сравнивать с прошлыми работами, да на шумных данных, но методика одинаковая, не будешь же тысячи прошлых работ перезапускать на новых метках, чтобы сравнить со своей.

      А работа хорошая, полезная, но одна из миллиона других. Ну и вот, для примера, какие там ошибки в ImageNet'e:



      Military Сap это или Assault Rifle? Да это ложная дилемма и не решается выбором той или иной метки, а скорее выдачей мультиметок. Важно ли это в большой картине мира? Да не особо, для исследователей — да, чтобы разобраться в тонкостях почему нейронка выбрала тот или иной вариант и как ей помочь учиться, чтобы не штрафовать за подобные "ошибки" и как улучшить процессы разметки на будущее и т.д., для пользователей — "ну учёные что-то там делают, плохо делают наверное, как обычно, вон у них нейросети ошибаются, исследователи из MIT сказали"

        +3
        тут явная ошибка, надо коммент и статью местами поменять… ;)
          +1

          Может и пора уже свои начать писать, но у меня как-то легко пишется в ответ в комментариях, а начисто — не особо.

          +1
          >выдачей мультиметок
          А почему мульти? Вот я бы сказал, что на этом фото — шотландский гвардеец, это королевская гвардия Великобритании. На нем медвежья шапка и обычная парадная юниформа, а на плече у него штурмовая винтовка SA-80 (L85A1) в чехле, которую по нашей терминологии скорее всего назовут автоматом, чем она в сущности и является. Ну т.е. по-хорошему, для описания картинки отдельные метки вообще недостаточны сами по себе, а нужна некая семантическая сеть из них, которая описывала бы взаимосвязи, скажем что винтовка на плече, а не стоит у ноги.
            +2

            Всё так и даже ещё гораздо больше, современные системы компьютерного зрения могут дополнительно определить позу этого гвардейца, распознать его лицо, посчитать людей на фоне (и их позы и лица и во что одеты), и определить точную координату камеры в момент съёмки (если вон те разбитые кирпичи попадали другим в кадр и эти кадры привязаны к координатам), а ещё выдадут глубину каждой точки, нормали и вообще могут представить весь кадр в виде 3д-меша и описать его в виде связного предложения/графа объектов, как вы правильно и предлагаете.


            Но вот что интересно: всё это великолепие стало доступно буквально на днях, последние несколько лет, а ImageNet задумали в 2006 году и сделали и презентовали к 2009. В те годы была неразрешимой даже задача просто классификации, хотя бы назвать единственный объект, снятый отдельно. Всего 10 лет назад, в 2011 году лучшее академическое решение показывало 28% ошибок при условии пяти предсказаний на картинку.


            А сейчас мы подошли к пределу этой конкретной задачи и конкретного датасета — лучшие нейросети показывают точность 90% с одной попытки, что и вызвало вопросы — почему не 100% и как улучшить дальше? Ответ на эти вопросы оказался примерно таким — ограничения исходной постановки задачи ("одна метка на картинку") приводят к неопределённости и становятся очевидны ошибки или предвзятость в разметке (например, если на картинке стоит компьютер на столе, то разметчики почти всегда выбирают класс "компьютер", а не "монитор", "клавиатура" или "стол"). Это очень детально обсуждается в работе Гугла, ссылку на которую я выше давал, Imagenet ReaL (и которая релевантно называется "Are we done with ImageNet?").


            Как решать? Два пути:


            • переразметить так, чтобы согласованно (и люди и нейросети) получать доминирующий объект/класс
            • тоже самое, но для множества меток
            • вообще уходить в сторону более сложных задач.

            Каждое направление имеет смысл, но и недостатки — с одной стороны, переразмечать миллионы картинок сейчас может уже быть бессмысленно с учётом того, что задача сама по себе уже устаревает, с другой стороны, датасет остаётся важной вехой для сравнения и т.д.


            Я сосредоточился на ImageNet'e потому что он мне ближе всех, но в целом рассуждения касаются остальных упомянутых в значительной мере, но с нюансами — какой-нибудь cifar (малюсенькие картинки 32*32 из 10/100 классов) игрушечный, чтобы его переразмечать, MNIST — это уже ходячий мем, как датасет, который настолько смешной размеру и сложности, что ученых стыдят, если его используют не только как smoke test (потому что любой метода даёт точность 99%), а к примеру QuickDraw — вообще натуральные каракули из интернета, никакой принципиальной важности в его идеальной точности — просто нет.


            Но если хочется датасетов, где метки практически идеальные — вот есть Danish Fungi 2020 — Not Just Another Image Recognition Dataset, атлас грибов в Дании, проверенный волонтёрами и экспертами и в тестовом наборе имеющий точность 100%, потому что грибы из тестовой выборки не просто визуально оценены, но и класс подтверждён генетическим анализом.

              0
              Не, ну тут реально нужно пост писать. Хотя я понимаю, что это сложно, ответы на комменты мне тоже даются проще :)
                0
                >вон те разбитые кирпичи
                Это вполне может быть часть Букингемского дворца :)
                  0
                  Грибы — это вам не гвардейцы, они ошибок не прощают.

                  Другой вопрос, что мы таки тренируем. Бо если формулировка задана как «человеческое зрение», то я вот не очень уверен что среднестатистический человек сможет распознать те 100гб грибов, так что этот датасет тоже может быть не совсем валиден ;)

                  Это, кстати, вот вопрос. Насколько в этих всех ИИ эмуляторах человечности запланированы ошибки? Ведь людей без них не бывает…

            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

            Самое читаемое