company_banner

Стагнация машинного обучения. Многие задачи не будут решены никогда?



    Последние годы глубокого обучения — сплошная череда достижений: от победы над людьми в игре Го до мирового лидерства в распознавании изображений, голоса, переводе текста и других задачах. Но этот прогресс сопровождается ненасытным ростом аппетита к вычислительной мощности. Группа ученых из MIT, Университета Ёнсе (Корея) и Университета Бразилиа опубликовала метаанализ 1058 научных работ по машинному обучению. Он явно показывает, что прогресс в области машинного обучения (ML) — это производная от вычислительной мощности системы. Производительность компьютеров всегда ограничивала функциональность ML, но сейчас потребности новых моделей ML растут гораздо быстрее, чем производительность компьютеров.

    Исследование демонстрирует, что достижения машинного обучения по сути — немногим более чем следствие закона Мура. И по этой причине многие задачи ML не будут решены никогда в силу физических ограничений вычислителя.

    Исследователи проанализировали научные работы по классификации изображений (ImageNet), распознаванию объектов (MS COCO), ответам на вопросы (SQuAD 1.1), распознаванию именованных сущностей (COLLN 2003) и машинному переводу (WMT 2014 En-to-Fr).


    Вычислительные запросы ML, логарифмическая шкала

    Показано, что прогресс во всех пяти областях сильно зависит от увеличения вычислительной мощности. Экстраполяция этой зависимости дает понять, что прогресс по данным направлениям быстро становится экономически, технически и экологически неустойчивым. Таким образом, дальнейший прогресс в этих приложениях потребует значительно более эффективных с вычислительной точки зрения методов.


    Улучшение производительности в различных задачах машинного обучения как функция от вычислительной мощности модели обучения (в гигафлопсах)

    Почему машинное обучение настолько зависит от вычислительной мощности


    Есть важные основания полагать, что глубокое обучение по своей природе более зависит от вычислительной мощности, чем другие методы. В частности, из-за роли гиперпараметризации и того, как масштабируется система, когда используются дополнительные обучающие данные для повышения качества результата (например, для уменьшения частоты ошибок классификации, среднеквадратичной ошибки регрессии и т. д.).

    Было доказано, что значительные преимущества дает гиперпараметризация, то есть реализация нейронных сетей с количеством параметров больше, чем количество точек данных, доступных для ее обучения. Классически это привело бы к переобучению. Но методы стохастической градиентной оптимизации обеспечивают регуляризующий эффект за счет ранней остановки, переводя нейронные сети в режим интерполяции, где обучающие данные подходят почти точно, сохраняя при этом разумные прогнозы по промежуточным точкам. Пример крупномасштабных сетей с гиперпараметризацией — одна из лучших систем распознавания образов NoisyStudent, у которой 480 млн параметров на 1,2 млн точек данных ImageNet.

    Проблема гиперпараметризации состоит в том, что число параметров глубокого обучения должно расти по мере роста числа точек данных. Поскольку стоимость обучения модели глубокого обучения масштабируется с произведением числа параметров на число точек данных, это означает, что вычислительные требования растут как минимум в квадрате числа точек данных в гиперпараметризованной системе. Квадратичное масштабирование еще недостаточно оценивает, как быстро должны расти сети глубокого обучения, поскольку объем обучающих данных должен масштабироваться гораздо быстрее, чем линейно, чтобы получить линейное улучшение производительности.

    Рассмотрим генеративную модель, у которой 10 ненулевых значений из возможных 1000, и рассмотрим четыре модели для попытки обнаружить эти параметры:

    • Модель с оракулом: у нее 10 точных параметров в модели
    • Экспертная модель: 9 правильных и 1 неправильный параметр
    • Гибкая модель: все 1000 потенциальных параметров в модели, и использует оценку методом наименьших квадратов
    • Регуляризованная модель: как и гибкая модель, тоже задействует все 1000 потенциальных параметров, но теперь в регуляризованной модели (лассо)


    Влияние сложности модели и регуляризации на производительность модели (измеряемое как отрицательный log10 нормализованной среднеквадратичной ошибки по сравнению с оптимальным предиктором) и на вычислительные требования, усредненные по 1000 симуляциям на каждый случай; а) средняя производительность по мере увеличения размеров выборки; b) среднее вычисление, необходимое для повышения производительности

    Этот график обобщает принцип, изложенный Эндрю Ыном: традиционные методы машинного обучения лучше работают на малых данных, но гибкие модели ML лучше работают с большими данными. Общий феномен гибких моделей заключается в том, что у них более высокий потенциал, но также значительно больший объем данных и вычислительные потребности.

    Мы видим, что глубокое обучение работает хорошо, потому что использует гиперпараметризацию для создания очень гибкой модели и (неявную) регуляризацию, чтобы уменьшить сложность выборки до приемлемой. В то же время, однако, глубокое обучение требует значительно больше вычислений, чем более эффективные модели. Таким образом, увеличение гибкости ML подразумевает зависимость от больших объемов данных и вычислений.

    Вычислительные пределы


    Производительность компьютеров всегда ограничивала мощность систем ML.

    Например, Фрэнк Розенблатт описал первую трехслойную нейросеть в 1960 году. Были надежды, что она «продемонстрирует возможности использования перцептрона в качестве устройства распознавания образов». Но Розенблатт обнаружил, что «по мере увеличения числа соединений в сети нагрузка на обычный цифровой компьютер вскоре становится чрезмерной». Позже в 1969 году Мински и Паперт объясняли ограничения трехслойных сетей, включая неспособность обучиться простой функции XOR. Но они отметили потенциальное решение: «Экспериментаторы обнаружили интересный способ обойти эту трудность путем введения более длинных цепочек промежуточных единиц» (то есть путем построения более глубоких нейронных сетей). Несмотря на этот потенциальный обходной путь, бóльшая часть академической работы в этой области была заброшена, потому что в то время просто не было достаточно вычислительной мощности.

    В последующие десятилетия улучшения в аппаратном обеспечении обеспечили повышение производительности примерно в 50 000 раз, а нейронные сети пропорционально увеличили свои вычислительные потребности, как показано на КДПВ. Так как рост вычислительной мощности на один доллар примерно соответствовал вычислительной мощности на один чип, экономические затраты на запуск таких моделей оставались в значительной степени стабильными с течением времени.

    Несмотря на такое значительное ускорение CPU, модели глубокого обучения еще в 2009 году оставались слишком медленными для крупномасштабных приложений. Это вынуждало исследователей сосредоточиться на моделях меньшего масштаба или использовать меньше примеров для обучения.

    Поворотным моментом стал перенос глубокого обучения на GPU, что сразу дало ускорение в 5-15 раз, которое к 2012 году выросло до 35 раз и которое привело к важной победе AlexNet на конкурсе Imagenet 2012 года. Но распознавание изображений было лишь первым бенчмарком, где выиграли системы глубокого обучения. Вскоре они победили в обнаружении объектов, распознавании именованных сущностей, машинном переводе, ответе на вопросы и распознавании речи.

    Внедрение глубокого обучения на GPU (а затем ASIC) привело к широкому распространению этих систем. Но объем вычислительной мощности в современных системах ML рос еще быстрее, примерно в 10 раз в год с 2012 по 2019 год. Эта скорость намного выше, чем общее улучшение от перехода к GPU, скромный прирост от последнего издыхания закона Мура или от повышения эффективности обучения нейронных сетей.

    Вместо этого основной рост эффективности ML произошел от запуска моделей в течение большего времени на большем количестве машин. Например, в 2012 году AlexNet обучалась на двух GPU в течение 5-6 дней, в 2017 году ResNeXt-101 обучалась на восьми GPU в течение более 10 дней, а в 2019 году NoisyStudent обучалась примерно на тысяче TPU в течение 6 дней. Другим крайним примером является система машинного перевода Evolved Transformer, которая при обучении использовала более 2 млн часов GPU, что стоило миллионы долларов.

    Масштабирование вычислений глубокого обучения путем увеличения аппаратных часов или количества микросхем является проблематичным в долгосрочной перспективе. Поскольку оно подразумевает, что затраты масштабируются примерно с той же скоростью, что и увеличение вычислительной мощности, а это быстро сделает дальнейший рост невозможным.

    Будущее


    Печальный вывод из вышесказанного.

    Следующая таблица показывает, какая вычислительная мощность и стоимость системы позволит достичь определенных целей в задачах ML, если экстраполировать текущие модели.



    Задачи машинного обучения будут запускаться на самых мощных суперкомпьютерах.

    Авторы научной работы считают, что требования для поставленных целей не будут выполнены. Хотя они рассматривают теоретически возможные варианты их достижения: улучшение эффективности без увеличения производительности, аппаратные ускорители типа TPU и FPGA, нейроморфные вычисления, квантовые вычисления и прочие, но ни одна из этих технологий (пока) не позволяет преодолеть вычислительные пределы ML.
    Основной вывод. Уже в ближайшем будущем компьютерная производительность станет реальным барьером для улучшения эффективности множества задач машинного обучения по текущей траектории прогресса.

    Selectel
    ИТ-инфраструктура для бизнеса

    Комментарии 27

      +2
      Два вопроса: «зачем нужны квантовые компьютеры для обычных вычислений», и «зачем нужны нейросети, которые современные компьютеры не могут обеспечить вычислительно» — сливаются в один ответ?
        0
        42?
        +2

        Т.е. оно не работает, не потому что модель кривая и дата-сет неправильно размечен, а потому что мощности не хватает. Ок :)

          0

          Оно работает, но не эффективно. Настолько неэффективно что эта неэффективность станет потолком в ближайшем будущем.


          Это нормальный эволюционный процесс, когда то память была дорогая, придумали реляционные БД чтобы её использовать эффективно, сейчас вычислительная мощь дорогая, но дешёвая память, стал популярен nosql, чтобы эффективно использовать вычислительную мощность за счёт неэффективного использования памяти.

          +4

          Учитывая, что на arxiv.org куча статей вида: "Мы тут оттюнили гиперпараметры, добавили слоёв, и тренировали 3 дня, а не 2 как вот в этой работе, и достигли нового рекорда в точности! (0.2% прибавки по сравнению с лучшим опубликованным результатом)" и в статье не указан принцип отбора работ, то вполне возможно, что они в основном измерили тренд в доступных исследователям вычислительных мощностях, в то время как действительно значительные достижения утонули в шуме.

            +4

            Да. Есть же маленькие эволюционные улучшения в архитектурах сетей и подходах к обучению, которые потихоньку делают их эффективнее и итоговый результат может сильно отличаться.
            Например, в AlexNet сравнили разные функции активации и пришли к выводу, что relu ускоряет сходимость раз в 5. Сейчас для сетей пробуют ещё какие-то функции, и те тоже дают прирост.
            Или в mobileNet отказались от свёртки 3х3 сразу для всех каналов и разбили на композицию двух слоёв — свёртка 3х3 для каждого канала отдельно и свёртка 1х1 между всеми каналами. Вычислительно это быстрее в несколько раз, а с точки зрения работы нейронной сети оказалось не сильно хуже.
            Ещё придумали механизм для attention, развитием которого стали трансформеры. Не удивлюсь, если придумают что-то ещё более эффективное.

              +1

              Так где-то была статья, что тренд в разработке новых моделей изменился. Раньше гнались за размером и новыми рекордами метрик. Теперь гонятся за эффективностью без падения метрик.

                +2
                Вы привели примеры улучшений в разы. В таблицах — порядки, по 10-20 порядков. Разы против миллиардов. Ну хорошо, найдут несколько крутых способов оптимизации — ускорят в сто-двести раз. Только нужны-то миллиарды раз.

                Нужно принципиально иное решение, иной подход.
                  +2

                  Нужно учитывать, что модели в исследованиях обучаются начиная с минимума знаний о внешнем мире: только то, что закодировано в архитектуре сети. То есть, по сравнению с живыми существами, они должны ещё и воссоздать то, что было уже найдено миллионами лет эволюции. Поиск архитектур сетей, которые кодируют больше такой информации (inductive bias) — одно из направлений исследований в области машинного обучения.


                  В каком-то смысле исследователи сейчас делают работу уже проделанную эволюцией.


                  Другие подходы, кроме обучения с нуля, конечно нужны и ими занимаются. Lifelong learning в общем, разные виды эпизодической памяти, консолидация знаний сохраненных в эпизодической памяти в частности и т.п.

                    +1

                    Ещё несколько лет назад считали астрономическое число возможных ходов в игре Го и авторитетно заявляли, что уж эту-то игру, в отличие от шахмат, компьютер никогда не освоит на достойном уровне. А поди ж ты как оно повернулося… Учитывая экспоненциальный рост технологий, наверно, безапелляционно заявлять «никогда» уже не стоит, чтобы потом стыдно не было. Ну да, на существующих мощностях и алгоритмах упрёмся в некий потолок, а потом что-то принципиально новое появится, какой-нибудь биологический или квантовый ускоритель, и вот опять откроются кажущиеся бесконечными просторы.

                      0
                      В оценке результатов ML важно понимать — хотим ли мы чтобы AI был на уровне людей или лучше чем люди (к примеру — вождение машин). Совсем не исключено, что в играх и люди и учившиеся на их партиях компьютеры находятся в некоем локальном минимуме ;) пространства всех возможных вариантов.
                        0

                        Чисто в научном плане нет смысла искусственно ограничивать возможности AI какими-то нашими хотелками. Надо его улучшать до предела, просто чтобы узнать, где этот предел находится (и есть ли он вообще). А в играх уже давно выяснилось, что обучать компьютер на игре с самим собой значительно более эффективно, чем на человеческих партиях (AlphaGo и OpenAI Five именно так учились и превзошли людей). Это и интуитивно понятно — у людей есть свои стереотипы в играх, которые далеко не всегда будут верны и максимально эффективны, незачем их передавать машине. Если мы действительно играем хорошо, то и машина сможет это обнаружить самостоятельно, а если наш подход ущербен, машина не упрётся в него до того, как нащупает лучшие стратегии.

                +1
                Ну логично, изобрели МЛП — был ИНС хайп, достигли их предела — он закончился. Недавно изобрели новые архитектуры ИНС — новый хайп, поекспойтили их, насколько они годны, достигли их лимита. Но неизбежно будут найдены новые архитектуры с новыми возможностями, отчасти по ходу развития понимания устройства мозга, ну а потом потенциально их перенос на квантовые копьютеры.
                Причин полагать что МУ зашло в тупик нет, кмк. Даже наоборот, так полагать — очень странно.
                  –1
                  В химии сейчас тоже набирает популярность Machine Learning. Но я считаю, что это тупиковый путь. Какую-то конечно можно пользу извлечь, но принципиально нового понимания не добиться. Машина ведь оперирует исключительно тем набором параметров, которые заложены и на эврестику (в рамках ML) не способна.
                    0

                    Я не согласен. Вам нужно освоить понятие обобщающей способности (generalization) из ML. Еще нужно снова понять предельные возможности интерполяции, экстраполяции, аппроксимации и в чем разница между ними.)))
                    Не существует никаких сильных методов, которые делают ВСË из НИЧЕГО как в фильме "Трансцендентность". Это глупость и фантазия.
                    Все известные науке интеллекты осваивают знания через обучение и никак иначе.

                      0
                      Я, наверное, немного другое имею ввиду. Возьмём какой-нибудь упрощенный пример. Допустим нас интересует электропроводность соединения, а в качестве входных параметров берем состав, температуру плавления и межатомное расстояние. Естественно, что машина будет перебирать именно эти параметры, подгоняя под них весовые коэффициенты. А если, например, в действительности нужно ещё учесть энтальпию образования? Откуда такая информация у машины? Все равно это осмыслить должен человек, прежде чем это появится у машины. Надеется, что машина переберет все мыслимые и немыслимые свойства даже о существовании которых она не подозревает? Безусловно ML полезно, но абсолютизировать его, наверное, не стоит.
                        0

                        А никто не абсолютизирует ML! Человек тоже про энтальпию не догадается, если этого нет в учебниках. Это вы жестко абсолютизирует возможности человека. Извините, но только 40000 лет потребовалось, чтобы человечество научилось эффективно передавать знания из поколения в поколение. И только такое время спустя, а не сразу, как представляете вы, появилось понятие энтальпии.

                          0
                          человек тоже про энтальпию не догадается, если этого нет в учебниках

                          По вашему выходит, что учебники существовали до человека. Как это ни удивительно, но да, иногда человек может понять то, о чем раньше не догадывались. Очень редко и не на пустом месте, конечно.
                          а не сразу, как представляете вы

                          я такого не говорил
                      0

                      А выход за пределы эвристик ML — это тупик. Потому что иные эвристики не работают. Тут уже сложно объяснять почему, избавьтесь хотя бы от одного предрассудка.

                        0
                        Любая модель — это эвристика. При этом, нет правильных моделей, есть более полезные и менее полезные, это зависит от задачи. Почему Вы говорите, что ML — это правильные модели?
                          0

                          Модели, описывающие инопланетные закономерности, неинтересны. Они не работают в нашем мире. И тут важно понять, что такое феномен нашего мира.

                            0
                            Этот комментарий вообще непонятен.
                            1) причем тут инопланетные закономерности?
                            2) атомы на других планетах какие-то другие?
                              0

                              Определите для себя сами границу между "инопланетный мир" и "наш мир".


                              В нашем мире, в частности, если слегка изменить причину, то следствие также несильно изменится. Это феномен, который трудно понять, но все же он естественный!

                                +2
                                Это не так.
                                Даже для математических абстракций, случается, что поведение системы качественно изменяется при бесконечно малом изменении параметров.

                                А уж реальный мир сплошь и рядом состоит из катастрофических изменений при небольшом изменении параметра. Опустили электроды в жидкость, начинаем потихоньку добавлять напряжение. Тока нет, нет, потом раз, превысили напряжение разложения, на электродах пошел электролиз, ток скакнул на порядки. Титрование: по каплям добавляем реактив, чуть pH перешла границу — индикатор поменял цвет с красного на синий. Почти вся химия — это дискретные переходы. Греем воду — добавляем по сотой градуса — сравнялось давление паров воды с атмосферным — раз и вода закипела. Фотоэффект — увеличиваем энергию фотонов, оп, превысили работу выхода электрона из металла — потек фототок. Есть уж вообще страшные примеры: чистая вода и уксусная кислота — отвратительно проводят ток, смешали — отличный электролит. Такие примеры можно приводить до бесконечности, уж не знаю, в каком мире вы живете.
                                  –3

                                  Реальный мир, наоборот, состоит из значительно преобладающих гладкостей. Нелинейности предсказуемы, точек разрыва первого и второго рода очень мало. Бифуркации (динамические точки разрыва) открыли во второй половине 20-го века… Вот наш мир!

                                    +2
                                    Квантовая механика особенно гладкая… )))
                                      –2

                                      Вы пытаетесь универсализировать интеллект, натравить его на все, что только возможно, но это тупик. Вся ML зиждется на специализации на конкретных закономерностей, присущих нашему макроскопическому миру. Да я, к тому же, не вижу проблем по освоению квантового мира… У него также свойства обычны…

                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                    Самое читаемое