В deep learning за последние 10 лет произошла революция. В этом посте расскажем, почему это важно знать всем, на визуальных примерах, и рассмотрим перспективы на ресерч и внедрение моделей искусственного интеллекта, учитывающие социальное влияние моделей.
История достижений
На Хабре история достижений хорошо раскрыта в нашумевших статьях Как работает ChatGPT,
GPT-4. Ниже лишь некоторые интересные примеры развития возможностей deep learning.
В области стратегических игр значимый результат был получен в 2016-2017 году, когда модель меньше чем за 3 дня обучения смогла дойти до уровня чемпиона мира в игре go.

Языковая модель gpt-3.5 показала результаты лучше половины экзаменуемых на большой части экзаменационных тестов. gpt-4 смогла улучшить результаты на тестах, например AP Calculus, с которыми gpt-3.5 справлялась хуже всех экзаменуемых.

Основной прорыв в искусственном интеллекте произошел благодаря увеличению вычислительных ресурсов и количеству используемых для обучения моделей данных. На примерах ниже представлено, как влияет увеличение размера модели для генерации изображений на качество результата.


Foundational models: коротко о главном
Foundational models - это широкий класс моделей, обученных на больших датасетах, которые могут быть успешно зафайнтюнены под новые задачи. Они появились с развитием deep learning благодаря масштабированию обучения через увеличение датасетов и развитию gpu. В действительности, multi-gpu обучение для трансформеров и увеличение датасетов позволило появиться более точному и расширенному внутреннему представлению данных в моделях, а также за последние несколько лет в 10 раз увеличилась пропускная способность и память в gpu.
Ключевой аспект в обучении foundational models - обучение на неразмеченных данных, чтобы создать представление данных. После этого, модель может быть адаптирована под определенную задачу с меньшим датасетом через дообучение. В языковых моделях дообучение реализовано методом RLHF(reinforcement learning from human feedback).
Приведенные в начале статьи примеры показывают, что представленные модели влияют на общество, поэтому давайте разберемся в экосистеме, частью которой они являются.

На картинке выше показана экосистема, включающая в себя сбор данных, их обработку для моделей, обучение моделей, адаптацию под определенные задачи, создание приложений на основе моделей. Данные для создания моделей - это ресурсы, созданные людьми. Приложения, созданные на основе моделей, также используются людьми. Поэтому первый шаг к созданию безопасности - это курация датасетов и исследование адаптации под разные задачи.
Читателю на размышление - какие механизмы курации уже применяются в gpt-4 и других больших языковых моделях?