voneskinho 31 дек 2023 в 12:58

Foundational models: приведет ли масштабирование к AGI

Средний

2 мин

3.9K

Машинное обучение*Искусственный интеллект

В deep learning за последние 10 лет произошла революция. В этом посте расскажем, почему это важно знать всем, на визуальных примерах, и рассмотрим перспективы на ресерч и внедрение моделей искусственного интеллекта, учитывающие социальное влияние моделей.

История достижений

На Хабре история достижений хорошо раскрыта в нашумевших статьях Как работает ChatGPT,

GPT-4. Ниже лишь некоторые интересные примеры развития возможностей deep learning.

В области стратегических игр значимый результат был получен в 2016-2017 году, когда модель меньше чем за 3 дня обучения смогла дойти до уровня чемпиона мира в игре go.

Модель обучалась играя сама с собой и за 3 дня достигла superhuman уровня.

Языковая модель gpt-3.5 показала результаты лучше половины экзаменуемых на большой части экзаменационных тестов. gpt-4 смогла улучшить результаты на тестах, например AP Calculus, с которыми gpt-3.5 справлялась хуже всех экзаменуемых.

Сравнение применения языковых моделей к решению экзаменационных тестов.

Основной прорыв в искусственном интеллекте произошел благодаря увеличению вычислительных ресурсов и количеству используемых для обучения моделей данных. На примерах ниже представлено, как влияет увеличение размера модели для генерации изображений на качество результата.

Промт: A map of the United States made out of sushi. It is on a table next to a glass of red wine.

Промт: A portrait photo of a kangaroo wearing an orange hoodie and blue sunglasses standing on the grass in front of the Sydney Opera House holding a sign on the chest that says Welcome Friends!

Foundational models: коротко о главном

Foundational models - это широкий класс моделей, обученных на больших датасетах, которые могут быть успешно зафайнтюнены под новые задачи. Они появились с развитием deep learning благодаря масштабированию обучения через увеличение датасетов и развитию gpu. В действительности, multi-gpu обучение для трансформеров и увеличение датасетов позволило появиться более точному и расширенному внутреннему представлению данных в моделях, а также за последние несколько лет в 10 раз увеличилась пропускная способность и память в gpu.

Ключевой аспект в обучении foundational models - обучение на неразмеченных данных, чтобы создать представление данных. После этого, модель может быть адаптирована под определенную задачу с меньшим датасетом через дообучение. В языковых моделях дообучение реализовано методом RLHF(reinforcement learning from human feedback).

Приведенные в начале статьи примеры показывают, что представленные модели влияют на общество, поэтому давайте разберемся в экосистеме, частью которой они являются.

На картинке выше показана экосистема, включающая в себя сбор данных, их обработку для моделей, обучение моделей, адаптацию под определенные задачи, создание приложений на основе моделей. Данные для создания моделей - это ресурсы, созданные людьми. Приложения, созданные на основе моделей, также используются людьми. Поэтому первый шаг к созданию безопасности - это курация датасетов и исследование адаптации под разные задачи.

Читателю на размышление - какие механизмы курации уже применяются в gpt-4 и других больших языковых моделях?

Хабы:

Foundational models: приведет ли масштабирование к AGI

История достижений

Foundational models: коротко о главном

Публикации

Ближайшие события