Как стать автором
Обновить
89.89
Skillfactory
Онлайн-школа IT-профессий

Вокенизация — новый прорыв в области здравого смысла ИИ?

Время на прочтение7 мин
Количество просмотров4.4K
Автор оригинала: Karen Hao

В преддверии старта нового потока курса «Machine Learning Pro + Deep Learning», делимся с вами статьей о вокенизации — новом методе на основе неконтролируемого обучения, который позволяет масштабировать современные небольшие визуально-языковые наборы данных, подобные MS COCO, до размеров английской Википедии, то есть миллиардов записей. В сущности гигантские языковые модели учатся видеть мир. Подробности о том, что из себя представляет метод, как он работает и как может изменить искусственный интеллект, как всегда, под катом.



Вы, наверное, читали об этом, ведь мы писали об этом бесчисленное количество раз: GPT-3 — громоздкий ИИ, генерирующий текст, похожий на текст человека — это чудо. Но в основном это чудо только удивительный мираж. Проделайте несложный трюк: спросите у GPT-3 о цвете вороны, и она будет отвечать «черный» так же часто, как «белый», отражая фразу «белая ворона» в нашем языке. [прим. перев. — в оригинале речь идет о фразе black sheep — буквально «черная овца»].

И это — проблема языковых моделей. Они обучались только на текстах, поэтому им не хватает здравого смысла. Чтобы изменить ситуацию, исследователи из Университета Северной Каролины в Чэпел Хилл (далее UNC), разработали новую методику. Они называют ее «вокенизацией». Вокенизация дает подобным GPT-3 языковым моделям возможность «видеть».

Это не первая попытка совместить языковые модели и компьютерное зрение. Напротив, область быстро растет в этом направлении. Идея в том, что каждый из этих двух типов искусственного интеллекта силен по-своему. Языковые модели вроде GPT-3 обучаются неконтролируемо, то есть подход не требует ручной маркировки данных, а значит, легко масштабируется. В свою очередь, работающие с изображениями модели, например, системы распознавания объектов, напротив, учатся на реальных данных непосредственно. Другими словами, их понимание не опирается на род абстракции, которую дает текст. По фотографиям овец они «видят», что овцы в действительности белые.



Эти странные, тревожные фотографии показывают, что ИИ умнеет. Модели уже учатся генерировать изображения из подписей к ним — и это признак того, что сегодня они лучше понимают наш мир.

Способные разобрать как языковой, так и визуальный ввод модели, имеют широкое практическое применение. Если нам захочется создать, например, роботов-помощников, то им нужно компьютерное зрение, чтобы перемещаться, и понимание языка, чтобы разговаривать с людьми об окружающем мире. Но проще сказать, чем сделать. И сделать это не так же просто, как объединить уже существующую языковую модель с уже существующей системой распознавания объектов. Такое комбинирование требует обучения новой модели с нуля с помощью набора данных, содержащего и текст, и изображения, то есть требуется визуально-языковой набор данных.

Наиболее распространенный подход в подборе таких данных — компиляция коллекции изображений и подписей с описаниями. Например, картинка ниже описывается так: «Рыжая кошка сидит в чемодане, готовая к упаковке». Такой набор отличается от типичных наборов данных изображений, где одна и та же картинка обозначается единственным существительным, например, «кошка». Таким образом визуально-языковой набор данных учит модель ИИ не только распознанию объектов, но и тому, как с помощью глаголов и предлогов объекты соотносятся и взаимодействуют друг с другом.



Вполне понятно, почему такая обработка данных займет целую вечность. Вот почему существующие визуально-языковые наборы данных столь слабы. Популярный набор текстовых данных — английская Википедия, содержит почти все англоязычные записи Википедии — это около 3 миллиардов слов. Набор визуально-языковых данных, например, Microsoft Common Objects in Context (MS COCO) содержит всего 7 миллионов записей. Чтобы подготовить модель ИИ для чего-то полезного, нам попросту не хватает данных.

Вокенизация обходит эту проблему с помощью методов неконтролируемого обучения, масштабируя совсем не большое количество данных в MS COCO до размеров английской Википедии. Полученная визуально-языковая модель превосходит современные модели в некоторых сложнейших тестах, применяемых сегодня при оценке понимания языка искусственным интеллектом.

«Невозможно пройти современные тесты, просто попробовав сделать это несколько раз», — рассказывает Томас Вольф, соучредитель и главный научный руководитель стартапа по обработке естественного языка Hugging Face, который не участвовал в исследовании. «Это не игрушечный тест. Поэтому он так захватывает».

От токенов к вокенам


Давайте сначала разберемся с терминологией. Что же такое вокен? Используемые для обучения языковых моделей слова в области ИИ называются токенами. Поэтому исследователи UNC решили назвать вокеном изображение, связанное в их визуально-языковой модели с токеном. Алгоритм, который находит вокены для каждого токена, называется вокенизатором, а сам процесс называется вокенизацией.

Смысл вышенаписанного не только в том, чтобы показать, как сильно исследователи ИИ любят придумывать слова (хотя они действительно это любят). Термины помогают объяснить основную идею. Вместо того, чтобы начинать с набора данных изображений и вручную подписывать их (что очень медленно), исследователи UNC начали с набора языковых данных и применили неконтролируемое обучение, чтобы сопоставить слова и изображения. Такой подход очень хорошо масштабируется. Подробнее о нем рассказывается ниже.

Метод неконтролируемого обучения здесь, в конечном счете — это основной вклад всей работы в науку. Как же найти релевантное каждому слову изображение?

Вокенизация


Вернемся на мгновение к GPT-3. GPT-3 — часть семейства языковых моделей, известных как трансформаторы. Трансформеры — крупный прорыв 2017 года в применении неконтролируемого обучения к обработке естественного языка. Они изучают шаблоны человеческого языка, наблюдая за тем, как слова используются в контексте, а после создают основанное на этом контексте математическое представление каждого слова, то есть векторное представление слов. Векторное представление слова «кошка» показывает, например, что «кошка» чаще используется вместе со словами «мяу» или «рыжая», но реже со словами «лай» или «синяя».

Так трансформаторы приближаются к значениям слов, а GPT-3 пишет предложения, столь похожие на человеческие. Нейросеть отчасти полагается на векторные представления слов, чтобы понять, как собирать слова в предложения, а предложения в абзацы. Есть параллельный этому метод, который может применяться для изображений. Вместо того, чтобы сканировать текст на предмет шаблонов в применении слов, на предмет визуальных шаблонов сканируются изображения. Нейросеть сводит в таблицы данные о том, как часто кошка, скажем, появляется на кровати, а не на дереве, и создает вектор изображения «кошки» с этой информацией в качестве контекста.

Идея исследователей UNC — использовать оба метода векторизации на MS COCO. Они преобразовали изображения в векторы изображений, а подписи — в векторы слов. Векторы можно изобразить в трехмерном пространстве и буквально увидеть их связь друг с другом. Векторы изображений, которые тесно связаны с векторами слов, на графике отображаются ближе. Другими словами, визуальный вектор кошки теоретически должен перекрываться текстовым вектором кошки. Это довольно круто.

Вполне понятно, к чему это приводит. После того, как все векторы на графике сопоставлены и связаны друг с другом, легко сопоставить изображения — вокены со словами — токенами. И помните — изображения и слова сопоставляются на основе их векторов, но они также сопоставляются на основе контекста. Это полезно при работе с омонимами. Метод успешно справляется с омонимами, находя для каждого значения слова разные вокены. Например:


Вот ее контакт


Некоторые кошки любят контакт с человеком

Токен в примерах — слово контакт. Но в первом предложении контекст предполагает, что контакт относится к контактной информации, поэтому вокен — значок контакта. Во втором предложении контекст предполагает, что слово относится к прикосновению, поэтому вокен — это изображение кошки, которую гладят.

Исследователи использовали векторы изображений и векторы слов, созданные с помощью MS COCO, чтобы научить алгоритм работать с распознавателями символов. Обучившись, вокенизатор нашел вокены в английской Википедии. Подход не самый лучший: вокены нашлись только для около 40% токенов. Но подождите, это 40% набора данных с почти тремя миллиардами слов.

Исследователи переобучили языковую модель BERT — предшественнике GPT-3 от Google с открытым исходным кодом — на новом наборе данных. Затем они протестировали улучшенный BERT на шести разных тестах на понимание языка, включая SQuAD — набор данных ответов на вопросы Стэнфордского университета, который просит модели отвечать на вопросы понимания прочитанного по серии статей, и SWAG, который пытается сбить модели с толку тонкостями понимания английского языка, чтобы проверить, что модель — не имитация с запоминанием. Новый BERT лучше работал на всех тестах, что по мнению Томаса Вольфа значимый результат.

Авторы работы, PhD Хао Тан и его научный руководитель Мохит Бансал представят вокенизацию через две недели, на конференции по эмпирическим методам обработки естественного языка. Хотя работа только начинается, Вольф видит в ней важный принципиальный прорыв в работе неконтролируемого обучения для визуально-языковых моделей. Это похоже на искру, которая в свое время помогла значительно улучшить обработку естественного языка.

«В области обработки естественного языка огромный прорыв случился более двух лет назад, после обработка естественного языка стала богатой на события областью, она как будто опередила все остальные области ИИ», — рассказывает Вольф. «Но есть проблема объединения текста с чем-то другим. Современный ИИ похож на робота, который только говорит, но не видит и не слышит».

«Эта работа — один из примеров, когда ученым удалось подключить нейросеть к другой модальности, и она стала работать лучше», — говорит он. «Можно себе представить, что, возможно, некоторые представленные методы могут использоваться повторно, когда захочется применить эту действительно мощную языковую модель в роботе. Возможно, кто-нибудь применит тот же метод, чтобы подключить к тексту сенсорное восприятие робота».

Добавить здравого смысла ИИ будет куда проще с промокодом HABR, который добавит 10 % к скидке на баннере.

image



Рекомендуемые статьи


Теги:
Хабы:
Всего голосов 21: ↑20 и ↓1+19
Комментарии0

Публикации

Информация

Сайт
www.skillfactory.ru
Дата регистрации
Дата основания
Численность
501–1 000 человек
Местоположение
Россия
Представитель
Skillfactory School