atomlib 8 дек 2023 в 14:12

Google призналась, что демонстрация мультимодальности Gemini — это постановка

6 мин

16K

IT-компанииNatural Language Processing*Искусственный интеллектМашинное обучение*Презентации

6 декабря вместе с семейством моделей Gemini компания Google показала видеоролик, где человек взаимодействует с мультимодальной языковой моделью. На видео пользователь общается голосом, рисует и показывает жесты, а Gemini распознаёт увиденное и всячески развлекает. Как заметили наблюдатели и как позже признала Google, видеоролик преувеличивает технические способности ИИ.

10 мая 2023 года компания Google представила большую языковую модель (БЯМ) PaLM 2, но сразу же заявила о разработке замены для неё — семействе БЯМ Gemini. По написанию название обещанного совпадало со второй пилотируемой космической программой США. Разве что в отличие от инженеров НАСА представители Google произносили слово [ˈdʒem.ə.naɪ] в соответствии со словарной нормой.

«Джемини» сокращала отставание от советской космонавтики, Gemini — от OpenAI. Новую языковую модель Google много сравнивает с GPT-4, и утверждается, что одна из версий Gemini якобы превосходит конкурента. На странице проекта и в презентациях показан график, на котором преимущество в 3,6 % в бенчмарке MMLU нарисовано огромным скачком.

Google DeepMinds

При этом приводятся данные разных методик тестирования. Для GPT-4 промптинг выполнялся в стиле 5-shot, для Gemini Ultra — CoT@32. Это значит, что GPT-4 получала в промпте примеры решения нескольких похожих задач, а Gemini Ultra попросили написать chain-of-thought, цепочку рассуждений. Кроме консенсуса из 32 попыток Google дала своему детищу в бенчмарках другое преимущество: понижала температуру тогда, когда согласия не находилось, и применяла жадное декодирование (greedy decoding). А вот в бенчмарке MMLU с 5-shot БЯМ Gemini Ultra набрала всего 83,7 %.

Однако, некоторые наблюдатели(1, 2) считают подобное проведение тестов честным, поскольку это не попытка запутать, а лишь демонстрация максимальных возможностей моделей. Выбор методик обоснован в докладе Google. В приложении (пункт 9.1, страница 44) объясняется, что GPT-4 не удалось обойти Gemini Ultra даже тогда, когда решение OpenAI тестировали с промптингом CoT@32.

Gemini: A Family of Highly Capable Multimodal Models

Для реального пользователя эти тесты играют мало роли: он и вовсе прибегает к zero-shot, то есть просто задаёт БЯМ вопросы без примеров или специальных инструкций. Наконец, сто́ит помнить, что Gemini Ultra выйдет лишь в начале следующего года, а в общем доступе пока что доступна лишь Gemini Pro, которая слабее GPT-4.

Уже в мае было заявлено, что будущая модель будет мультимодальной. Действительно, Gemini умеет не только работать с текстом, но и обрабатывать изображения, видео и аудио.

Мультимодальность в презентации 6 декабря показали видеороликом, который быстро «завирусился» и собрал больше миллиона просмотров только на YouTube и несколько миллионов — на X. В видео пользователь общается с компьютером с помощью речи, демонстрируя объекты реального мира.

Джеминаевский искусственный интеллект якобы с полуслова понимает, чего желает пользователь, и быстро угадывает человеческие намерения. Общение происходит речью, а не текстом. Медленность работы БЯМ — частая жалоба. В видеоролике ИИ отвечает сразу же, но в начале видео стои́т предупреждение о монтажной склейке и подрезанных ответах Gemini.

На деле правдивость показанного ещё ниже.

Под видеороликом размещена ссылка на пост в блоге Google for Developers, где объясняется, как проводили эту демонстрацию. Уровень Gemini из демонстрации и уровень модели из текста разительно отличаются.

К примеру, в одном из примеров Gemini играла в напёрстки. В видеоролике человеку не приходится не только проговаривать правила — не нужно даже называть название игры. Рука закидывает на стол три стакана и слепленный из листа бумаги шарик, а искусственный интеллект немедленно понимает, что затеял белковый ассистент.

В блоге указано, что модели пришлось объяснять состояние каждого этапа. Надо задать естественным языком положение стаканов и начального положения шарика:

Instructions: There are three cups in position 1 (left), position 2 (middle), position 3 (right).

Starting position: The ball is in position 3.
Current state: empty, empty, ball

Затем модель получает два примера решения задачи. В каждом из них показаны три изображения, где стаканы передвигают, и дан правильный ответ, где находится шарик после этих перестановок.

Лишь затем Gemini решает такую же задачу уже самостоятельно. Решение выглядит далеко не так увлекательно, как та болтовня из видеоролика.

Шарик находится под первым слева стаканом. Gemini получает текстовый промпт:

Images:

Swap:

Ответ Gemini следует формату ответов из примеров:

1 and 3
Current state: empty, empty, ball

Может ли подобное повторить GPT-4V? Как выяснили в микроблогах, может и с первой попытки. GPT-4 «скормили» ту же последовательность картинок с примерами решений, и продукт OpenAI тоже указал на правильный стакан:

Третий скриншот с ответом GPT-4. @skirano

Примеры «потёмкинского» ИИ продолжаются. В маркетинговом видео человек показывает компьютеру серию жестов: сжатый кулак, расправленную ладонь, сжатый кулак с расправленными указательным и средним пальцами. Компьютер немедленно понимает, что пользователь хочет сыграть в «камень, ножницы, бумага». (В английском языке последовательность жестов в названии «rock, paper, scissors» иная: камень, бумага, ножницы.)

Реальному Gemini в промпт добавляют подсказку. Буквально: «подсказка: это игра».

What do you think I'm doing? Hint: it's a game.
Gemini: You're playing rock, paper, scissors.

В целом, в промптах для демонстрации содержалась половина ответа. В видеоролике руки рисуют объекты Солнечной системы: схематичное изображение Солнца, Сатурна и Земли. ИИ лаконично спрашивают: это правильный порядок?

В посте в блоге промпт значительно длиннее: БЯМ просят сравнить удалённость от Солнца и объяснить решение.

Is this the right order? Consider the distance from the sun and explain your reasoning.

Gemini: No, the correct order is Sun, Earth, Saturn. The Sun is the closest to the center of the solar system, followed by the Earth, and then Saturn.

Аналогичным образом короткий вопрос «если судить по конструкции, какая машина будет ехать быстрее?» звучал куда подробнее. Промпт из поста в блоге просит назвать более «аэродинамический» аппарат и объяснить решение на основе визуальных деталей.

Which of these cars is more aerodynamic? The one on the left or the right? Explain why, using specific visual details.

Gemini: The car on the right is more aerodynamic. It has a lower profile and a more streamlined shape. The car on the left has a higher profile and a more boxy shape, which makes it less aerodynamic.

Примеров несоответствия заявленного и реальности много. Особенно грубо вводит в заблуждение фрагмент видео, где Gemini показывают карту мира и просят придумать игру. ИИ тут же затевает географическую викторину: перечисляет признаки страны, а человеку нужно ткнуть пальцем на неё на карте.

В реальности правила игры содержались в промпте — их придумала не БЯМ:

Instructions: Let's play a game. Think of a country and give me a clue. The clue must be specific enough that there is only one correct country. I will try pointing at the country on a map.

Кроме того, Gemini показали два примера раунда игры. Так выглядел пример с ошибочным ответом:

Country: This country is huge island that is mostly covered in ice.
(Answer: Greenland)

Guess:

I am pointing at the country of Canada *incorrect*

Игра — результат описания и примеров, а не спонтанно рождённая активность по запросу.

Автор издания TechCrunch задаётся вопросом, почему потребовался такой стиль промптов. Gemini ошибался, поэтому для видео ему немного «помогли» длинными промптами? И вообще, распознала ли модель картинки с планетами?

Представители Google отчасти ответили на вопросы автора TechCrunch. Как указывает в твите вице-президент DeepMind по исследованиям и разработкам Ориоль Виняльс, видеоролик создан на основе взаимодействий с Gemini. Ориоль говорит, что «видео иллюстрирует то, как может выглядеть мультимодальный пользовательский опыт, построенный с Gemini». Виняльс буквально пишет: «Мы сделали его [видео], чтобы вдохновлять разработчиков».

С другой стороны, Виняльс приложил к твиту запись экрана, где показан промптинг Gemini Pro Vision короткими вопросами из видеоролика, а не более подробными из поста в блоге. Приводятся четыре вопроса из маркетингового видео: про формы кузова, солнечную систему, американские горки и утку на распутье. Gemini как распознаёт небесные тела с листочков, так и отвечает правильно на остальные вопросы.

@OriolVinyalsML

Впрочем, как указывает один из энтузиастов в комментариях к твиту Виняльса, реальный Google Bard с длинным промптом (из поста в блоге) отвечает на вопрос про автомобили неправильно. На данный момент Bard уже работает на основе Gemini Pro, «средней» из трёх языковых моделей семейства Gemini.

В колонке на Bloomberg и у себя в микроблоге журналистка Парми Олсон приводит признания Google и перефразирует их в более понятные термины.

Как заверяет представитель Google, речь пользователя — это настоящие выдержки из промптов, использованных для получения данных из Gemini. Олсон «переводит» эту фразу и объясняет, что человек просто зачитывал промпты. Позднее, когда ей показали пост из блога Google for Developers, она согласилась, что промпты в видео вовсе были ненастоящими.

Как рассказывает Олсон, в Google отдельно сняли видео, а модель Gemini получала на входе лишь некоторые кадры из видео и текстовые промпты. Общение было не в реальном времени и не голосом.

Олсон связывает дату презентации Gemini с недавними конфликтами внутри OpenAI. Журналистка напоминает, что на их фоне Google в конце ноября пыталась переманить часть клиентов ChatGPT.

Ни видео, ни любые другие сопроводительные материалы не называют, кто выполняет манипуляции с объектами на столе. Если судить по оттенку кожи, неразвитой мускулатуре кистей и акценту речи, это может быть глава Google Сундар Пичаи. Сам он выкладывает у себя в микроблоге этот видеоролик без указания, что показанное может быть реальным не до конца.

Это уже не первый раз, когда компания Пичаи проводит демонстрацию продукта, преувеличивая размах функций и готовность к реальному использованию. В 2018 году Сундар рассказал со сцены Google I/O о голосовом ассистенте Duplex, который умеет притворяться человеком, звонить за хозяина и назначать встречи.

За пять лет Duplex так и не вышел в общий доступ, оставшись постом в блоге. Gemini Ultra же должна выйти в начале следующего года. Пока что Google проводит некие проверки на безопасность.

Хабы:

Google призналась, что демонстрация мультимодальности Gemini — это постановка

Другие новости

Ближайшие события