atomlib 11 дек 2023 в 22:18

Энтузиаст повторил на GPT-4V три примера из видео про Google Gemini

3 мин

7.9K

Natural Language Processing*Искусственный интеллектМашинное обучение*

6 декабря Google опубликовала видеоролик про мультимодальность модели Gemini Ultra. Позднее выяснилось, что видео — лишь демка возможной производительности, а не реальный продукт. Грег Садецкий опубликовал простую демку, которая воссоздаёт 3 примера из видео. Для этих целей он задействовал доступную с конца сентября GPT-4V.

6 декабря компания Google внезапно представила семейство больших языковых моделей Gemini. Кроме трёх БЯМ говорили про мультимодальность одной из них — Gemini Ultra. Видеоролик с демонстрацией восхищал естественностью и простотой общения с искусственным интеллектом: не требовалось писать промпты каким-то сложным способом, пользователь общался голосом, рисунками и жестами.

Лишь позднее выяснилось, что демонстрация значительно преувеличивает возможности БЯМ. Конечно, распознавать жесты рук или объекты с рисунков модель всё же способна. Однако, как показывает детальное объяснение от Google, реальные текстовые промпты содержат больше информации.

В видеоролике модель с полуслова понимает намерения человека и спонтанно придумывает новые активности. А в блоге Google for Developers говорится, что для БЯМ объясняли правила и приводили примеры раундов игры, чтобы она отвечала в заданном формате.

По сути, видеоролик — не работа реального ИИ, а пример того, как она могла бы выглядеть. Реальная Gemini тоже может что-то подобное, но если «скармливать» фотографии и текстовые промпты. Видео же изображает ситуацию так, будто на вход БЯМ получает видео и голос.

Впрочем, это относительно легко реализовать и в текущих технологиях: достаточно периодически брать из видео кадр, а голос распознавать и преобразовывать в промпт. Примерно такое и сделал Грег Садецкий [Greg Sadetsky]. В его демке с ним общается GPT-4V компании OpenAI.

Вообще, Грег — не первый энтузиаст, воссоздавший в GPT-4V что-то из ролика про Gemini. Пьетро Ширано [Pietro Schirano] показал GPT-4V последовательность фотографий примера про игру в напёрстки, и продукт OpenAI с первой попытки угадал, где будет шарик.

Третий скриншот с ответом GPT-4. @skirano

Без вступления и концовки оригинальная презентация мультимодальности Gemini длится почти 6 минут. Видео разбито на 8 секций, в каждой из которых несколько примеров. Грег здоровается с БЯМ и выполняет всего три из наиболее запомнившихся:

Распознавание жеста. GPT-4V ошибается и принимает сердечко из рук за телескоп, но справляется со второй попытки.
Серия жестов. GPT-4V тоже без проблем понимает, что пользователь играет в «камень, ножницы, бумага».
Распознавание объекта с рисунка. Схематичный набросок утки GPT-4V корректно считает за утку или похожую птицу на воде.

Задержка у Грега значительно выше, чем в видео Google. Gemini Ultra из постановочной демонстрации отвечает немедленно.

Проект опубликован на странице sagittarius.greg.technology/. Код проекта выложен на личном аккаунте Садецкого по адресу github.com/gregsadetsky/sagittarius.

Видеоролик из канала Грега Садецкого. До ката размещён вариант с обрезанным вступлением

Технически всё реализовано относительно просто, если не примитивно. Садецкий признаётся, что на написание проекта ушло около 2–3 часов.

Если судить по коду, распознавание и генерацию речи проводит другой сервис. Раз в 800 миллисекунд из видеоролика делается скриншот. Затем, когда от пользователя есть речевое сообщение, группа изображений и текстовый промпт из распознанной речи улетают в модель gpt-4-vision.

Кстати, именно поэтому в демке Грега БЯМ не может что-то сказать без вопроса. В постановочной демонстрации Google не требовался даже промпт: ИИ проявлял инициативу и назвал игру «камень, ножницы, бумага» без реплики пользователя.

Понятно, что запросы в API сто́ят денег, а у OpenAI тарифы дорогие. За время разработки и записи демки Садецкий выполнил 77 запросов на $0.47.

Теги:

Хабы:

Энтузиаст повторил на GPT-4V три примера из видео про Google Gemini

Другие новости

Работа

Ближайшие события