6 декабря Google опубликовала видеоролик про мультимодальность модели Gemini Ultra. Позднее выяснилось, что видео — лишь демка возможной производительности, а не реальный продукт. Грег Садецкий опубликовал простую демку, которая воссоздаёт 3 примера из видео. Для этих целей он задействовал доступную с конца сентября GPT-4V.
6 декабря компания Google внезапно представила семейство больших языковых моделей Gemini. Кроме трёх БЯМ говорили про мультимодальность одной из них — Gemini Ultra. Видеоролик с демонстрацией восхищал естественностью и простотой общения с искусственным интеллектом: не требовалось писать промпты каким-то сложным способом, пользователь общался голосом, рисунками и жестами.
Лишь позднее выяснилось, что демонстрация значительно преувеличивает возможности БЯМ. Конечно, распознавать жесты рук или объекты с рисунков модель всё же способна. Однако, как показывает детальное объяснение от Google, реальные текстовые промпты содержат больше информации.
В видеоролике модель с полуслова понимает намерения человека и спонтанно придумывает новые активности. А в блоге Google for Developers говорится, что для БЯМ объясняли правила и приводили примеры раундов игры, чтобы она отвечала в заданном формате.
По сути, видеоролик — не работа реального ИИ, а пример того, как она могла бы выглядеть. Реальная Gemini тоже может что-то подобное, но если «скармливать» фотографии и текстовые промпты. Видео же изображает ситуацию так, будто на вход БЯМ получает видео и голос.
Впрочем, это относительно легко реализовать и в текущих технологиях: достаточно периодически брать из видео кадр, а голос распознавать и преобразовывать в промпт. Примерно такое и сделал Грег Садецкий [Greg Sadetsky]. В его демке с ним общается GPT-4V компании OpenAI.
Вообще, Грег — не первый энтузиаст, воссоздавший в GPT-4V что-то из ролика про Gemini. Пьетро Ширано [Pietro Schirano] показал GPT-4V последовательность фотографий примера про игру в напёрстки, и продукт OpenAI с первой попытки угадал, где будет шарик.
Третий скриншот с ответом GPT-4. @skirano
Без вступления и концовки оригинальная презентация мультимодальности Gemini длится почти 6 минут. Видео разбито на 8 секций, в каждой из которых несколько примеров. Грег здоровается с БЯМ и выполняет всего три из наиболее запомнившихся:
- Распознавание жеста. GPT-4V ошибается и принимает сердечко из рук за телескоп, но справляется со второй попытки.
- Серия жестов. GPT-4V тоже без проблем понимает, что пользователь играет в «камень, ножницы, бумага».
- Распознавание объекта с рисунка. Схематичный набросок утки GPT-4V корректно считает за утку или похожую птицу на воде.
Задержка у Грега значительно выше, чем в видео Google. Gemini Ultra из постановочной демонстрации отвечает немедленно.
Проект опубликован на странице sagittarius.greg.technology/. Код проекта выложен на личном аккаунте Садецкого по адресу github.com/gregsadetsky/sagittarius.
Видеоролик из канала Грега Садецкого. До ката размещён вариант с обрезанным вступлением
Технически всё реализовано относительно просто, если не примитивно. Садецкий признаётся, что на написание проекта ушло около 2–3 часов.
Если судить по коду, распознавание и генерацию речи проводит другой сервис. Раз в 800 миллисекунд из видеоролика делается скриншот. Затем, когда от пользователя есть речевое сообщение, группа изображений и текстовый промпт из распознанной речи улетают в модель
gpt-4-vision
.Кстати, именно поэтому в демке Грега БЯМ не может что-то сказать без вопроса. В постановочной демонстрации Google не требовался даже промпт: ИИ проявлял инициативу и назвал игру «камень, ножницы, бумага» без реплики пользователя.
Понятно, что запросы в API сто́ят денег, а у OpenAI тарифы дорогие. За время разработки и записи демки Садецкий выполнил 77 запросов на $0.47.