Google I/O, на удивление, не повезло. Крупнейшие анонсы от Google в сфере ИИ остались в тени конференции OpenAI, которая прошла 13 мая — на Хабре было сразу несколько постов о бьющей рекорды GPT-4o, в то время как о конференции Гугла была достаточно небольшая новость.
В общем, давайте вкратце расскажу, на что (предположительно) делает ставку Google, а также как я, какупоротый большой фанат LLM уже подключил Gemini Flash и GPT-4o в свой сервис VseGPT (доступ к нейросетям из России по API), и про то, как они ощущаются на русском языке.
Для начала — коротко, что показали.
Промт для Imagen 3: Three women stand together laughing, with one woman slightly out of focus in the foreground. The sun is setting behind the women, creating a lens flare and a warm glow that highlights their hair and creates a bokeh effect in the background. The photography style is candid and captures a genuine moment of connection and happiness between friends. The warm light of the golden hour lends a nostalgic and intimate feel to the image.
Теперь, когда с обязательной частью покончено, давайте перейдем к моему любимому — языковым моделям.
Первое, что бросается в глаза — 1М контекстного окна и очень низкая цена за обработку.
И то и другое достаточно важно для обычных бизнес-кейсов. Топовые сети типа GPT-4o или Claude 3 Opus — это очень круто, но целые книги или руководства на 200 страниц через них гонять прям дорого. Поэтому дешевая сеть — это “рабочая лошадка” для большинства ежедневных или автоматизированных кейсов. Релиз Gemini Nano также говорит о том, что Гугл хочет “малые сети везде и дешево”.
До этого того же уровня стоимости была Claude 3 Haiku c 200К контекста — примерно в 1.5-2 раза дешевле gpt-3.5-turbo и в 15-20 раз дешевле GPT-4o. Постоянно вижу, как используют Haiku и думаю, у Gemini Flash хорошие перспективы.
У меня есть свой небольшой тест, которым я проверяю каждую сеть, которую подключаю по API — запрос “Напиши 5 идей для детского праздника”
Не могу сказать, что тест какой-то гениальный, но для меня играет роль “насмотренность”: когда уже видел, как более 50 сетей отвечают на этот вопрос, понемногу чувствуешь общие паттерны, и “на что смотреть”.
Давайте немного прокомментирую этот ответ:
Ну т.е. сеть уже можно сказать на уровне gpt-3.5-turbo, что неплохо — учитывая, что она дешевле.
Я поддерживаю в рамках опенсорсного проекта свой бенчмарк переводов с английского на русский и обычно пробую на нем все выходящие нейросети для понимания того, насколько они «могут в русский язык». Это далеко не идеальный тест — но какое-то представление о возможностях модели он дает.
Вот скрин — нас интересует последняя колонка, она как раз отражает оценку по качеству перевода EN->RU.
Не стоит смотреть на то, что разница невелика — это метрика COMET, там небольшое увеличение может означать хороший прирост качества (например, разница между Google Translate и DeepL составляет всего-то 0.20 в пользу DeepL)
Что тут можно прокомментировать?
Интересно, что обе компании — и OpenAI, и Google — позаботились о скорости работы своих моделей.
GPT-4o выдает около 80 токенов в секунду, Gemini Flash — 150 токенов (по отчетам скорости генерации, которые я видел), хотя для GPT-4o, это, конечно, больший подвиг, т.к. сама по себе сеть большая.
Для сравнения — типовой результат более старой GPT-4-Turbo около 25 токенов в секунду, и это было довольно неплохо. Так что сейчас можно наслаждаться быстрыми ответами.
Да. Мне не удалось найти результатов тестов типа “поиск иголки в стоге сена” для Gemini Flash, чтобы понять, насколько она внимательно относится к контексту.
Но, думаю, в любом случае этот инструмент займет своё место в арсенале LLM-мастера.
Возможно, захочется почитать и это:
В общем, давайте вкратце расскажу, на что (предположительно) делает ставку Google, а также как я, как
❯ Коротко — про конференцию
Для начала — коротко, что показали.
- Релиз Gemini Pro 1.5 — большой нейросети на 1М контекста для обработки всего-всего. Личное мнение: пока не очень понятно, что поменялось, я видел её в превью с тем же названием.
- Релиз Gemini Flash 1.5 — небольшая сеть с дешевой обработкой 1M контекста. О ней мы поговорим позже.
- Встраивание ИИ во все, что только можно — Gmail, проект Astra личного голосового помощника. Тут тоже понятно — Google, видимо, не очень может обогнать сети OpenAI по качеству — но зато у него уже есть данные пользователя (Gmail, Календарь), на основании которых можно решать деловые задачи — например, суммаризацию встреч, или ответ на почту с учетом контекста. Вероятно, будут копать туда дальше.
- Также показали Imagen 3 — модель для генерации изображений по тексту. Выглядит довольно привлекательно, но непонятно, насколько это cherry-picking варианты (т.е. выбранные вручную оптимальные, а не средние)
Промт для Imagen 3: Three women stand together laughing, with one woman slightly out of focus in the foreground. The sun is setting behind the women, creating a lens flare and a warm glow that highlights their hair and creates a bokeh effect in the background. The photography style is candid and captures a genuine moment of connection and happiness between friends. The warm light of the golden hour lends a nostalgic and intimate feel to the image.
- Презентовали Veo (text-to-video) модель, конкурента SORA от OpenAI. Из ощущений при просмотре — немного мыльно; пока SORA выглядит лучше. Впрочем, и то, и другое пока не находится в публичном доступе и для тестирования недоступно.
- Представлены новые процессоры TPU 6 Trillium для обучения ИИ. Обещают, что они более чем в 4 раза мощнее, чем предыдущее поколение — хотя все равно в первую очередь будет использовать сам Google для тренировки своих моделей.
- Зарелизили мультимодальную Gemini Nano — это малая модель, которая будет работать локально на машине пользователя (!) и которую обещают встроить в Chrome 126 уже к 5 июня (!). Боюсь, качество у неё будет, конечно, не очень, но сам факт хотя бы постепенного переноса обработки текста с серверов на личные машины пользователя меня радует.
Теперь, когда с обязательной частью покончено, давайте перейдем к моему любимому — языковым моделям.
❯ Gemini Flash 1.5
Первое, что бросается в глаза — 1М контекстного окна и очень низкая цена за обработку.
И то и другое достаточно важно для обычных бизнес-кейсов. Топовые сети типа GPT-4o или Claude 3 Opus — это очень круто, но целые книги или руководства на 200 страниц через них гонять прям дорого. Поэтому дешевая сеть — это “рабочая лошадка” для большинства ежедневных или автоматизированных кейсов. Релиз Gemini Nano также говорит о том, что Гугл хочет “малые сети везде и дешево”.
До этого того же уровня стоимости была Claude 3 Haiku c 200К контекста — примерно в 1.5-2 раза дешевле gpt-3.5-turbo и в 15-20 раз дешевле GPT-4o. Постоянно вижу, как используют Haiku и думаю, у Gemini Flash хорошие перспективы.
❯ Тест: 5 идей для детского праздника
У меня есть свой небольшой тест, которым я проверяю каждую сеть, которую подключаю по API — запрос “Напиши 5 идей для детского праздника”
Не могу сказать, что тест какой-то гениальный, но для меня играет роль “насмотренность”: когда уже видел, как более 50 сетей отвечают на этот вопрос, понемногу чувствуешь общие паттерны, и “на что смотреть”.
Давайте немного прокомментирую этот ответ:
- Правильный русский язык. Это очень хорошо — и не всегда бывает — опенсорсные сети, часто вставляют нерусские слова. Например, Llama3-70B-Instruct добавляет английские, Qwen-110B иногда добавляет иероглифы (потому что сеть китайская). Также видно нормальное сочетание падежей (тоже бывает не всегда)
- Структурированный Markdown-выход. Означает, что сеть чувствительна к системному промту, ему следует и неплохо знает про Markdown, включая вложенные элементы синтаксиса. Тоже бывает не всегда; также может свидетельствовать о том, что сеть специально тренировали давать ответы в виде структурированных списков (на презентации Google I/O было видно, что ответ на вопрос по письмам пользователя также дается в формате списка — это частый кейс при суммаризации)
Ну т.е. сеть уже можно сказать на уровне gpt-3.5-turbo, что неплохо — учитывая, что она дешевле.
❯ Тест: перевод с английского на русский
Я поддерживаю в рамках опенсорсного проекта свой бенчмарк переводов с английского на русский и обычно пробую на нем все выходящие нейросети для понимания того, насколько они «могут в русский язык». Это далеко не идеальный тест — но какое-то представление о возможностях модели он дает.
Вот скрин — нас интересует последняя колонка, она как раз отражает оценку по качеству перевода EN->RU.
Не стоит смотреть на то, что разница невелика — это метрика COMET, там небольшое увеличение может означать хороший прирост качества (например, разница между Google Translate и DeepL составляет всего-то 0.20 в пользу DeepL)
Что тут можно прокомментировать?
- Gemini Flash набирает 89.27 — не очень много, но лучше gpt-3.5-turbo, и чуть хуже Claude 3 Haiku. Вполне приемлемо для недорогой модели.
- Интересен результат вышедшей GPT-4o — 90.06. Это наивысший результат среди прочих сетей, кроме Claude 3 Opus — та показывает 90.75, являясь абсолютным лидером. Известно, что GPT-4o значительно выигрывает даже у GPT-4-Turbo в задачах программирования — но если мы берем лингвистические задачи, другие сети тоже могут показывать себя очень достойно — так что, как любят говорить, “не все так однозначно”. Собственно, поэтому я люблю иметь выбор.
❯ Быстро? Быстро
Интересно, что обе компании — и OpenAI, и Google — позаботились о скорости работы своих моделей.
GPT-4o выдает около 80 токенов в секунду, Gemini Flash — 150 токенов (по отчетам скорости генерации, которые я видел), хотя для GPT-4o, это, конечно, больший подвиг, т.к. сама по себе сеть большая.
Для сравнения — типовой результат более старой GPT-4-Turbo около 25 токенов в секунду, и это было довольно неплохо. Так что сейчас можно наслаждаться быстрыми ответами.
❯ Всё?
Да. Мне не удалось найти результатов тестов типа “поиск иголки в стоге сена” для Gemini Flash, чтобы понять, насколько она внимательно относится к контексту.
Но, думаю, в любом случае этот инструмент займет своё место в арсенале LLM-мастера.