janvarev 15 мая в 17:01

Да, это не OpenAI — на Google I/O показали LLM Gemini Flash 1.5 с дешевым контекстом на 1 миллион токенов

Простой

5 мин

6.1K

Блог компании Timeweb CloudNatural Language Processing*Искусственный интеллектМашинное обучение*

Google I/O, на удивление, не повезло. Крупнейшие анонсы от Google в сфере ИИ остались в тени конференции OpenAI, которая прошла 13 мая — на Хабре было сразу несколько постов о бьющей рекорды GPT-4o, в то время как о конференции Гугла была достаточно небольшая новость.

В общем, давайте вкратце расскажу, на что (предположительно) делает ставку Google, а также как я, как ~~упоротый~~ большой фанат LLM уже подключил Gemini Flash и GPT-4o в свой сервис VseGPT (доступ к нейросетям из России по API), и про то, как они ощущаются на русском языке.

❯ Коротко — про конференцию

Для начала — коротко, что показали.

Релиз Gemini Pro 1.5 — большой нейросети на 1М контекста для обработки всего-всего. Личное мнение: пока не очень понятно, что поменялось, я видел её в превью с тем же названием.
Релиз Gemini Flash 1.5 — небольшая сеть с дешевой обработкой 1M контекста. О ней мы поговорим позже.
Встраивание ИИ во все, что только можно — Gmail, проект Astra личного голосового помощника. Тут тоже понятно — Google, видимо, не очень может обогнать сети OpenAI по качеству — но зато у него уже есть данные пользователя (Gmail, Календарь), на основании которых можно решать деловые задачи — например, суммаризацию встреч, или ответ на почту с учетом контекста. Вероятно, будут копать туда дальше.
Также показали Imagen 3 — модель для генерации изображений по тексту. Выглядит довольно привлекательно, но непонятно, насколько это cherry-picking варианты (т.е. выбранные вручную оптимальные, а не средние)

Промт для Imagen 3: Three women stand together laughing, with one woman slightly out of focus in the foreground. The sun is setting behind the women, creating a lens flare and a warm glow that highlights their hair and creates a bokeh effect in the background. The photography style is candid and captures a genuine moment of connection and happiness between friends. The warm light of the golden hour lends a nostalgic and intimate feel to the image.

Презентовали Veo (text-to-video) модель, конкурента SORA от OpenAI. Из ощущений при просмотре — немного мыльно; пока SORA выглядит лучше. Впрочем, и то, и другое пока не находится в публичном доступе и для тестирования недоступно.
Представлены новые процессоры TPU 6 Trillium для обучения ИИ. Обещают, что они более чем в 4 раза мощнее, чем предыдущее поколение — хотя все равно в первую очередь будет использовать сам Google для тренировки своих моделей.
Зарелизили мультимодальную Gemini Nano — это малая модель, которая будет работать локально на машине пользователя (!) и которую обещают встроить в Chrome 126 уже к 5 июня (!). Боюсь, качество у неё будет, конечно, не очень, но сам факт хотя бы постепенного переноса обработки текста с серверов на личные машины пользователя меня радует.

Теперь, когда с обязательной частью покончено, давайте перейдем к моему любимому — языковым моделям.

❯ Gemini Flash 1.5

Первое, что бросается в глаза — 1М контекстного окна и очень низкая цена за обработку.

И то и другое достаточно важно для обычных бизнес-кейсов. Топовые сети типа GPT-4o или Claude 3 Opus — это очень круто, но целые книги или руководства на 200 страниц через них гонять прям дорого. Поэтому дешевая сеть — это “рабочая лошадка” для большинства ежедневных или автоматизированных кейсов. Релиз Gemini Nano также говорит о том, что Гугл хочет “малые сети везде и дешево”.

До этого того же уровня стоимости была Claude 3 Haiku c 200К контекста — примерно в 1.5-2 раза дешевле gpt-3.5-turbo и в 15-20 раз дешевле GPT-4o. Постоянно вижу, как используют Haiku и думаю, у Gemini Flash хорошие перспективы.

❯ Тест: 5 идей для детского праздника

У меня есть свой небольшой тест, которым я проверяю каждую сеть, которую подключаю по API — запрос “Напиши 5 идей для детского праздника”

Не могу сказать, что тест какой-то гениальный, но для меня играет роль “насмотренность”: когда уже видел, как более 50 сетей отвечают на этот вопрос, понемногу чувствуешь общие паттерны, и “на что смотреть”.

Давайте немного прокомментирую этот ответ:

Правильный русский язык. Это очень хорошо — и не всегда бывает — опенсорсные сети, часто вставляют нерусские слова. Например, Llama3-70B-Instruct добавляет английские, Qwen-110B иногда добавляет иероглифы (потому что сеть китайская). Также видно нормальное сочетание падежей (тоже бывает не всегда)
Структурированный Markdown-выход. Означает, что сеть чувствительна к системному промту, ему следует и неплохо знает про Markdown, включая вложенные элементы синтаксиса. Тоже бывает не всегда; также может свидетельствовать о том, что сеть специально тренировали давать ответы в виде структурированных списков (на презентации Google I/O было видно, что ответ на вопрос по письмам пользователя также дается в формате списка — это частый кейс при суммаризации)

Ну т.е. сеть уже можно сказать на уровне gpt-3.5-turbo, что неплохо — учитывая, что она дешевле.

❯ Тест: перевод с английского на русский

Я поддерживаю в рамках опенсорсного проекта свой бенчмарк переводов с английского на русский и обычно пробую на нем все выходящие нейросети для понимания того, насколько они «могут в русский язык». Это далеко не идеальный тест — но какое-то представление о возможностях модели он дает.

Вот скрин — нас интересует последняя колонка, она как раз отражает оценку по качеству перевода EN->RU.

Не стоит смотреть на то, что разница невелика — это метрика COMET, там небольшое увеличение может означать хороший прирост качества (например, разница между Google Translate и DeepL составляет всего-то 0.20 в пользу DeepL)

Что тут можно прокомментировать?

Gemini Flash набирает 89.27 — не очень много, но лучше gpt-3.5-turbo, и чуть хуже Claude 3 Haiku. Вполне приемлемо для недорогой модели.
Интересен результат вышедшей GPT-4o — 90.06. Это наивысший результат среди прочих сетей, кроме Claude 3 Opus — та показывает 90.75, являясь абсолютным лидером. Известно, что GPT-4o значительно выигрывает даже у GPT-4-Turbo в задачах программирования — но если мы берем лингвистические задачи, другие сети тоже могут показывать себя очень достойно — так что, как любят говорить, “не все так однозначно”. Собственно, поэтому я люблю иметь выбор.

❯ Быстро? Быстро

Интересно, что обе компании — и OpenAI, и Google — позаботились о скорости работы своих моделей.

GPT-4o выдает около 80 токенов в секунду, Gemini Flash — 150 токенов (по отчетам скорости генерации, которые я видел), хотя для GPT-4o, это, конечно, больший подвиг, т.к. сама по себе сеть большая.

Для сравнения — типовой результат более старой GPT-4-Turbo около 25 токенов в секунду, и это было довольно неплохо. Так что сейчас можно наслаждаться быстрыми ответами.

❯ Всё?

Да. Мне не удалось найти результатов тестов типа “поиск иголки в стоге сена” для Gemini Flash, чтобы понять, насколько она внимательно относится к контексту.

Но, думаю, в любом случае этот инструмент займет своё место в арсенале LLM-мастера.

Возможно, захочется почитать и это:

➤ GPT-4, Claude 3, Gemini Pro или опенсорс — как выбрать LLM под свою задачу?

➤ Эмад Мостак: визионер или обманщик? Разоблачение создателя Stability AI и Stable Diffusion

➤ Нейросеть мне в помощь или как я сделал телеграм бота, который умеет переводить песни

➤ Руководство по Next.js.

➤ История создания «Корсаров 2» ака «Пираты Карибского моря»

Новости, обзоры продуктов и конкурсы от команды Timeweb.Cloud — в нашем Telegram-канале ↩

Теги:

Хабы:

Если эта публикация вас вдохновила и вы хотите поддержать автора — не стесняйтесь нажать на кнопку