Как стать автором
Обновить
300.05
BotHub
Агрегатор нейросетей: ChatGPT, Claude, Midjourney

Gemini Diffusion могла бы стать самой важной новостью Google, но осталась незамеченной

Время на прочтение2 мин
Количество просмотров4.7K

Google тестирует новый тип языковой модели под названием Gemini Diffusion — экспериментальную систему, которая генерирует текст с помощью методов диффузии вместо традиционного пословного прогнозирования.

Вместо того чтобы генерировать текст по одному слову за раз, как это делают традиционные языковые модели, Gemini Diffusion заимствует технику из области создания изображений: устранение шума в несколько этапов.

Система начинает со случайного шума и постепенно преобразует его в полноценные фрагменты текста, что позволяет вносить исправления в процессе и лучше контролировать результат. В DeepMind утверждают, что такой подход приводит к более последовательному и логически связанному результату, что делает его особенно эффективным для таких задач, как генерация кода и редактирование текста, где ключевыми являются точность, связность и итеративность.

Gemini Diffusion генерирует целые фрагменты текста одновременно — и делает это намного быстрее, чем традиционные авторегрессионные модели, которые работают слева направо. DeepMind сообщает о скорости 1479 токенов в секунду (без учёта накладных расходов) с начальной задержкой всего 0,84 секунды.

Брендан О’Донохью, исследователь из DeepMind, говорит, что модель может обрабатывать до 2000 токенов в секунду при выполнении задач по программированию, даже с учётом таких затрат, как токенизация, предварительное заполнение и проверки безопасности.

Ориол Виньялс, вице-президент по исследованиям, руководитель отдела глубокого обучения в Google DeepMind и соруководитель проекта Gemini, назвал выпуск Gemini Diffusion личной вехой в своей карьере. 

«Я давно мечтал избавиться от необходимости генерировать текст «слева направо», — сказал он. Во время демонстрации модель работала так быстро, что им пришлось замедлить видео, чтобы его можно было смотреть.

В тестах Gemini Diffusion в целом работает примерно так же, как Gemini 2.0 Flash Lite. В таких задачах программирования, как HumanEval (89,6% против 90,2%) и MBPP (76,0% против 75,8%) — двух распространённых тестах на кодирование — результаты практически идентичны.

На самом деле, Gemini Diffusion немного опережает LiveCodeBench (30,9% против 28,5%) и LBPP (56,8% против 56,0%). Но в других областях она уступает, набирая меньше баллов в тесте на научное мышление GPQA Diamond (40,4% против 56,5%) и в многоязычном тесте Global MMLU Lite (69,1% против 79,0%).

Благодаря Gemini Diffusion языковая модель на основе диффузии впервые достигает производительности, сравнимой с современными моделями, несмотря на то, что Gemini 2.0 Flash-Lite — это более старая бюджетная модель от Google.
Благодаря Gemini Diffusion языковая модель на основе диффузии впервые достигает производительности, сравнимой с современными моделями, несмотря на то, что Gemini 2.0 Flash-Lite — это более старая бюджетная модель от Google.

Джек Рэй, главный научный сотрудник Google DeepMind, назвал эти результаты «знаковым моментом». До сих пор авторегрессионные модели неизменно превосходили диффузионные модели по качеству текста, и было неясно, можно ли когда-нибудь устранить этот разрыв. Рэй считает, что прорыв стал возможен благодаря целенаправленным исследованиям и решению «множества» технических проблем.

В настоящее время Gemini Diffusion доступна только в качестве экспериментальной демоверсии. А протестировать все популярные модели прямо сейчас без ограничений можно на платформе BotHub. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник

Теги:
Хабы:
+6
Комментарии5

Другие новости

Информация

Сайт
bothub.chat
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
Вероника