Китайская Baidu выпустила ERNIE 5.0 — мультимодальную модель с 2,4 триллиона параметров, которая работает с текстом, изображениями, аудио и видео в единой архитектуре. По бенчмаркам компании, модель идет вровень с GPT-5 (High) и Gemini-3-Pro. Доступна бесплатно через чат-бот ERNIE Bot.

ERNIE 5.0 обучена на текстах, изображениях, аудио и видео одновременно, а не через отдельные энкодеры. Такой же подход используют GPT-5 и Gemini 3, но ERNIE добавляет к этому еще и генерацию изображений и видео в единой архитектуре. Модель построена на Mixture-of-Experts: из 2,4 триллиона параметров при генерации ответа активируется менее 3%, что снижает вычислительные затраты.

На текстовых и визуальных бенчмарках модель показывает паритет с топовыми западными конкурентами: ChartQA ~92 (выше GPT-5), OCRBench ~95. В понимании документов и графиков ERNIE 5.0 стабильно опережает GPT-5 High. В кодинге ситуация обратная — на LiveCodeBench GPT-5 набирает ~95 против ~80 у китайской модели.

Главный козырь — аудио. На бенчмарке MMAU (понимание звуковых сцен) ERNIE 5.0 набирает 80 баллов против ~70 у GPT-4o-Audio. На CochlScene разрыв больше: 80 против ~35. При этом в распознавании речи ERNIE демонстрирует заметно лучшие результаты (меньший коэффициент ошибок), чем конкуренты.

Помимо чат-бота ERNIE 5.0 доступна через API платформы Qianfan ($0,85 за 1M входных токенов — дешевле, чем $1,25 у GPT-5.1). Это очередная крупная китайская модель, которая выходит на уровень западных лидеров — при этом с бесплатным доступом через чат-бот.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.