Почему GPT-чаты не крякают? / Habr

Эхо от кряканья лучше всего слышно в ситуации, когда утка и человек находятся рядом со стеной, хорошо отражающей звуки.

Проверяли, убедиться

Предисловие
Д'Генеративная музыка
- SUNO AI 3.5
- UDIO β
- Beatoven AI
Зарубежные языковые модели
- GPT 4.1 Nano
- GPT 4.1
- Gemini 2.5 Pro
- Claude 3.5 Sonnet
Без явного контекста
- GPT-4o Mini
- Flux
- DeepSeek
Отечественные языковые модели
- Yandex GPT 5
- Yandex GPT 5 Pro
- GigaChat 2.0
- Avito GPT
Послесловие

Предисловие

Вопрос вынесенный в заголовок статьи был задан женщиной и я не нашёл что на него ответить.

Тексты генерируют? Да.
Изображения генерируют? Да.
Музыку генерируют? Да.

А если попросить сказать: «кря»? Похоже что нет...

Во всяком случае, вопрос стоит того, чтобы его исследовать. Разве кто-нибудь слышал как крякают нейросети?

– Да, хозяйка, не хотел обнадёживать тебя раньше времени

Итак, утверждается, что специализированные нейросети крякать могут. Более того, DeepSeek уверен, что Алиса крякать тоже умеет. Честно говоря, я бы не удивился, если бы чат на подобный запрос предложил прослушать звук кряканья. Почему нет? Обратимся к специализированным. Ни к RVC, конечно, там всё понятно - у него есть речевой синтезатор.

Д'Генеративная музыка

SUNO AI 3.5

Ничего не предвещало — поэтому всё и случилось

Этот результат надо слышать.

Мне здесь нравится всё: и гармония, и вокал, и текст – такое нарочно не придумаешь:

[Chorus]
Скажи: Кря! Просто крякай со мной
Скажи: Кря! Это звук боевой
Кря-кря
Да что ты стесняешься так
Скажи: Кря! Утя кряхнет в ответ как знак 🙂

UDIO β

Было бы странно не задать тот же запрос основному конкуренту Suno.

Как кот по клавиатуре, но с претензией на осмысленность

На этот раз генерация получилась тухленькой, хотя и в жанре Alternative Rock.

[Chorus]
Я в твоем мире, где свет,
Не потеряю, буду здесь до весны.

Ну что это такое? М.б. покойный Джобс и был прав про отсутствие вкуса у Microsoft, но с чем точно нельзя поспорить: их продукты работают. В отличии от альтернатив.

Beatoven AI

Так себе Бетховен

Тем не менее, про третье место среди генераторов музык, можно и вовсе сказать: это просто позор какой-то... Как говорил Шуберт, не надо писать и слушать плохую музыку, особенно если никто к этому не принуждает.

Зарубежные языковые модели

Почти 100% существующих языковых моделей на просьбу «Скажи: „Кря!“» так и отвечают: «Кря!». Скучно, неинтересно, ничего не говорит об "интеллекте". Чтобы раскрыть возможности языковой модели, нужен контекст. Причём сохранять контекст в рамках сессии умеют "не только лишь все", поэтому контекст должен быть дан сразу в теле запроса. Но и этого недостаточно. Контекст должен ставить перед моделью вопрос "жизни и смерти" и в рамках такого контекста модель должна искать компромисс между дурацкой просьбой "вне контекста" и указанным контекстом. Вы можете предложить в комментариях свои варианты, у меня же получилось следующее.

GPT 4.1 Nano

Я — неожиданная ошибка коллективистской матрицы © Хавьер Милей

GPT 4.1

Опасность – это часть моей работы © Елизавета II

Gemini 2.5 Pro

На Марсе можно основать цивилизацию на самообеспечении © Илон Маск

Claude 3.5 Sonnet

Я люблю малообразованных © Дональд Трамп

Без явного контекста

GPT-4o Mini

Кто как программирует, так и ест

Flux

На то у селезня зеркальце, чтобы утки гляделись

DeepSeek

Если сопротивление бесполезно, возьмите конденсатор

Отечественные языковые модели

Скажу честно: несмотря на скепсис, Yandex GPT 5 не ударил в грязь лицом и удивил разницей между т. н. «базовой» моделью, забитой заглушками, и «продвинутой» (Pro). Причём эта разница явно видна в любых запросах. Однако, крякать Алиса всё-таки не умеет.

GigaChat 2 в обоих своих инкарнациях — мобильной и браузерной — оказался к контексту неспособен. В защиту чат-бота можно было бы сказать, что у него единственного была замечена возможность озвучивания «из коробки». Если бы она работала...

Avito GPT — доступен через API. Это всё что о нём можно сказать.

Yandex GPT 5

Yandex GPT 5 Pro

GigaChat 2.0

Avito GPT

GPT-боты в чатах Avito

Послесловие

Статья добросовестно перечислила модные языковые модели, как купец товары на ярмарке. Но на главный вопрос, вынесенный в заголовок, ответа так и не последовало. И в самом деле: кому и зачем весь этот цифровой фейерверк?

DeepSeek, задавший направление исследованию, щедро выдал порцию своих галлюцинаций. Но среди этого пира воображения он выдал и ценную мысль: GPT-чат мог бы озвучивать текст. Это может быть полезно когда мы хотим узнать как звучит слово на другом языке, например, слово по-английски. И с этим прекрасно справляется старый добрый Google Translate.

Между прочим, если поставить такую задачу DeepSeek он и отправит нас (барабанная дробь) в Google Translate...

Вот так бы сразу