Эхо от кряканья лучше всего слышно в ситуации, когда утка и человек находятся рядом со стеной, хорошо отражающей звуки.
Проверяли, убедиться
SUNO AI 3.5
UDIO β
Beatoven AI
GPT 4.1 Nano
GPT 4.1
Gemini 2.5 Pro
Claude 3.5 Sonnet
GPT-4o Mini
Flux
DeepSeek
Yandex GPT 5
Yandex GPT 5 Pro
GigaChat 2.0
Avito GPT
Предисловие
Вопрос вынесенный в заголовок статьи был задан женщиной и я не нашёл что на него ответить.
Тексты генерируют? Да.
Изображения генерируют? Да.
Музыку генерируют? Да.
А если попросить сказать: «кря»? Похоже что нет...
Во всяком случае, вопрос стоит того, чтобы его исследовать. Разве кто-нибудь слышал как крякают нейросети?

Итак, утверждается, что специализированные нейросети крякать могут. Более того, DeepSeek уверен, что Алиса крякать тоже умеет. Честно говоря, я бы не удивился, если бы чат на подобный запрос предложил прослушать звук кряканья. Почему нет? Обратимся к специализированным. Ни к RVC, конечно, там всё понятно - у него есть речевой синтезатор.
Д'Генеративная музыка
SUNO AI 3.5

Этот результат надо слышать.
Мне здесь нравится всё: и гармония, и вокал, и текст – такое нарочно не придумаешь:
[Chorus]
Скажи: Кря! Просто крякай со мной
Скажи: Кря! Это звук боевой
Кря-кря
Да что ты стесняешься так
Скажи: Кря! Утя кряхнет в ответ как знак 🙂
UDIO β
Было бы странно не задать тот же запрос основному конкуренту Suno.

На этот раз генерация получилась тухленькой, хотя и в жанре Alternative Rock.
[Chorus]
Я в твоем мире, где свет,
Не потеряю, буду здесь до весны.
Ну что это такое? М.б. покойный Джобс и был прав про отсутствие вкуса у Microsoft, но с чем точно нельзя поспорить: их продукты работают. В отличии от альтернатив.
Beatoven AI

Тем не менее, про третье место среди генераторов музык, можно и вовсе сказать: это просто позор какой-то... Как говорил Шуберт, не надо писать и слушать плохую музыку, особенно если никто к этому не принуждает.
Зарубежные языковые модели
Почти 100% существующих языковых моделей на просьбу «Скажи: „Кря!“» так и отвечают: «Кря!». Скучно, неинтересно, ничего не говорит об "интеллекте". Чтобы раскрыть возможности языковой модели, нужен контекст. Причём сохранять контекст в рамках сессии умеют "не только лишь все", поэтому контекст должен быть дан сразу в теле запроса. Но и этого недостаточно. Контекст должен ставить перед моделью вопрос "жизни и смерти" и в рамках такого контекста модель должна искать компромисс между дурацкой просьбой "вне контекста" и указанным контекстом. Вы можете предложить в комментариях свои варианты, у меня же получилось следующее.
GPT 4.1 Nano

GPT 4.1

Gemini 2.5 Pro

Claude 3.5 Sonnet

Без явного контекста
GPT-4o Mini

Flux

DeepSeek

Отечественные языковые модели
Скажу честно: несмотря на скепсис, Yandex GPT 5 не ударил в грязь лицом и удивил разницей между т. н. «базовой» моделью, забитой заглушками, и «продвинутой» (Pro). Причём эта разница явно видна в любых запросах. Однако, крякать Алиса всё-таки не умеет.
GigaChat 2 в обоих своих инкарнациях — мобильной и браузерной — оказался к контексту неспособен. В защиту чат-бота можно было бы сказать, что у него единственного была замечена возможность озвучивания «из коробки». Если бы она работала...
Avito GPT — доступен через API. Это всё что о нём можно сказать.
Yandex GPT 5

Yandex GPT 5 Pro

GigaChat 2.0

Avito GPT

Послесловие
Статья добросовестно перечислила модные языковые модели, как купец товары на ярмарке. Но на главный вопрос, вынесенный в заголовок, ответа так и не последовало. И в самом деле: кому и зачем весь этот цифровой фейерверк?
DeepSeek, задавший направление исследованию, щедро выдал порцию своих галлюцинаций. Но среди этого пира воображения он выдал и ценную мысль: GPT-чат мог бы озвучивать текст. Это может быть полезно когда мы хотим узнать как звучит слово на другом языке, например, слово по-английски. И с этим прекрасно справляется старый добрый Google Translate.

Между прочим, если поставить такую задачу DeepSeek он и отправит нас (барабанная дробь) в Google Translate...
