Kual9 апр 2025 в 07:00

Беспрецедентный сдвиг в голосовых интерфейсах ИИ

Простой

6 мин

2.6K

Голосовые интерфейсы * Искусственный интеллектIT-инфраструктура * Исследования и прогнозы в IT * Будущее здесь

Обзор

Перевод

Комментарии 4

pavelsha 9 апр 2025 в 07:25

привет, Вы публикуете перевод...
А можно перевести вставки с высказываниями, которые даны скриншотами? Не картинкой, а ниже текстом...
Или предполагается, что читатель хорошо знает английский либо воспользуется ИИ-переводчиком...
Только зачем тогда эта статья нужна тут?

Kual 9 апр 2025 в 07:41

Идеально конечно и аудио перевести, но тогда это уже будет больше чем перевод )

Отталкиваюсь от возможностей.

Если вы говорите про последний скриншот от Andrej Karpathy, ниже добавляю перевод:

Вообще мне нравится новая индивидуальность ChatGPT 4o, что бы они там ни сделали.
• он более расслабленный/разговорный, немного больше похож на разговор с другом и гораздо меньше на разговор с HR-партнером
• теперь с немного с дерзостью, может защищаться, например, когда его обвиняют во лжи
• много других мелочей и штрихов, например, он подтверждает и озвучивает ваши очевидные эмоции, например, увидев постоянную ошибку, он скажет “Это раздражает!” и т.д.
• все еще злоупотребляет списками и списками списков, а теперь еще и немного злоупотребляет эмодзи, но ~ок

 Что вам нравится/не нравится в плане индивидуальности LLM? Какая модель является SOTA по индивидуальности?

pavelsha 9 апр 2025 в 07:50

Спасибо

molnij 10 апр 2025 в 07:39

Если даже почему-то забыть про фактор безопасности и слива данных openai/комунибудь еще, который для внедрения в продакт-приложения имеет таки значение, то у меня пока есть отчетливое ощущение, что актуальные TTS/STT выглядят потрясающе как POC, но при попытке внедрить в реальное использование там столько дичи вылезает, особенно для использования не на английском, и тем более чистом английском, что где-то в этот момент все перестает выглядеть так радужно (думаю любой, кто плотно работал с тем же виспером поймет)

Sesame имеют потрясающе эффектную демку на сайте, но опять же, общающуюся на одном языке (но как она это делает!), а вот быстро завести их пример мне не удалось (и кстати до сих пор не знаю, как оно работает - с каким-то предустановленым голосом, копированием голоса с сэмлпа или как-то иначе). Часть кода в репе была битой, потом проблемы с версиями CUDA (мм, абажаю), потом проблемы с памятью... и выделенное время закончилось )

Зарегистрируйтесь на Хабре, чтобы оставить комментарий