Pull to refresh
6
0
Send message

Moshi: GPT4-O voice mode дома (обзор)

Level of difficultyMedium
Reading time7 min
Views6.9K

Прежде чем приступать к самому обзору, хотелось бы обозначить отличительные черты подхода, относительно большинства диалоговых систем:

Текущие системы работают в каскадной манере: сначала «активационное» слово, затем аудио переводится в текст (ASR), текст обрабатывается и анализируется, и, наконец, ответ генерируется через TTS. Однако это медленно, теряет эмоции и «живость» разговора, и, что самое важное, все взаимодействие происходит через жесткое чередование говорящих — сначала ты, потом я, и так далее.

Читать далее

Information

Rating
Does not participate
Registered
Activity