А как синтез речи в яндексе происходит? Насколько я знаю, есть два с половиной подхода: компоновать заранее записанные фонемы, генерировать спектрограмму, и работающий в 100 раз медленнее реалтайма wavenet. Минус первого — безэмоциональность, минус второго — «железность» звука. Что яндекс делает в этом направлении?
Чтобы было=) На самом деле можно меньше, можно больше — разница не особо заметна (да, пробовали, и 3+1 сработали лучше всего)
Свертки на мфсс должны тоже сработать, но хочется использовать признаки типа питча, которые к сверткам никак не прикрутишь (ну если только в параллельную ветку архитектуры)
Свертки на мфсс должны тоже сработать, но хочется использовать признаки типа питча, которые к сверткам никак не прикрутишь (ну если только в параллельную ветку архитектуры)