К сожалению мультимодальность gemma (google) ограничена только LLM и VLM, в качестве tts довольно шустро (и не нагруженно) работают silero, piper(на Rpi запускается без проблем, звучит кстати тоже неплохо) coqui tts(но постоянно пытается произнести точки aka "поинт\поинти\пынта")terra tts (если добавить RUAccent вообще звучит замечательно) А вот что касаемо STT пока подробно вопрос не изучал к сожалению
К сожалению мультимодальность gemma (google) ограничена только LLM и VLM, в качестве tts довольно шустро (и не нагруженно) работают silero, piper(на Rpi запускается без проблем, звучит кстати тоже неплохо) coqui tts(но постоянно пытается произнести точки aka "поинт\поинти\пынта") terra tts (если добавить RUAccent вообще звучит замечательно) А вот что касаемо STT пока подробно вопрос не изучал к сожалению
Вот совпадение, как раз сегодня такой должен прийти, как раз под эти же самые задачи