Совсем не применимое к практике решение:
1) Ограничение 50 запросов в день, по крайней мере еще два месяца назад так было;
2) Постоянное распознавание, даже уровень шумов не учитывается, при котором запись прекращается;
3) Со скоростью распознавания действительно проблемы, особенно если имеется только GSM соединение.
Мы делали также примерно, только вместо гугла был яндек, и распознавание через яндекс велось только при определенных командах распознанных через сфинкс.
Распознавание речи в ROS с Google Speech API