MaximML Jun 27 2021 at 12:49

Голосовой дневник на python с распознаванием голоса и сохранением в Mongo DB

4 min

18K

Python * MongoDB * Voice user interfaces *

From sandbox

Comments 9

stepuncius Jun 27 2021 at 13:07

Не совсем понял, зачем явно проверять работу контейнера?

Чтобы не потерять данные - достаточно подмонтировать volume, в котором mongo хранит свои данные.

Если у контейнера фиксирован порт - тогда первый запущенный экземпляр сразу процент экземпляр данные, если они уже есть, а второй - всё равно не запустится, т.к. порт будет занят.

Да и вообще mongo для хранения "ключ:строка" - какой-то оверкилл, хватит и SQLite.

Также не раскрыта тема бекапов...

MaximML Jun 28 2021 at 07:42

docker — не моя сильная сторона… не отрицаю, что есть способы сделать деплой оптимальнее. Про бэкапы — интересный вопрос, возможно, я копну глубже в эту сторону в следующих публикациях :)

antirek Jun 27 2021 at 14:23

А vosk сервер у вас как запущен? сами конфигурировали для использования русскоязычной модели?
для описания всех запущенных процессов можно использовать docker-compose.yml: ваш python-бот + монго + caldi

MaximML Jun 28 2021 at 07:40

vosk объект загружается в оперативную память из файла — модели, русскоязычная модель готова к применению «из коробки» и доступна из официального источника

light_fox Jun 28 2021 at 07:43

круто!!! молодец! задумка отличная

QtRoS Jun 29 2021 at 16:21

Я как-то надиктовал VOSK'у целую статью. Распознанный результат выглядел как бред сумасшедшего, но я, как автор, по итогу смог понять основные мысли, о чем говорилось в том или ином абзаце. Как у вас с качеством?

MaximML Jun 30 2021 at 07:12

Если напрягаться и стараться говорить четко и медленно, то почти всегда 100% качество распознавания. Если говорить как при обычном общении, то в тексте будут проскакивать не те слова, которые я говорил. И ещё фоновый шум влияет на качество распознавания

user98675 Jul 5 2021 at 15:10

В коде примеров автора проекта данные считываются понемногу:

while True:
    data = wf.readframes(4000)
    if len(data) == 0:
        break
    if rec.AcceptWaveform(data):
        print(rec.Result())
    else:
        print(rec.PartialResult())

В серверной реализации тоже.

В Telegram канале по распознаванию речи высказывали мнение, что не нужно подавать больше секунды звука за раз, однако, мне неизвестно четкое объяснение почему именно так.

Не удалось найти в документации описание метода AcceptWaveform, но для себя имею такое пояснение: «AcceptWaveform возвращает true, когда обнаружена тишина и данные могут быть получены через метод Result. Если тишина не обнаружена, частичные данные можно получить через метод PartialResult. Вызов метода FinalResult сбрасывает внутреннее состояние объекта и возвращает оставшийся результат».

Вызов FinalResult вместо Result, если AcceptWaveform вернул положительный результат иногда помогает получить более точное распознавание, если, например, за громкой длинной фразой следует короткая тихая фраза. В таких случаях Result может вернуть только первую фразу, даже если между двумя фразами и после последней фразы есть тишина.

MaximML Jul 5 2021 at 15:37

Спасибо за пояснения!