roverseti20 мая 2018 в 18:41

Как перевести речевой аудио-файл в текст с помощью Google translate

2 мин

306K

Искусственный интеллектDIY или Сделай самЛайфхаки для гиков

Туториал

+14

Комментарии 29

dioneo 20 мая 2018 в 18:49

В Google Docs нет такого ограничения. (Инструменты — Голосовой ввод)

dioneo 20 мая 2018 в 18:59

Там правда браузер должен быть всегда в фокусе, иначе голосовой ввод отключается.

roverseti 20 мая 2018 в 19:59

Да! Спасибо это ценно .

pi-null-mezon 20 мая 2018 в 19:54

Ха! Уже давно есть web speech API от того же Googl-а. Попробуйте его: jsfiddle.net/pi_null_mezon/ko66g88x

Stan_1 21 мая 2018 в 05:06

Да не работает этот API нормально. В свое время прикрутил Web Speech API для распознавания записей Call-центра, чтобы можно было анализировать качество ответов операторов без прослушивания каждой записи. Думали, прочитаем расшифровку разговора, и поймем: есть ли косяки и нужно ли переслушивать уже детально. Но качество таково, что понять даже смысл разговора не получается. Выглядит расшифровка воn так (звездочками заменил все персданные, и это — прям реальный разговор вчерашнего дня). Текст сохранен именно в такой форме, как он возвращается из API. Разбивку на фразы — тоже делает Google, точнее — пытается.

Здравствуйте Вы позвонили в интернет магазин **** Меня зовут Юрий нас не могу вам помочь Я хотела спросить Просто я сделал заказ и Перенесли доставку Они снимают доставление можно как-то проверить на пункт самовывоза могу я заехать забрать или его ещё ко мне скажите пожалуйста как я поняла вы пункт самовывоза заказов потом позвонили сказали что у меня больше не фармации какой-нибудь полмесяца ночь не успевая и поехала к животному значит Скажи погоду на Лукина 1 с
слушать прямо на дракончика когда посмотри уродина ***** ****** до 1 1 ЛСР
Светлана 1 с
хорошо есть возможность заказа тошнить
Мутко
Скажи пожалуйста относительно вашего заказа Вам пришло сообщение о том что она Он поступил в комп самовывоза это название он ничего не пришло хорошо договоримся доставки На какой день было ** ** да да
прошу минуту пожалуйста оставайтесь на линии 2 связаться с руководителем уточнить формат исполком заказа
да да да да да ты поняла запрос сейчас позвонить в детскую службу узнаю по поводу наличие перезвоню когда вам хорошо спасибо пожалуйста

Ну и что из этого можно понять? :) Список «плюс»-слов естественно сформирован и передается в Web Speech API, но совершенно не помагает.

ainoneko 21 мая 2018 в 05:33

Ну и что из этого можно понять?

«что у меня больше не фармации» — «что у меня больше нет информации»
«заказа тошнить» — «заказ уточнить»
«комп самовывоза » — «пункт самовывоза»
?

Stan_1 21 мая 2018 в 05:49

Это частности. А вот суть разговора можете понять? О чем это? Попробуйте выдвинуть гипотезу, я потом расскажу правду. :)

Ну и плюс — конечно, догадаться о каждой фразе можно. Вопрос только что быстрее: пытаться в голове декодировать этот текст, или потратить 3:23 на прослушивание записи? Ведь задача была быстрее, чем при прослушивании, понимать, насколько корректно оператор Call-центра отрабатывает скрипт.

Wolframium13 21 мая 2018 в 06:12

А про дракончика и уродину?

plm 21 мая 2018 в 05:55

Видать, в телефонном канале для экономии режутся звуковые частоты, на которые заточенный на компьютерный микрофон алгоритм во многом полагается. Наверно, можно поэкспериментировать, но практической пользы мало — не будешь же все аудио обрабатывать.

roverseti 20 мая 2018 в 19:56

Тут речь идет о том как аудио файл с речью преобразовать в текст.

rafaelpro 20 мая 2018 в 20:54

Со звуковыми картами Realtek устанавливать драйвер не нужно, достаточно включить «Стерео микшер» в приложении «Звук», в разделе «Запись».

theWRM 20 мая 2018 в 20:58

Здесь уже был вариант, но только для английской речи geektimes.com/company/audiomania/blog/297993. Ну и ето будет стоить денег ~7 центов за минуту.

ThunderCat 20 мая 2018 в 23:01

как вариант — залить в ютуб как видео и включить автоматические субтитры.
UPD: теперь субтитры скопировать как текст нельзя(или сложнее чем раньше), раньше была возможность скопировать их как текст

plm 21 мая 2018 в 05:58

youtube-dl во встроенной справке заявляет, что может записывать файлы субтитров, в т.ч. автогенерированных.

dkv 21 мая 2018 в 17:41

Не только заявляет, но и эта фича реально работает. Сабы могут как встраиваться в файл, так и ложиться рядом. Например, команда --skip-download --sub-format vtt --write-sub скачает только субтитры в формате vtt

Tagat 21 мая 2018 в 10:45

Очень интересно, как можно переводить звуковую речь в текст.

Я переводчик и мне нужно переводить субтитры для видео на YouTube. Так как владелец оригинального видео не даёт мне субтитры автоматом (по разным причинам), пока у меня порядок работы такой:
1. Скачать видео.
2. Залить на свой аккаунт как Unlisted.
3. Подождать пока YouTube сгенерирует автоматические субтитры на выбранном языке.
4. Перевести файл субтитров.
5. Отдать владельцу оригинального видео переведенный файл.

Когда-то искал программку для распознавания речи в скачанном файле видео на моём компе, но так и не нашёл.

Спасибо за информацию про речевой ввод в GoogleDocs. Пригодится в других аспектах моей работы.

roverseti 21 мая 2018 в 15:14

Всегда пожалуйста. :)

roverseti 21 мая 2018 в 15:16

Да! Без разницы откуда брать аудио сигнал с речью. Главное, чтобы он был по возможности чистым, без побочных звуков и широкополосным. ( Не сжатым)

dkv 21 мая 2018 в 17:42

Можете просто скачать субтитры с оригинального видео с помощью youtube-dl, пример командной строки приведён выше.

Evengard 21 мая 2018 в 11:33

Вы пишете что VB-Cable OpenSource — но я честно говоря нигде не нашёл упоминаний об этом. Где же исходники?

roverseti 21 мая 2018 в 16:59

Главное, что он бесплатен.
"Установите драйвер VB-CABLE (Donationware)
Virtual Audio MME, DX, KS, драйвер устройства WDM (от XP до WIN10 32/64 бит)
VBCABLE_Driver_Pack43.zip (1.09 MB — OCT 2015) Нажмите здесь, чтобы загрузить с альтернативного веб-сайта. УСТАНОВКА: Извлеките все файлы из ZIP и запустите программу установки в режиме администратора (перезагрузитесь после установки или деинсталляции). Если вы нашли VB-CABLE полезным, вы можете пожертвовать и получить два других виртуальных аудиоустройств: VB-CABLE A + B. "

Evengard 21 мая 2018 в 21:58

Для кого-то важно и именно чтобы было OpenSource.

Из опыта — данный конкретный вариант виртуального кабеля действительно один из лучших, но иногда странно багует.

RinonNinqueon 21 мая 2018 в 15:06

Давно уже использую гугл переводчик, как распознаватель речи. Часто требуется в переводах, если не могу разобрать, что говорят.

НЛО прилетело и опубликовало эту надпись здесь

roverseti 21 мая 2018 в 15:07

Интересно только одно, почему драйвер платный? Тут описан способ как это делать бесплатно. lifehack. Кстати speechpad'e я попробовал воспользоваться в демо версии но, ничего не вышло. Подскажите почему? Может не заплатил ?

НЛО прилетело и опубликовало эту надпись здесь

roverseti 21 мая 2018 в 17:00

Спасибо. Уже не надо. ;)

DVF 22 мая 2018 в 08:52

Я просто включаю Гугл Докс и кладу диктофон на микрофон.

releyshic 20 фев 2023 в 06:45

а если надо переводить английскую речь с Вайбера Скайпра Ватсапа на ПК, чтобы понимать, что тебе говорят то, что надо использовать?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий