Комментарии 29
В Google Docs нет такого ограничения. (Инструменты — Голосовой ввод)
Ха! Уже давно есть web speech API от того же Googl-а. Попробуйте его: jsfiddle.net/pi_null_mezon/ko66g88x
Да не работает этот API нормально. В свое время прикрутил Web Speech API для распознавания записей Call-центра, чтобы можно было анализировать качество ответов операторов без прослушивания каждой записи. Думали, прочитаем расшифровку разговора, и поймем: есть ли косяки и нужно ли переслушивать уже детально. Но качество таково, что понять даже смысл разговора не получается. Выглядит расшифровка воn так (звездочками заменил все персданные, и это — прям реальный разговор вчерашнего дня). Текст сохранен именно в такой форме, как он возвращается из API. Разбивку на фразы — тоже делает Google, точнее — пытается.
Ну и что из этого можно понять? :) Список «плюс»-слов естественно сформирован и передается в Web Speech API, но совершенно не помагает.
- Здравствуйте Вы позвонили в интернет магазин **** Меня зовут Юрий нас не могу вам помочь Я хотела спросить Просто я сделал заказ и Перенесли доставку Они снимают доставление можно как-то проверить на пункт самовывоза могу я заехать забрать или его ещё ко мне скажите пожалуйста как я поняла вы пункт самовывоза заказов потом позвонили сказали что у меня больше не фармации какой-нибудь полмесяца ночь не успевая и поехала к животному значит Скажи погоду на Лукина 1 с
- слушать прямо на дракончика когда посмотри уродина ***** ****** до 1 1 ЛСР
- Светлана 1 с
- хорошо есть возможность заказа тошнить
- Мутко
- Скажи пожалуйста относительно вашего заказа Вам пришло сообщение о том что она Он поступил в комп самовывоза это название он ничего не пришло хорошо договоримся доставки На какой день было ** ** да да
- прошу минуту пожалуйста оставайтесь на линии 2 связаться с руководителем уточнить формат исполком заказа
- да да да да да ты поняла запрос сейчас позвонить в детскую службу узнаю по поводу наличие перезвоню когда вам хорошо спасибо пожалуйста
Ну и что из этого можно понять? :) Список «плюс»-слов естественно сформирован и передается в Web Speech API, но совершенно не помагает.
Ну и что из этого можно понять?«что у меня больше не фармации» — «что у меня больше нет информации»
«заказа тошнить» — «заказ уточнить»
«комп самовывоза » — «пункт самовывоза»
?
Это частности. А вот суть разговора можете понять? О чем это? Попробуйте выдвинуть гипотезу, я потом расскажу правду. :)
Ну и плюс — конечно, догадаться о каждой фразе можно. Вопрос только что быстрее: пытаться в голове декодировать этот текст, или потратить 3:23 на прослушивание записи? Ведь задача была быстрее, чем при прослушивании, понимать, насколько корректно оператор Call-центра отрабатывает скрипт.
Ну и плюс — конечно, догадаться о каждой фразе можно. Вопрос только что быстрее: пытаться в голове декодировать этот текст, или потратить 3:23 на прослушивание записи? Ведь задача была быстрее, чем при прослушивании, понимать, насколько корректно оператор Call-центра отрабатывает скрипт.
А про дракончика и уродину?
Видать, в телефонном канале для экономии режутся звуковые частоты, на которые заточенный на компьютерный микрофон алгоритм во многом полагается. Наверно, можно поэкспериментировать, но практической пользы мало — не будешь же все аудио обрабатывать.
Тут речь идет о том как аудио файл с речью преобразовать в текст.
Со звуковыми картами Realtek устанавливать драйвер не нужно, достаточно включить «Стерео микшер» в приложении «Звук», в разделе «Запись».
Здесь уже был вариант, но только для английской речи geektimes.com/company/audiomania/blog/297993. Ну и ето будет стоить денег ~7 центов за минуту.
как вариант — залить в ютуб как видео и включить автоматические субтитры.
UPD: теперь субтитры скопировать как текст нельзя(или сложнее чем раньше), раньше была возможность скопировать их как текст
UPD: теперь субтитры скопировать как текст нельзя(или сложнее чем раньше), раньше была возможность скопировать их как текст
youtube-dl во встроенной справке заявляет, что может записывать файлы субтитров, в т.ч. автогенерированных.
Очень интересно, как можно переводить звуковую речь в текст.
Я переводчик и мне нужно переводить субтитры для видео на YouTube. Так как владелец оригинального видео не даёт мне субтитры автоматом (по разным причинам), пока у меня порядок работы такой:
1. Скачать видео.
2. Залить на свой аккаунт как Unlisted.
3. Подождать пока YouTube сгенерирует автоматические субтитры на выбранном языке.
4. Перевести файл субтитров.
5. Отдать владельцу оригинального видео переведенный файл.
Когда-то искал программку для распознавания речи в скачанном файле видео на моём компе, но так и не нашёл.
Спасибо за информацию про речевой ввод в GoogleDocs. Пригодится в других аспектах моей работы.
Я переводчик и мне нужно переводить субтитры для видео на YouTube. Так как владелец оригинального видео не даёт мне субтитры автоматом (по разным причинам), пока у меня порядок работы такой:
1. Скачать видео.
2. Залить на свой аккаунт как Unlisted.
3. Подождать пока YouTube сгенерирует автоматические субтитры на выбранном языке.
4. Перевести файл субтитров.
5. Отдать владельцу оригинального видео переведенный файл.
Когда-то искал программку для распознавания речи в скачанном файле видео на моём компе, но так и не нашёл.
Спасибо за информацию про речевой ввод в GoogleDocs. Пригодится в других аспектах моей работы.
Вы пишете что VB-Cable OpenSource — но я честно говоря нигде не нашёл упоминаний об этом. Где же исходники?
Главное, что он бесплатен.
"Установите драйвер VB-CABLE (Donationware)
Virtual Audio MME, DX, KS, драйвер устройства WDM (от XP до WIN10 32/64 бит)
VBCABLE_Driver_Pack43.zip (1.09 MB — OCT 2015) Нажмите здесь, чтобы загрузить с альтернативного веб-сайта. УСТАНОВКА: Извлеките все файлы из ZIP и запустите программу установки в режиме администратора (перезагрузитесь после установки или деинсталляции). Если вы нашли VB-CABLE полезным, вы можете пожертвовать и получить два других виртуальных аудиоустройств: VB-CABLE A + B. "
Давно уже использую гугл переводчик, как распознаватель речи. Часто требуется в переводах, если не могу разобрать, что говорят.
Я просто включаю Гугл Докс и кладу диктофон на микрофон.
а если надо переводить английскую речь с Вайбера Скайпра Ватсапа на ПК, чтобы понимать, что тебе говорят то, что надо использовать?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Как перевести речевой аудио-файл в текст с помощью Google translate