Как перевести речевой аудио-файл в текст с помощью Google translate

  • Tutorial


Обычно Google translate используют для перевода речи транслируемой микрофоном.


Но в один момент, автору потребовалось перевести подкаст Медузы в текст.


Идея лежала на поверхности и наверняка программы для этого должны были присутствовать. Так -же как сделано в Gogle translate.


Но, гуглением, программы не нашлось, кроме двух сайтов. Которые использовали по уверениям их авторов всю мощь искусственного интеллекта Google.


Первый нашелся русскоязычный сайт https://speechpad.ru/blog/windows-integration/



Но, как бы не было обидно, магия не сработала...


Был найден англоязычный сайт: https://speechlogger.appspot.com/ru/

Результат — тот же. Но, было в отличие от предыдущего — объяснение.


Там было показано, как реализовать, казалось бы, простую идею: пустить в качестве сигнала микрофона — аудио файл.


Для этого необходим драйвер VB-CABLE Virtual Audio Device Он OpenSourse.


Искренняя благодарность "прогнившим западным" альтруистам!


Устанавливаем (проверено под Win 10) и настраиваем микрофонный вход в системе, на этот драйвер.


Открываем Gogle translate, нажимаем кнопочку с изображением микрофона и запускаем любой плейер с аудио — файлом.


И — Вааля! Магия работает, на ваших глазах появляются строки текста.



Точность распознавания, на глаз 85-97 %. Но, есть ограничение — 5 тыс. символов, что немало. Поэтому приходиться останавливать запись, копировать текст и продолжать далее.


Заодно происходит перевод на второй выбранный язык. О боже, сколько странных переводов появится!


Дополнение: есть способ без ограничений на количество символов. — это Google Docs, он так-же работает но, только без перевода на второй язык. Спасибо dioneo


Как мне кажется, Google блокирует постоянные подключения с одних IP. Поэтому ценность этого способа — в том, что все IP не заблокируешь и соответственно, этот способ более работоспособен. Тут уже слово разработчикам и большим "гуру", чем автор.


Всем добра и удобства.

Поделиться публикацией
Комментарии 28
    +1
    В Google Docs нет такого ограничения. (Инструменты — Голосовой ввод)
      +1
      Там правда браузер должен быть всегда в фокусе, иначе голосовой ввод отключается.
        0

        Да! Спасибо это ценно .

      +1
      Ха! Уже давно есть web speech API от того же Googl-а. Попробуйте его: jsfiddle.net/pi_null_mezon/ko66g88x
        +5
        Да не работает этот API нормально. В свое время прикрутил Web Speech API для распознавания записей Call-центра, чтобы можно было анализировать качество ответов операторов без прослушивания каждой записи. Думали, прочитаем расшифровку разговора, и поймем: есть ли косяки и нужно ли переслушивать уже детально. Но качество таково, что понять даже смысл разговора не получается. Выглядит расшифровка воn так (звездочками заменил все персданные, и это — прям реальный разговор вчерашнего дня). Текст сохранен именно в такой форме, как он возвращается из API. Разбивку на фразы — тоже делает Google, точнее — пытается.

        • Здравствуйте Вы позвонили в интернет магазин **** Меня зовут Юрий нас не могу вам помочь Я хотела спросить Просто я сделал заказ и Перенесли доставку Они снимают доставление можно как-то проверить на пункт самовывоза могу я заехать забрать или его ещё ко мне скажите пожалуйста как я поняла вы пункт самовывоза заказов потом позвонили сказали что у меня больше не фармации какой-нибудь полмесяца ночь не успевая и поехала к животному значит Скажи погоду на Лукина 1 с
        • слушать прямо на дракончика когда посмотри уродина ***** ****** до 1 1 ЛСР
        • Светлана 1 с
        • хорошо есть возможность заказа тошнить
        • Мутко
        • Скажи пожалуйста относительно вашего заказа Вам пришло сообщение о том что она Он поступил в комп самовывоза это название он ничего не пришло хорошо договоримся доставки На какой день было ** ** да да
        • прошу минуту пожалуйста оставайтесь на линии 2 связаться с руководителем уточнить формат исполком заказа
        • да да да да да ты поняла запрос сейчас позвонить в детскую службу узнаю по поводу наличие перезвоню когда вам хорошо спасибо пожалуйста


        Ну и что из этого можно понять? :) Список «плюс»-слов естественно сформирован и передается в Web Speech API, но совершенно не помагает.
          0
          Ну и что из этого можно понять?
          «что у меня больше не фармации» — «что у меня больше нет информации»
          «заказа тошнить» — «заказ уточнить»
          «комп самовывоза » — «пункт самовывоза»
          ?
            0
            Это частности. А вот суть разговора можете понять? О чем это? Попробуйте выдвинуть гипотезу, я потом расскажу правду. :)

            Ну и плюс — конечно, догадаться о каждой фразе можно. Вопрос только что быстрее: пытаться в голове декодировать этот текст, или потратить 3:23 на прослушивание записи? Ведь задача была быстрее, чем при прослушивании, понимать, насколько корректно оператор Call-центра отрабатывает скрипт.
              +2
              А про дракончика и уродину?
              0
              Видать, в телефонном канале для экономии режутся звуковые частоты, на которые заточенный на компьютерный микрофон алгоритм во многом полагается. Наверно, можно поэкспериментировать, но практической пользы мало — не будешь же все аудио обрабатывать.
            0

            Тут речь идет о том как аудио файл с речью преобразовать в текст.

              0
              Со звуковыми картами Realtek устанавливать драйвер не нужно, достаточно включить «Стерео микшер» в приложении «Звук», в разделе «Запись».
                0
                Здесь уже был вариант, но только для английской речи geektimes.com/company/audiomania/blog/297993. Ну и ето будет стоить денег ~7 центов за минуту.
                  0
                  как вариант — залить в ютуб как видео и включить автоматические субтитры.
                  UPD: теперь субтитры скопировать как текст нельзя(или сложнее чем раньше), раньше была возможность скопировать их как текст
                    0
                    youtube-dl во встроенной справке заявляет, что может записывать файлы субтитров, в т.ч. автогенерированных.
                      0
                      Не только заявляет, но и эта фича реально работает. Сабы могут как встраиваться в файл, так и ложиться рядом. Например, команда --skip-download --sub-format vtt --write-sub скачает только субтитры в формате vtt
                    0
                    Очень интересно, как можно переводить звуковую речь в текст.

                    Я переводчик и мне нужно переводить субтитры для видео на YouTube. Так как владелец оригинального видео не даёт мне субтитры автоматом (по разным причинам), пока у меня порядок работы такой:
                    1. Скачать видео.
                    2. Залить на свой аккаунт как Unlisted.
                    3. Подождать пока YouTube сгенерирует автоматические субтитры на выбранном языке.
                    4. Перевести файл субтитров.
                    5. Отдать владельцу оригинального видео переведенный файл.

                    Когда-то искал программку для распознавания речи в скачанном файле видео на моём компе, но так и не нашёл.

                    Спасибо за информацию про речевой ввод в GoogleDocs. Пригодится в других аспектах моей работы.
                      0

                      Всегда пожалуйста. :)

                        0

                        Да! Без разницы откуда брать аудио сигнал с речью. Главное, чтобы он был по возможности чистым, без побочных звуков и широкополосным. ( Не сжатым)

                          0
                          Можете просто скачать субтитры с оригинального видео с помощью youtube-dl, пример командной строки приведён выше.
                          0
                          Вы пишете что VB-Cable OpenSource — но я честно говоря нигде не нашёл упоминаний об этом. Где же исходники?
                            0

                            Главное, что он бесплатен.
                            "Установите драйвер VB-CABLE (Donationware)
                            Virtual Audio MME, DX, KS, драйвер устройства WDM (от XP до WIN10 32/64 бит)
                            VBCABLE_Driver_Pack43.zip (1.09 MB — OCT 2015) Нажмите здесь, чтобы загрузить с альтернативного веб-сайта. УСТАНОВКА: Извлеките все файлы из ZIP и запустите программу установки в режиме администратора (перезагрузитесь после установки или деинсталляции). Если вы нашли VB-CABLE полезным, вы можете пожертвовать и получить два других виртуальных аудиоустройств: VB-CABLE A + B. "

                              0
                              Для кого-то важно и именно чтобы было OpenSource.

                              Из опыта — данный конкретный вариант виртуального кабеля действительно один из лучших, но иногда странно багует.
                            0
                            Давно уже использую гугл переводчик, как распознаватель речи. Часто требуется в переводах, если не могу разобрать, что говорят.
                              0
                              Результат — тот же. Но, было в отличие от предыдущего — объяснение.

                              На speechpad'e в меню сайта есть пункт «Видео-уроки», в котором, в том числе, и про виртуальный кабель рассказано.
                                0

                                Интересно только одно, почему драйвер платный? Тут описан способ как это делать бесплатно. lifehack. Кстати speechpad'e я попробовал воспользоваться в демо версии но, ничего не вышло. Подскажите почему? Может не заплатил ?

                                  0
                                  Интересно только одно, почему драйвер платный?
                                  Не понимаю вопроса. И у вас в статье, и в видео-уроке на speechpad'e есть ссылка на бесплатный драйвер.
                                  Кстати speechpad'e я попробовал воспользоваться в демо версии но, ничего не вышло.
                                  Может галки какие-то не поставили, или язык не тот выбран; у меня работает более чем нормально. Попробуйте разработчику написать, он вроде откликается — по крайней мере, по поводу мобильного приложения мы с ним переписывались немного. Я сам лишь месяц-два назад на этот сайт наткнулся.
                                    0

                                    Спасибо. Уже не надо. ;)

                                0
                                Я просто включаю Гугл Докс и кладу диктофон на микрофон.

                                Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                Самое читаемое