Google открывает API для распознавания речи на 80 языках

    Компания Google сделала подарок сторонним разработчикам — и открыла доступ к программным интерфейсам Cloud Speech API. В первое время доступ предоставляется на бесплатной основе, тарифы объявят позже.

    Распознавание речи работает для 80 языков. Возможно распознавание речи в прямом эфире через микрофон или аудиозаписей из файлов (вероятно, до 2 минут). Поддерживаются многочисленные форматы, в том числе FLAC, AMR и PCMU.

    Теперь для любой программы можно встроить, например, голосовое управление через Cloud Speech API. Система выдаёт распознанный текст мгновенно в процессе работы.

    Google утверждает, что Speech API достаточно точно работает даже с зашумлённым фоном, так что материал не требуется предварительно очищать, обрабатывая фильтрами или используя дорогое оборудование и микрофоны для шумоподавления.

    Для некоторых языков поддерживается автоматическая фильтрация нежелательного контента.

    Слухи об открытии интерфейсов ходили в последнее несколько недель. Эксперты выражали мнение, что Google собирается выйти на рынок, где сейчас работает Nuance и некоторые другие компании, специализирующиеся на распознавании речи. Теперь тягаться с Google им будет тяжело, в её системе используются последние разработки в области самообучаемых нейросетей — тот же движок, что и в голосовом поиске Google и голосовом наборе с клавиатуры Google. С каждым месяцем Cloud Speech API будет распознавать текст всё точнее.

    Новость о Cloud Speech API компания объявила вчера на конференции NEXT. Кроме распознавания речи, теперь разработчикам открыт доступ к платформе машинного обучения Cloud Machine Learning.

    Открытие Google API для распознавания речи ударит не только по специализированным компаниям, но и по Apple, у которой голосовой помощник Siri значительно уступает нейросети Google по точности распознавания и функциональности.
    Поделиться публикацией

    Комментарии 21

      0
      Что-то не могу найти api docs. Кто нашел?
        +1
          0
          Извините, не подумав отправил. Не вижу там API распознавания голоса.
        +1
        Ура товарищи! :) Одно из главных преимуществ гугла — количество языков, не припомню больше API c украинским и белорусским.
          –1
          Ну так толку, оно украинский распознает почти никак. Белорусский не тестировал
            0
            Точность распознавания повышается с частотой использования: каждый раз система самообучается, в итоге по-русски она уже довольно неплохо понимает и врубается даже в иносказательные некоторые вещи!
            Проблема с украинским в том, что у большинства украинцев 100% в настройках интерфейса "русский", в итоге распознавать оно будет по русскому словарю и только в случае, если что-то непонятное с точки зрения русского — начинает искать по второстепенным, в первую очередь — английский, а дальше — как повезёт.
            ИМХО — индивидуально она таки учитывает то, что пользователь обращается к ней на определённых языках и индивидуальный список языков составляет...
            Так что — переключаете настройки на "мову" и долго и тщательно нарабатываете системе словарь: увы, но чем меньше обращений к системе на языке, тем меньше она его понимает!
          +1
          403 Forbidden

          Передумали?
            0
            Не знаю как с этим API, но некоторые предыдущие в момент запуска были доступны лишь для US. Зайдите на сайт через proxy.
            0
            Free Trial
            Get $300 to kick start your app.
            Sign up for free and get $300 to spend on Google Cloud Platform over the next 60 days.

              +3
              Speech API давно было и Google выдавала ключ на 30 или 50 запросов распознавания в день, остальное за деньги, причем ценник просто так не озвучивался. Я давно использую Speech API в своем проекте MSpeech для распознавания речи.
              Теперь Speech API стало Free Trial, для регистрации нужно привязать банковскую карту, и как только Speech API станет не Free с карты начнут снимать деньги по тарифу.
                0
                А ещё с очень давних времен работает обход через гугл переводчик. Причем в обе стороны. Баловался лет пять назад
                  +1
                  А можно поподробнее?
                    0
                    Не знаю работает ли сие чудо сейчас, но похоже вот статья которая описывает данный принцип https://geektimes.ru/post/117234/
                0
                А чем отличается Limited Preview от Trial или платной подписки?
                  0
                  А в Скайп еще не встроили распознавалку, чтоб в субтитры гнала?
                    +1
                    Чтобы все-таки появился Cloud Speech API в аккаунте, надо заполнить эту форму https://services.google.com/fb/forms/speech-api-alpha/
                      0
                      У меня 403 Forbidden....
                        0
                        И у меня.
                          0
                          Написал выше — похоже, не пускает с российскими IP.
                            0
                            Да, так и есть — с российских адресов не пускает. Даже прошедших через Opera Turbo, которая не скрывает оригинальный адрес. А вот через зарубежный VPN и через Tor — пускает только так. Из-за чего же такая дискриминация?
                              0
                              Возможно как всегда: не рассчитали популярность и что все резко рванут…
                              У Гугла некоторые сервисы заточены под страны, в итоге если входить с российского IP, то даёт версию сайта для России, а там может не оказаться ссылки на сервис — просто не успели прикрутить...

                      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.