nurtdinovadf5 ноя 2021 в 13:50

Бесплатное распознавание речи для всех желающих

3 мин

24K

Natural Language Processing * Голосовые интерфейсы * ЗвукМашинное обучение * Развитие стартапа

+20

Комментарии 23

mmaks17 5 ноя 2021 в 13:57

будет ли доступно по апи ? для wh или tg бота очень бы пригодилось

snakers4 5 ноя 2021 в 14:05

Этот сервис построен на АПИ нашего коммерческого сервиса для распознавания аудио. Нам стоило определенных нецелевых усилий (у нас нет команды фронтенд разработки) сделать распознавание доступным для публики, но при этом безопасным для нас образом (например как минимум чтобы нагрузка распределялась и не создавала для нас проблем).

По очевидным причинам, бесплатно раздавать безлимитные АПИ ключи мы не можем — у нас просто нет столько ресурсов.

putnik 5 ноя 2021 в 14:31

Я не знаю, что по коммерческим ценам у Silero, но у Яндекса и VK ценник на API вполне приемлемый. За 15-секундные отрывки они берут 0,12-0,15 рублей, за часовые 30-36 рублей. Так что если вы не планируете бесплатный сервис для всех вокруг, то платное API вполне доступный вариант.

snakers4 5 ноя 2021 в 14:40

Это весьма относительный и отчасти философский вопрос. Если нужно 100 запросов в месяц — то действительно (более того, что ради 100 запросов тот же Google дает пробный лимит).

Все почему-то редко упоминают, что тот же яндекс округляет до 15с вверх.
И если просчитать какой-то проект по автоматизации, на ценах яндекса или гугла зачастую выгоднее просто нанять операторов. На масштабах цены и риски уже являются запретительными.

Ну и отдельный вопрос — обычно коммерческие компании, уважающие своих пользователей, не хотят сливать свой трафик и данные в экосистемы, потому что это приводит долгосрочно к понятно каким последствиям.

По ряду причин мы не поддерживаем розничное АПИ — нам кажется тут не особо есть прямо рынок. Но получается, что обычные люди должны пользоваться услугами перекупов (есть много "удобных" сервисов перепродающих АПИ с накруткой в 10 раз).

Так что если вы не планируете бесплатный сервис для всех вокруг

За меня этот вопрос, к сожалению, уже решили в 1991 году, не спросив моего мнения.

funnybanana 6 ноя 2021 в 22:19

Я для tg бота использовал wit.ai, ещё на том этапе когда они тренили свой движок распознавания речи. Но даже тогда русский очень неплохо распознавался. Из плюсов - цена (бесплатно), из минусов - не поддерживаются длинные фразы. У меня был бот который в телеге аудиосообщения в текст переводил, ну и дома я управляю некоторыми девайсами с помощью этого сервиса (собственно для этого он и задумывался)

snakers4 7 ноя 2021 в 04:51

C wit.ai мы игрались тоже на заре погружения в речевые технологии.

Плюсы

Бесплатно

Минусы

Низкое качество
Это проект Facebook для сбора разметки
Отсутствует какое-либо SLA — они слушают аудио — и если там есть намек на коммерческое использование — они рандомно начинают тормозить или отключать

Ну то есть реально для проектов, где на кону деловая репутация или бизнес использовать нельзя.

snakers4 5 ноя 2021 в 14:00

Тут я бы хотел добавить буквально пару вещей.

Будущее этого сервиса целиком и полностью зависит от публики. Если сервис будет полезен, люди будут пользоваться, делиться своим опытом и помогать с какими-то ошибками и краевыми случаями — мы будем поддерживать бесплатный сервис и развивать его. Например на уровне исследований функции простановки знаков препинания, диаризации и определения числа спикеров уже решены.

Ну и да, все стремительно развивается, ссылка в начале статьи немного устарела, вот актуальная.

putnik 5 ноя 2021 в 14:35

Вы правда большие молодцы. Только вот если нужна приватность, то никакие заверения о неиспользовании данных не помогут, и тут вы мало отличаетесь от более крупных коллег. Но для чего-нибудь вроде расшифровки лекций студентами вполне может подойти.

snakers4 5 ноя 2021 в 14:41

По этой причине мы пишем прямым текстом:

Для любителей разоблачений и теорий заговора: основной целью сервиса является улучшение качества распознавания в конкретных доменах с использованием данных пользователей. По этой причине просим всех пользователей прочитать оферту и убедиться, что все посылаемые данные не содержат чувствительной или запрещенной информации.

Если вы хотите приватность — всегда можно купить коммерческое on-premise решение.

prefrontalCortex 5 ноя 2021 в 14:39

В ответ за загрузку файла вида REC018.MP3 веб-страничка сообщает, что

file must be one of wav, opus, ogg, mp3, m4a, aac, aiff, x-aiff, flac!

Tsimur_S 5 ноя 2021 в 14:52

Ну так должен быть mp3 а вы с MP3 пришли, непорядок.

tmin10 5 ноя 2021 в 18:00

Не нужно кричать на систему регистром букв.

Mingun 5 ноя 2021 в 16:09

А почему такое странное решение — отправлять расшифровку на почту? Почему не показывать сразу на странице/формировать ссылку на скачивание файла с расшифровкой?

snakers4 5 ноя 2021 в 16:22

Естественно мы когда думали как сделать проще, сделали максимально просто без ущерба своим интересам. В текущих реалиях оно показалось нам единственно возможным.

Использование почты тут вынужденная техническая и организационная мера:

Поскольку сервис бесплатный, он не должен в случае наплыва юзеров положить наши сервера. Мы не Сбербанк и не дети олигархов. Если много юзеров пошлет файлы, они просто будут обрабатываться в N очередей, где мы сами управляем этим N. Сейчас N = 1, например;
Технически, наш продукт достаточно быстрый, чтобы обрабатывать длинные файлы (часовой длины) почти синхронно для юзера (за десятки секунд), но правило 7 секунд гласит, что нам тогда придется инвестировать какие-то космические деньги в кластера серверов, которые будут 99% простаивать. И что произойдет, если придет 10 юзеров одновременно? Опять мы приходим к тому, что мы не Сбербанк;
Нужен какой-то контакт для связи и отправки "коллбека" пользователю. Регистрация и оплата нам не нужны, телефон + СМС наверное слишком сложно и жирно, во всякие SberID или ID госуслуг для такой задачи — людей скорее отпугнет. Вот скажите, какой асинхронный канал связи, которая есть абсолютно у всех пользователей интернета, вообще подходит кроме почты?;
Использовать телегу мы думали, но там уже хайп подсобран немного, да и там в последнее время какая-то волна порно-спам ботов. Вероятно телега не справляется с модерацией регистрации пользователей при росте в 10 раз. А веб + "медленная" почта дают нам инструменты для предотвращения ддоса. Вообще судьба этого инструмента целиком и полностью в руках пользователей — если их будет много и он будет полезен, там есть прямые контакты, мы можем со временем прикрутить другие фронтенды;

johnfound 5 ноя 2021 в 18:12

Ну как? Двойной профит. Аудиофайлы + почтовые адреса. Чего странного?

johnfound 5 ноя 2021 в 18:13

А вообще, в виде библиотеки нельзя скачать? Чтобы офлайн побаловаться, так сказать?

AigizK 6 ноя 2021 в 00:44

О, прикольно. А я как раз на базе вашего stt для английского для себя распознавалку пытаюсь делать. У меня проблема с распознаванием речи, идея была запустить на браузере, и там чтоб распознавание происходило в реальном времени, пусть даже с ошибками, а я буду подглядывать туда, когда сам не распознал. Сперва думал что для английского будет много решений и буду выбирать из них, а по факту из оффлайн вариантов есть ваше и от vosk. По качеству ваш не уступает особо Гуглу, по скорости естественно превышает.

Из минусов:

VAD не особо помогает. В моем случае браузер раз в секунду буфер на сервер отправляет. И желательно быстрее показывать распознанные слова. Сперва думал, что через vad буду получать законченный кусочек и его буду распознавать. Но на деле куски получились очень длинными, а разбивать по словам не получилось.

Беру куски аудио с 1 по 5 секунды, получаю текст, далее беру куски 2-6 получаю новый текст. Несмотря на то, что есть общие куски, часто распознанные слова не совпадают. Прямо не хватает выдачи инфы типа, такое то слово звучало с такой то по такой секунде. Чтоб мержить эти два предложения правильно.

Расстановка знаков препинаний хорошо, но для начала надо найти начало и конец предложения. Без них решение все таки как будто не законченное.

Если в общем рассматривать, то диаризация нужна. Конкретно в моем случае, я пока обхожусь без этого.

Salavat 6 ноя 2021 в 10:46

Вырезать речь из песни с помощью www.lalal.ai (крутой сервис). Отправить голосовой файл вам и на выходе текст песни)
UPD. Беру слова обратно - ужасно вышел текст по чистому вокалу без музыки.

Mingun 6 ноя 2021 в 12:55

То есть, с музыкой вышел лучше?

snakers4 6 ноя 2021 в 13:11

Тут вы сразу два edge кейса сковырнули:

Собственно речь в рэпе и музыке (в рэпе мы что-то даже тренировали, но там все плохо, естественно);
Поведение двух ничего не знающих друг о друга алгоритмах;

Сочетание этих вещей может давать непредсказуемый результат.

iShrimp 6 ноя 2021 в 15:06

Нужна возможность ввести свой (правильный) ответ.

У пользователей появится возможность помочь проекту, т.к. собираемые данные могут использоваться для дообучения сети (пусть даже они будут не на 100% валидными, а хотя бы наполовину).

snakers4 6 ноя 2021 в 15:53

Это безусловно хорошая идея, но люди не парятся даже указывать тип аудио. Странно будет ожидать, что они бесплатно бросятся размечать, это внезапно кропотливая работа.

AigizK 7 ноя 2021 в 09:09

если вы будете доучивать, чтоб речь этого пользователя система понимала лучше, то почему бы и нет?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий