Как стать автором
Обновить

Бесплатный Telegram-бот для расшифровки аудио. Рассказываем кратко, как мы его сделали

Время на прочтение3 мин
Количество просмотров80K
Всего голосов 15: ↑14 и ↓1+15
Комментарии36

Комментарии 36

Спасибо от слабослышащего сына - с его слов очень достойное качество конвертации голосовых из whatsapp.

Спасибо за обратную связь. Рады это слышать!

Подскажите, а rest api не ожидается?

Спасибо, побольше бы таких решений. А есть ли у Сбера что-нибудь из open source для самостоятельного использования, типа Vosk или Silerio? Интересно попробовать.

Из опенсурса есть репа с нашим датасетом Golos, языковой и акустической моделью, можете посмотреть: https://github.com/sberdevices/golos

И посвящённая им майская статья на Хабре для пояснения: https://habr.com/ru/company/sberdevices/blog/559496/

Silero =)

Очень круто получилось.

По поводу

Бот способен расставлять знаки пунктуации и делить текст на предложения. Это довольно простая seq2seq-модель 4-классовой классификации (пустота, точка, запятая, знак вопроса), обученная на открытых данных общения из интернета. 

может отдельную статью с кодом сделаете? :)

Я недавно свои эксперименты оформил в репозиторий, они на основе NeMo. Можно под свою пунктуацию подтюнить и другие языки.

github.com/averkij/multipunct

И как распознаете длинные сообщения? Тех.детали можете написать?

Спасибо за интерес. Подумаем)

Полезный бот. Особенно когда неудобно прослушать голосовое сообщение (дети спят, в метро и т.п.), и незаменим для людей с ограниченным слухом. Респект!

Спасибо. Пользуйтесь на здоровье)

Особенно когда неудобно прослушать голосовое сообщение

То есть всегда

Одна загадка давно интересует - почему ни whatsapp, ни telegram до сих пор не добавят себе подобную функцию? Это же для них было бы элементарно и напрашивается давно.

TTS в виде офлайн-решения не планируете выпустить? Очень не хватает современного качественного офлайн-продукта в этой сфере :(

Предлагаю вам написать команде SmartSpeech: smartspeech@sberbank.ru.

Возможно, коллеги смогут предложить какое-то решение.

Извините, но мне не верится, что я такой напишу "ребят, а есть готовый офлайн TTS для Андроид?", а они такие "да, вот держи, не жалко" :) Озвучил как пожелание, если на текущий момент нет такого продукта в паблике.

А что именно вы подразумеваете под "офлайн-TTS"?

Полностью работает в виде приложения, не требуя доступа в интернет для генерации голоса.

Спасибо за пояснение. Пока такого в планах нет.

Очень круто! Давно ждал чего-то такого. Как я успел попробовать, работет в основном с русским языком, на англиском у него затыки возникают прям.

Очень офигенно это вот всё

Спасибо! Да, бот пока работает с голосовыми сообщениями и аудиофайлами на русском языке. Следите за обновлениями)

А какой профит от бота вам? Получаете больше информации для обучения?

Популяризация технологии. В будущем планируем использовать бот как способ демонстрации новых фичей в распознавании.

Шах и мат любителям записывать длинные войсы, вы нам больше не страшны.

Услышали, подумаем.

Сейчас в телеграме уже есть несколько подобных решений.

Решение ... которое в конце каждого сообщения постит сомнительные "призывы" (для кого-то с точки зрения морали и идеологии, для кого-то - с точки зрения закона), упоминать я не буду.

А всем остальным советую лучше пользоваться нашими решениями - телеграм ботом и онлайн-сервисом для длинных файлов - https://habr.com/ru/post/654227/

Поддерживайте независимых авторов, а не финансовые корпорации, которые лезут в каждый аспект нашей с ваши жизни, на наши же с вами деньги ...

Я вас правильно понимаю, что вы всех своих клиентов проверяете на отсутствие доходов с наших с вами денег? А откуда они тогда деньги берут?

А то не очень понятно, чем вы отличаетесь, вы же пытаетесь влезть в аспект распознавания и синтез речи на наши же с вами деньги?

У вас мешанина какая-то. Давайт разложим все по полкам. Клиент - это тот, кто добровольно купил что-то.

Тут речь идёт про финансирование спорных с точки зрения основной специализации банка и ЦБ проектов из денег фонда национального благосостояния без собственно какого-либо участия или пользы для народа. На эту тему высказывался даже ЦБ и очевидно, что на уровне Сбера это все имеет большой коррупционный потенциал.

Простыми словами - когда на наши с вами налоги ЦБ использует Сбер для стабилизации экономики (в этот в этот кризис раз ставки по депозитам в Сбере взлетели сразу) это благо.

Но когда туда кладутся и так в прибыльный банк триллионы рублей из ФНБ, чтобы путем скрытой национализации строить ещё одну экосистему - у меня к этому большие вопросы.

Да нет, мы вроде как раз об одном и говорим. Я верно вас понял, что вы всех своих клиентов проверяете, что они не получают никаких "государственных" денег, которые являются по сути нашими с вами? Ну или как вы проверяете, что пришедший клиент делает это добровольно, а не по принуждению каких-то структур, чтобы исключить коррупционную состовляющую?

Я честно не пытаюсь вас как-то подловить или как-то иронизировать, я просто не понимаю позицию на основе ваших утверждений.

Здравствуйте! Попробовал протестировать Smart Speech и с андроида и с iOs. Не получилось получить перевод. Отправил голосовые непосредственно боту и в чат, куда его добавили - перевода не было. Поделитесь, пожалуйста, пошаговой инструкцией, что сделать, чтобы голосовые сообщения переводились в текст с помощью вашего бота.

Здравствуйте! Попробуйте, пожалуйста, еще раз. Если проблема будет сохраняться, предлагаю обратиться в чат поддержки: https://t.me/smartspeech_by_sber. Коллеги помогут разобраться, в чем дело. Мы со своей стороны проблем не наблюдали.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий