Как стать автором
Обновить
7
0
Amvera Speech @Amvera_Speech

Пользователь

Отправить сообщение

Обычно от 5 до 20 минут. Если дольше, либо у вас очень большой и сложный проект, либо что-то пошло не так.

Странно, что данные откатываются к старой версии БД. Так быть не должно. А вы копируете БД из репозитория в папку /data при запуске приложения?

P.S. получить данные можно пока только через поддержку. А вообще - напишите имя проекта в поддержку - support@amvera.ru мы разберемся в чем причина и попробуем помочь.

Здравствуйте, а вы на номер какой страны высылаете код подтверждения? Просто сейчас только на операторов РФ у нас подключена отправка СМС (и надо вводить в формате +79*********). На неделе включим еще СНГ почти все страны (нужно у операторов согласовывать все долго, к сожалению), так-как реально некоторые пользователи у которых нет симки РФ оператора столкнулись с этой проблемой. И если совсем не получается с регистрацией, мы можем номер через поддержку подтвердить.

Мы не скрываем, что это наша статья. Да и было бы странно конкурентов включить в обзор, а себя нет. Мы исходим из того, что пользователи должны получить максимально полную картину по возможностям, и уже исходя из своего запроса принять решение, какими сервисами пользоваться.

Может, но не в бесплатной версии. Для этого нам нужно с другими параметрами сервер поднять, чтобы потоком принимало на вход. В бесплатной не стали делать, так как количество vCPU(потоков) ограничено, и если кто-то начнет потоками подавать, остальные не смогут ничего загрузить, и нужно ждать когда процессор освободится. Да и разграничить доступ к результатам по webhook проще, когда один сервер на много пользователей.

Распознавание речи это другой проект, там все работает.

О чем вы пишете, это другой наш проект - контейнерное облако. С ним и правда технические проблемы - пришло много пользователей (больше чем мы ожидали) во время бесплатного бета-теста и инфраструктура оказалась неготова - сейчас переделываем/переписываем. Мы стараемся с пользователями открыто и честно работать. И если в облаке техническая проблема, проще закрыть регистрацию на бета-тест для новых пользователей пока все не починим. Плюс мы когда откроем регистрацию - биллинг будет отключен на время всего бета-теста.

Буквально недавно на Хабр была статья с перечнем аналогов Хероку - https://habr.com/ru/company/amvera/news/t/701854/ Там много вариантов на любой вкус и цвет.

Цель статьи сравнить именно проприетарные платные решения. Opensource есть, но для русской речи как правило дает ниже качество по WER и в коммерческих кейсах его проблематично использовать из-за лицензии.

Помимо стандартного, что стояло ранее - посмотрели по спектрограмме, на какие частоты приходятся шумы и применили простой самописный фильтр, чтобы "вычистить" эти частоты, там, где это было возможно.

Соглашусь, нужна очень хорошая разметка, и если "чистые" записи размечать относительно просто (на час записи тратится 3-4 часа работы разметчика), то для этих пришлось тратить очень много времени, несколько раз их переслушивать и делать тройное перекрытие между разметчиками.

Там было 2 типа записи - аналог и цифровой, на них было по разному. Плюс несколько станций - на них были отличия в акустике не стороне диспетчера. На аналоге как раз получилось лучше всего вычистить шумы (цифры как раз для него), на "цифре" было чуть хуже. А по распределению - там шумы как от самих раций, так и окружающий шум был, но от раций в похожем частотном диапазоне, который к сожалению, частично перекрывал диапазон в котором была сама речь.

Да, но Google такое выдавал на модели, которая из разряда совсем не приспособлена к акустики рации. У того же ЦРТ результат был лучше, но все равно общая модель не позволяла хорошо распознать настолько специфический домен. И 0,85 будет, если распознавать "вагон" без пропусков слов, а большая часть ошибки как раз заключалась в том, что в сильном шуме на всех решениях были огромные пропуски.

Олег, русский как основной - на нем лучшее качество за счет собственного набора данных для обучения. Но есть модели и для других языков (около 10), построенные на открытых датасетах.

Постараемся написать в следующих статьях. Там много разных архитектур и лучше их отдельной статьей описать

Информация

В рейтинге
Не участвует
Откуда
Россия
Зарегистрирован
Активность