По поводу удаления записей из общего сравнения - разработчики специально привели два исследования, в первом как раз учитывались пустые ответы как 0 слов, и WER автоматически приравнивался к 100 на таких записях.
Естественно, такой вклад сильно портит статистику для некоторых систем распознавания речи, второе исследование приведено с целью сравнить системы без этого вклада.
Общая продолжительность датасета - 2 часа 42 минуты, короткие записи длятся порядка 1-3 секунд, средние - 4-6 секунд, длинные - 7-10 секунд. Каждая фраза является некоторой законченной репликой. По количеству записей и произнесённых слов в каждой реплике вы можете ориентироваться по заголовкам табличек.
Также просто для информации: этот демо сервис работает на AWS инстансе типа t3a.2xlarge, и к нему подключен t.me/voicybot, который тоже генерирует какую-то постоянную нагрузку, пусть и не очень высокую
Как разработчик сервиса «Ашманова» хочу заметить, что доступ к веб интерфейсу закрытый, сам сайт исключительно демонстрационный, крутится на CPU, не предполагает нагрузки. Документация есть, клиентам мы её направляем, на сайт не успели её выложить, поддержаны протоколы wss, gRPC, MRCP обеих версий.
snakers4 Вы сравнивали в бенчмарке обе демонстрационные модели, 8000 и 16000?
Мы не обращались за лицензией и не использовали ваш датасет, мы собирали свой с помощью компаний партнёров из колл-центров и бота Voicy.
Мы предоставляем доступ к нашему решению всем потенциальным партнёрам, чтобы они могли опробовать как REST API решение, так и потоковое с gRPC или на веб сокетах, в зависимости от потребностей клиента. Мы открыты к совершенствованию моделей и кастомизации под заказчиков, это в любом случае повышает качество распознавания. Наши текущие акустические модели вполне хорошо себя показывают «из коробки», языковые же периодически расширяем новой лексикой. Любые доработки, естественно, согласовываются с заказчиком.
Свой DL фреймворк мы начали разрабатывать ещё до появления PyTorch и TensorFlow, и изначально он создавался не с целью решения частной задачи (ASR), а как раз потому что в то время не было достаточно удобных фреймворков. Его использование позволяет нам гибко подстраиваться под частные задачи и проводить оптимизацию с вычислительной точки зрения. Не смотрите, что в открытом репозитории всего 9 коммитов, на то это и публичный репозиторий, плюс решение выложить свои наработки было принято совсем недавно. Собственный фреймворк может быть очень мощным инструментом, в частности когда речь идёт о запуске на каком-нибудь экзотическом железе, поддержки которого у PyTorch/TF просто нет.
По поводу бенчмарков — мы готовили специально данные из источников, никоим образом не имеющих ничего общего с данными, на которых обучались (помимо того, что это тоже были «записи с пользовательских устройств» и из «колл-центра», при этом колл-центр имел свою узкую тематику, к которой мы не готовились). Если под «доменом» имеются в виду как раз условные «звонки» и «записи с микрофона», то да, мы затачивали модели на эти два домена, как наиболее интересные для нас в коммерческом плане.
Я согласен с утверждением по поводу того, что сложно создать универсальную качественную модель на все домены, поэтому мы пошли по пути подготовки отдельных моделей для разных доменов. Тем более что пока к нам никто не обращался с просьбой распознавать кучу доменов сразу одной моделью.
Будем рады сравнить со всеми и ваше решение для русского языка, если предоставите доступ или выложите модели!
По поводу удаления записей из общего сравнения - разработчики специально привели два исследования, в первом как раз учитывались пустые ответы как 0 слов, и WER автоматически приравнивался к 100 на таких записях.
Естественно, такой вклад сильно портит статистику для некоторых систем распознавания речи, второе исследование приведено с целью сравнить системы без этого вклада.
Добрый вечер!
Общая продолжительность датасета - 2 часа 42 минуты, короткие записи длятся порядка 1-3 секунд, средние - 4-6 секунд, длинные - 7-10 секунд. Каждая фраза является некоторой законченной репликой. По количеству записей и произнесённых слов в каждой реплике вы можете ориентироваться по заголовкам табличек.
snakers4 Вы сравнивали в бенчмарке обе демонстрационные модели, 8000 и 16000?
Мы предоставляем доступ к нашему решению всем потенциальным партнёрам, чтобы они могли опробовать как REST API решение, так и потоковое с gRPC или на веб сокетах, в зависимости от потребностей клиента. Мы открыты к совершенствованию моделей и кастомизации под заказчиков, это в любом случае повышает качество распознавания. Наши текущие акустические модели вполне хорошо себя показывают «из коробки», языковые же периодически расширяем новой лексикой. Любые доработки, естественно, согласовываются с заказчиком.
По поводу бенчмарков — мы готовили специально данные из источников, никоим образом не имеющих ничего общего с данными, на которых обучались (помимо того, что это тоже были «записи с пользовательских устройств» и из «колл-центра», при этом колл-центр имел свою узкую тематику, к которой мы не готовились). Если под «доменом» имеются в виду как раз условные «звонки» и «записи с микрофона», то да, мы затачивали модели на эти два домена, как наиболее интересные для нас в коммерческом плане.
Я согласен с утверждением по поводу того, что сложно создать универсальную качественную модель на все домены, поэтому мы пошли по пути подготовки отдельных моделей для разных доменов. Тем более что пока к нам никто не обращался с просьбой распознавать кучу доменов сразу одной моделью.
Будем рады сравнить со всеми и ваше решение для русского языка, если предоставите доступ или выложите модели!