Комментарии 4
Круто! А как вы добились такой точности распознавания?
На любом корпусе сначала меряйте улучшения на 3–5 клипах, прежде чем добавлять в прод
Вот этот момент не очень понятен. Если запланировано распознавание на лету разных конференций, то качество будет разным в зависимости от гарнитуры, локаций собеседников и еще много каких факторов. Это жене предзаписанные тексты, которые можно сложить в папку и играться с ними. Так что не понятно что заранее измерять...
Пункт чек-листа универсальный: любое «улучшение» конвейера проверяется на данных перед включением в прод.
Нет своего корпуса - берёте открытый, ближайший к задаче. Для конференций подходят SOVA RuDevices, Golos crowd. На их клипах сравниваете модель с предобработкой и без - направление видно уже на первых тестовых клипах.
Появится прод-материал - собирайте свой корпус. С разными микрофонами, локациями, любыми другими факторами - только на таком корпусе становится видно, какие фичи реально работают, а какие лишние. Сторонний бенчмарк отвечает на вопрос «какая модель/обработка сильнее в среднем», свой корпус — «какая работает у меня».

Whisper или GigaAM для русского ASR в продакшене: три ловушки бенчмарка, которые перевернут ваши выводы