Распознать "здравствуйте" в записи — задача, которая уже решена. Труднее понять, кому это "здравствуйте" сказано, кто стоит у кассы в этот момент, и было ли приветствие вообще, если клиент коротко ответил "ага" на фоне работающего холодильника.
Дано: сеть АЗС, ручной аудит покрывает несколько процентов смен. Всё остальное — "слепая зона". Заказчик хотел её закрыть с помощью существующих камер и микрофонов: взять архивные записи, автоматически выделить сессии обслуживания, проверить по чек-листу. Никакого нового оборудования, только то, что уже есть на точках.
Ограничение, которое определило всю архитектуру: кассир у микрофона говорит громко и развёрнутыми фразами. Клиент отвечает коротко, тихо и иногда вообще кивает. Стандартный ASR-пайплайн из этой пары слышит только одну сторону.
Видео первично: без стабильного ID клиента и временных границ сессии аудиоаналитика работает вхолостую. Начали с трекинга.