Comments 13
Странно, но писать о распознавании без всей теории и тестов, а только на основании WER - это примерно как описывать Луну по фото с хорошего сотового телефона. Картинка есть, но заправки - это же интересная задача сама по себе. Скажем, если делать робозаправку, а не автоматизированную, как сейчас любят, на кого должен быть похож робот?
Скажем, если делать робозаправку, а не автоматизированную, как сейчас любят, на кого должен быть похож робот?
Для этого надо хотя бы перестать жить в мире киберпанка. Пока же делается рабозаправка, где автомат служит полицаем.
В нормальной ситуации это просто обычная заправка с оплатой по карте. Их делают уже десятилетия как. Вот так выглядит:

Чек выдаётся слева, карта засовывается справа.
это немаленькая ошибка и нужно смотреть, какие из бизнес-кейсов при такой ошибке решаемы
Надо понимать, что бизнес-кейс заказчика не решен→
контролировать, упоминают ли кассиры акции, предлагают ли установить мобильное приложение и выпить кофе.
Поэтому можно предложить заказчику зайти с другой стороны → освободить кассиров от несвойственной им функции.
Если заказчику кажется, что упоминание акций устами кассиров лучше, чем другие способы информирования, сделать "вклейку" необходимых фраз в речь кассиров. Например, на прикладывании карты к терминалу озвучивать приглашение на кофе, а на выползании чека напоминать о мобильном приложении. Акции упоминать при приветствии (которое и будет распознаваться ).
кожаный мешок дешевле
Тут (с данным WER) закрываются кейсы с произнесением ключевых слов сотрудником, но полностью регламент тяжело оценить. Но для статистического анализа, какой сотрудник как часто и что предлагает, этого хватает.
Каждый раз на заправке говорю кассиру, что очень сочувствую ему по поводу требования этого голосового спама. Они замучено улыбаются.
Это ведь из жизни ситуация. Например, я много лет пользуюсь услугами одного интернет-магазина. Всегда шел к ним, даже если у конкурентов бывало чуть дешевле — потому что всё всегда проходило четко и удобно. Но с недавних пор они стали на каждом этапе назойливо впаривать допуслуги и мусорные страховки. На полном серьезе подумываю сменить контору. Дооптимизируются.
Я бы сказал, что это «задача не решается, но наш аналитик придумал обьяснение», а не «мы решили задачу».
И да, вклейка голосовых сообщений и блутус кнопка на касе «пора сообщение» была бы и дешевле, и проще. Ну и заодно позволяла бы человеку в то же время приготовить ходдог и КАЧЕСТВЕННО решить проблемы отчета по таким сообщениям. Да и просто можно было бы сделать — отходит человек от касы на два метра — играет сообщение(если с прошлого прошло больше минуты).
Это как раз случай, когда специалист бы обьяснял заказчику, почему у него постановка задачи неверна.
Мы тут как разработчик ASR выступаем, решения которого внедряет конечному клиенту наш клиент. И насколько мне известно, что разные гипотезы проверяли, но именно соблюдение регламента общения (со всеми апсейлами) сотрудников, позволяет поднять средний чек.
Но подаете это как победу.
А ведь какой-то джун не разобравшись в вашей метрике решит, что и эта задача в России решена.
Лично я, понимая сложность задачи, зашел посмотреть, как же ее решили. И что? А никак, натренировали, результата как был никакой так и остался. Все улучшения от того, что вы сравнивате с более общей системой. Результаты при слабых шумах вы, естественно, не показали.
Это некорректно так говорить. Данного качества на самом деле хватает, чтобы оценивать факт произнесения ключевых слов (брендов) и предложений. Это же нужно не для поиска конкретных нарушений, а для сбора статистики по сотрудникам. А для статистики этого достаточно. И вы удивитесь, но для чистейшей телефонной речи WER у всех лучших вендоров (и у ЦРТ и у Яндекса и у нас) около 20% (это если честно считать) и ошибку почти не видно глазами. Ошибку 30-40% конечно уже видно, но она кроется в основном в речи посетителей АЗС, которые далеко от микрофона. И да - как инженеры мы довольны, что смогли сократить ошибку почти в 2 раза относительно простым способом. И если поработать еще с пол года в т.ч. с фильтрацией сигнала, можно еще сократить - но это соответствующие затраты на ФОТ и разметку данных.
Насколько можно улучшить распознавание речи в записях с АЗС за месяц