Search
Write a publication
Pull to refresh

Comments 13

Странно, но писать о распознавании без всей теории и тестов, а только на основании WER - это примерно как описывать Луну по фото с хорошего сотового телефона. Картинка есть, но заправки - это же интересная задача сама по себе. Скажем, если делать робозаправку, а не автоматизированную, как сейчас любят, на кого должен быть похож робот?

Скажем, если делать робозаправку, а не автоматизированную, как сейчас любят, на кого должен быть похож робот?

Для этого надо хотя бы перестать жить в мире киберпанка. Пока же делается рабозаправка, где автомат служит полицаем.

В нормальной ситуации это просто обычная заправка с оплатой по карте. Их делают уже десятилетия как. Вот так выглядит:

Чек выдаётся слева, карта засовывается справа.

это немаленькая ошибка и нужно смотреть, какие из бизнес-кейсов при такой ошибке решаемы

Надо понимать, что бизнес-кейс заказчика не решен→

контролировать, упоминают ли кассиры акции, предлагают ли установить мобильное приложение и выпить кофе.

Поэтому можно предложить заказчику зайти с другой стороны → освободить кассиров от несвойственной им функции.
Если заказчику кажется, что упоминание акций устами кассиров лучше, чем другие способы информирования, сделать "вклейку" необходимых фраз в речь кассиров. Например, на прикладывании карты к терминалу озвучивать приглашение на кофе, а на выползании чека напоминать о мобильном приложении. Акции упоминать при приветствии (которое и будет распознаваться ).

Это пока не понадобятся сложные методы контроля

ну, это очень древняя тема, пока человек достаточно дешево обходится, его не заменят машиной. Плюс машину не получится обмануть

Тут (с данным WER) закрываются кейсы с произнесением ключевых слов сотрудником, но полностью регламент тяжело оценить. Но для статистического анализа, какой сотрудник как часто и что предлагает, этого хватает.

Каждый раз на заправке говорю кассиру, что очень сочувствую ему по поводу требования этого голосового спама. Они замучено улыбаются.

[оффтоп] То есть люди мало того, что портят UX своего сервиса, так еще и готовы тратить немалые деньги на контроль того, что точно испортили, не забыли, не профилонили.
Это ведь из жизни ситуация. Например, я много лет пользуюсь услугами одного интернет-магазина. Всегда шел к ним, даже если у конкурентов бывало чуть дешевле — потому что всё всегда проходило четко и удобно. Но с недавних пор они стали на каждом этапе назойливо впаривать допуслуги и мусорные страховки. На полном серьезе подумываю сменить контору. Дооптимизируются.
Тоесть на основании вот такого WER вы предлагаете делать дисциплинарные взыскания?
Я бы сказал, что это «задача не решается, но наш аналитик придумал обьяснение», а не «мы решили задачу».
И да, вклейка голосовых сообщений и блутус кнопка на касе «пора сообщение» была бы и дешевле, и проще. Ну и заодно позволяла бы человеку в то же время приготовить ходдог и КАЧЕСТВЕННО решить проблемы отчета по таким сообщениям. Да и просто можно было бы сделать — отходит человек от касы на два метра — играет сообщение(если с прошлого прошло больше минуты).

Это как раз случай, когда специалист бы обьяснял заказчику, почему у него постановка задачи неверна.

Мы тут как разработчик ASR выступаем, решения которого внедряет конечному клиенту наш клиент. И насколько мне известно, что разные гипотезы проверяли, но именно соблюдение регламента общения (со всеми апсейлами) сотрудников, позволяет поднять средний чек.

Ну тогда вы вообще сфейлили, поскольку не решили ничего.
Но подаете это как победу.
А ведь какой-то джун не разобравшись в вашей метрике решит, что и эта задача в России решена.
Лично я, понимая сложность задачи, зашел посмотреть, как же ее решили. И что? А никак, натренировали, результата как был никакой так и остался. Все улучшения от того, что вы сравнивате с более общей системой. Результаты при слабых шумах вы, естественно, не показали.

Это некорректно так говорить. Данного качества на самом деле хватает, чтобы оценивать факт произнесения ключевых слов (брендов) и предложений. Это же нужно не для поиска конкретных нарушений, а для сбора статистики по сотрудникам. А для статистики этого достаточно. И вы удивитесь, но для чистейшей телефонной речи WER у всех лучших вендоров (и у ЦРТ и у Яндекса и у нас) около 20% (это если честно считать) и ошибку почти не видно глазами. Ошибку 30-40% конечно уже видно, но она кроется в основном в речи посетителей АЗС, которые далеко от микрофона. И да - как инженеры мы довольны, что смогли сократить ошибку почти в 2 раза относительно простым способом. И если поработать еще с пол года в т.ч. с фильтрацией сигнала, можно еще сократить - но это соответствующие затраты на ФОТ и разметку данных.

Sign up to leave a comment.