Amvera_Speech Dec 20 2022 at 17:51

Насколько можно улучшить распознавание речи в записях с АЗС за месяц

3 min

2.1K

Amvera corporate blogSemantics * Machine learning * Reading roomArtificial Intelligence

Comments 13

OBIEESupport Dec 20 2022 at 23:23

Странно, но писать о распознавании без всей теории и тестов, а только на основании WER - это примерно как описывать Луну по фото с хорошего сотового телефона. Картинка есть, но заправки - это же интересная задача сама по себе. Скажем, если делать робозаправку, а не автоматизированную, как сейчас любят, на кого должен быть похож робот?

vkni Dec 21 2022 at 00:00

Скажем, если делать робозаправку, а не автоматизированную, как сейчас любят, на кого должен быть похож робот?

Для этого надо хотя бы перестать жить в мире киберпанка. Пока же делается рабозаправка, где автомат служит полицаем.

В нормальной ситуации это просто обычная заправка с оплатой по карте. Их делают уже десятилетия как. Вот так выглядит:

Чек выдаётся слева, карта засовывается справа.

Robastik Dec 21 2022 at 02:34

это немаленькая ошибка и нужно смотреть, какие из бизнес-кейсов при такой ошибке решаемы

Надо понимать, что бизнес-кейс заказчика не решен→

контролировать, упоминают ли кассиры акции, предлагают ли установить мобильное приложение и выпить кофе.

Поэтому можно предложить заказчику зайти с другой стороны → освободить кассиров от несвойственной им функции.
Если заказчику кажется, что упоминание акций устами кассиров лучше, чем другие способы информирования, сделать "вклейку" необходимых фраз в речь кассиров. Например, на прикладывании карты к терминалу озвучивать приглашение на кофе, а на выползании чека напоминать о мобильном приложении. Акции упоминать при приветствии (которое и будет распознаваться ).

BigBeerman Dec 21 2022 at 03:07

кожаный мешок дешевле

MentalBlood Dec 21 2022 at 06:45

Это пока не понадобятся сложные методы контроля

BigBeerman Dec 21 2022 at 06:51

ну, это очень древняя тема, пока человек достаточно дешево обходится, его не заменят машиной. Плюс машину не получится обмануть

kirillkosolapov Dec 21 2022 at 15:30

Тут (с данным WER) закрываются кейсы с произнесением ключевых слов сотрудником, но полностью регламент тяжело оценить. Но для статистического анализа, какой сотрудник как часто и что предлагает, этого хватает.

mikelavr Dec 21 2022 at 07:54

Каждый раз на заправке говорю кассиру, что очень сочувствую ему по поводу требования этого голосового спама. Они замучено улыбаются.

dom1n1k Dec 21 2022 at 08:06

[оффтоп] То есть люди мало того, что портят UX своего сервиса, так еще и готовы тратить немалые деньги на контроль того, что точно испортили, не забыли, не профилонили.
Это ведь из жизни ситуация. Например, я много лет пользуюсь услугами одного интернет-магазина. Всегда шел к ним, даже если у конкурентов бывало чуть дешевле — потому что всё всегда проходило четко и удобно. Но с недавних пор они стали на каждом этапе назойливо впаривать допуслуги и мусорные страховки. На полном серьезе подумываю сменить контору. Дооптимизируются.

arheops Dec 21 2022 at 09:32

Тоесть на основании вот такого WER вы предлагаете делать дисциплинарные взыскания?
Я бы сказал, что это «задача не решается, но наш аналитик придумал обьяснение», а не «мы решили задачу».
И да, вклейка голосовых сообщений и блутус кнопка на касе «пора сообщение» была бы и дешевле, и проще. Ну и заодно позволяла бы человеку в то же время приготовить ходдог и КАЧЕСТВЕННО решить проблемы отчета по таким сообщениям. Да и просто можно было бы сделать — отходит человек от касы на два метра — играет сообщение(если с прошлого прошло больше минуты).

Это как раз случай, когда специалист бы обьяснял заказчику, почему у него постановка задачи неверна.

kirillkosolapov Dec 21 2022 at 14:25

Мы тут как разработчик ASR выступаем, решения которого внедряет конечному клиенту наш клиент. И насколько мне известно, что разные гипотезы проверяли, но именно соблюдение регламента общения (со всеми апсейлами) сотрудников, позволяет поднять средний чек.

arheops Dec 21 2022 at 14:49

Ну тогда вы вообще сфейлили, поскольку не решили ничего.
Но подаете это как победу.
А ведь какой-то джун не разобравшись в вашей метрике решит, что и эта задача в России решена.
Лично я, понимая сложность задачи, зашел посмотреть, как же ее решили. И что? А никак, натренировали, результата как был никакой так и остался. Все улучшения от того, что вы сравнивате с более общей системой. Результаты при слабых шумах вы, естественно, не показали.

kirillkosolapov Dec 21 2022 at 15:26

Это некорректно так говорить. Данного качества на самом деле хватает, чтобы оценивать факт произнесения ключевых слов (брендов) и предложений. Это же нужно не для поиска конкретных нарушений, а для сбора статистики по сотрудникам. А для статистики этого достаточно. И вы удивитесь, но для чистейшей телефонной речи WER у всех лучших вендоров (и у ЦРТ и у Яндекса и у нас) около 20% (это если честно считать) и ошибку почти не видно глазами. Ошибку 30-40% конечно уже видно, но она кроется в основном в речи посетителей АЗС, которые далеко от микрофона. И да - как инженеры мы довольны, что смогли сократить ошибку почти в 2 раза относительно простым способом. И если поработать еще с пол года в т.ч. с фильтрацией сигнала, можно еще сократить - но это соответствующие затраты на ФОТ и разметку данных.