Comments 12
Следовательно исходя из полученных данных, мы можем сделать недорогую (написанную на коленке) систему, которая привнесет в наш бизнес много полезного и мы узнаем, что было скрыто за тысячами аудиозаписей приходящих к нам и получить статистику, а далее получить динамику в зависимости от изменений на процесс
Вам лучше такие предложения разбивать на более короткие и понятные, чтобы статья стала читабельной. Сейчас понять мысли автора проблематично...
Пока статья слишком вводная, но посмотрим что будет в следующий части.
По статье не очень понял, какую задачу решаете? Так как из аудио можно получить много информации(пол, возраст, эмоции и тд), а из текста, еще больше. И хотите сделать что то универсальное или решать узконаправленную задачу?
В целом хотел универсальное решение. Также хотел сразу предусмотреть систему телефонии работающую в кластере kubernetes с включенной аналитикой, но думаю что один такое не потяну (уже пробовал запустить решение на основе доклада https://www.youtube.com/watch?v=xgx61YGSS54).
Задача в целом простая, это возможность сделать софт, который легко внедрить в существующие системы и быстро анализировать поток данных. Как и сказал, это вводная часть. И в статье указал то, что основная программная часть работы будет связана в основном с аналитикой полученного текста. С speech to text уже есть много хороших, открытых решений, поэтому хочется все правильно скомпоновать и сделать хорошее, доступное решение.
по поводу универсальности сомневаюсь, что получится. те же stt лучше тренировать для своих данных, так как телефонная речь и с диктофона качество разное получается. далее может быть область, где есть ключевые слова, соответсвенно при распознавании надо "предупредить" вашу языковую модель, чтоб правильно расшифровала.
что касается анализа текста: для скорой медицинской помощи нужны одни данные, например уметь распознавать адрес, симптомы и тд, а для банка другие. получается слишком много нюансов.
Думаю, довольно долго самым надёжным и точным останется распознаватель с биржи фрилансеров: рубль минута и максимально точная расшифровка на выходе.
200*60*8= 96000, это усредненная формула call centr, где 200 это количество звонков в минуту и 8 часовой рабочий день. Даже если фрилансер будет брать 10 рублей за минуту распознавания, получится довольно кругленькая сумма в день. Тут решают масштабы бизнеса.
вы делаете классную вещь, буду рад следить за вашим прогрессом
вы сосредоточены на негативных эффектах, типа мата или "подам на вас в суд". обычно такие разговоры редки, и о них оператор нормального колцентра сообщит гораздо раньше своему руководителю, чем система алерт пошлет ))
другое дело, что в процессе обслуживания разговора оператор должен пройти ключевые вехи: приветствие, определение проблемы, предоставление решения, сообщить о том, что с клиентом свяжутся, перевести на другого специалиста.
более того в зависимости от процесса, заложенного в звонок - например, менеджеры продавали на входящие звонки одну услугу, а после определенной даты должны предлагать воспользоваться акцией, дополнительным предложением или начать продавать другую услугу - также трудно понять сколько и как прошли звонки по критериям.
а от успешного прохождения звонка по всем ключевым вехам зависит впечатление клиента от сервиса, и как следствие более длительный цикл сотрудничества с клиентом и повторные/дополнительные продажи.
отсюда вытекает, что скорее необходимо сосредоточиться на положительных моментах, сколько соответствия критериям набрал звонок.
что например делаем сейчас мы в тестовом своем пилоте: выбрали часть звонков - только первые звонки от новых лидов (это могут быть исходящие или входящие). новых лидов мы определяем по CRM. Первый звонок важен потому что это первое впечатление о компании.
для него определяем критерии: приветствие, говорить об услуге, предложить перейти к видеовстрече.
в каждом критерии: определяем ключевые слова, если одно из слов было в репликах менеджера. если совпало ставим балл за выполнение критерия.
затем после оценки звонка - отправляем оценку в CRM и менеджер видит свою оценку, видит критерии, где он не набрал балл. - это очень удобно в динамике, например, поменяли критерий - теперь надо поздравлять клиента с Новым годом, а про акции 3 по цене 2-х говорить не надо, у вас оценка сразу просядет, если вы не начнете поздравлять, и это увидит и руководитель менеджеров в отчете, и сам менеджер в CRM в своих сделках.
в вашем случае, может быть было бы интересно понять, сколько положительно-эмоциональных звонков было.
Присоединюсь к @AigizKпо поводу того, что вы хотите реализовать. Например, чтобы применять наше решение - без разницы какая у вас телефония - главное уметь записывать каналы менеджера и клиента раздельно, т.к. по сути мы оцениваем только менеджеров. при этом для распознавания мы используем сейчас Яндекс, можем заменить движок распознавания на другой. Может быть где-то надо применить машинное обучение для оценки звонков, но пока тупо по вхождению лексем в фразы.
подумал, может быть дополнительным баллом к оценке быть положительно-эмоциональный окрас разговоров, или доброжелательность/невозмутимость менеджера, или сказал ли клиент в конце разговора спасибо )))
и как у вас отмечено, конечно, организации зачастую выбирают готовые решения по распознаванию - ибо это уже готовое, нам для оценки разговоров неважно какой движок распознавания, нам важно просто выделить из потока звонков - те, на которые стоит обратить внимание и только.
пара скринов из нашей системы оценки, может на какие мысли наведет?
Аналитика содержимого аудиоразговоров (пробуем, пытаемся)