Search
Write a publication
Pull to refresh
9
0
Михаил @Rebelqwe

Начальник отдела программирования

Send message

Руководство по задачам, возникающим при использовании речевой аналитики Яндекс SpeechSense (Часть 2)

Level of difficultyMedium
Reading time8 min
Views629

Если у вас имеется собственный контактный центр, задача найти упоминание чего-либо конкретного в большом количестве аудиозаписей возникает регулярно. Недавно я опубликовал статью о том, как настраивать это решение с нуля. Во второй части я хочу показать, какие решения мне пришлось разработать дополнительно для использования речевой аналитики Яндекс SpeechSense, какие дополнительные задачи при этом появились и как их решать.

Задача, которую я решал, формулировалась вот так. Необходимо проанализировать 25000 аудиозаписей разговоров оператора с клиентом по телефону, найти и вывести список всех аудиозаписей, где есть поздравления с праздниками.

Перейти к решениям

Руководство по началу с нуля настройки решений речевой аналитики Яндекс SpeechSense и документации по платформе

Level of difficultyMedium
Reading time5 min
Views1.6K

Если у вас имеется собственный контактный центр, задача найти упоминание чего-либо конкретного в большом количестве аудиофрагментов возникает регулярно. Недавно нам удовлетворили заявку на доступ к prewiev режиму сервиса Яндекса SpeechSense и я решил попробовать одну из таких задач решить при помощи этого сервиса.

Все трудности, тонкие моменты и полный путь от начала настройки и до победы описаны в этой статье.

В принципе в документации описан функционал, который мало отличается от других систем речевой аналитики, и это только на первый взгляд. Сюрпризом стало полное отсутствие собственных средств загрузки аудиофрагментов в систему. Всю загрузку необходимо реализовать самостоятельно. В документации описан только один способ, при помощи bash и Python под unix. Поэтому в этой статье я еще и опишу, как такие инструкции адаптировать под Windows и PowerShell.

Сама инструкция довольно короткая https://yandex.cloud/ru/docs/speechsense/operations/data/upload-data я рассчитывал справиться за пару часов, это мне не удалось. Так что Ваша выгода от прочтения статьи может составлять 2-3 рабочих дня. Или больше.

Прочитать

Про обязательность поправки на множественные сравнения, которая часто игнорируется адептами Data Driven методов

Level of difficultyEasy
Reading time11 min
Views3.8K

Когда проводится один статистический тест на значимость различий, всегда есть шанс (ошибка первого рода = 5%, на уровне значимости p=0.05) получить ложный положительный результат случайно. Эта ошибка означает, что мы можем ложно утверждать, что значимое различие существует, притом, что в реальности этой значимости нет.

Когда проводится несколько однотипных тестов подряд, каждый из них имеет 5% шанс на ложный положительный результат. Если коррекция отсутствует, то вероятность, что хотя бы один из этих тестов даст ложный положительный результат, быстро возрастает.

Предположим, что делается 20 однотипных тестов. Вероятность того, что получится ложный положительный результат равна 1 - (1 - 0.05)^2064%.

Как контролировать ошибки читать далее

Топ 5 моментов при разработке бота ТГ на R, на Serverles functions Яндекса

Level of difficultyMedium
Reading time3 min
Views1K

Возьмем пример: Как создать бота в Telegram

Если вы когда нибудь читали документацию Яндекс облака, вы в курсе. Для остальных могу пояснить. Возьмите лапидарный текст, удалите из него ясность и чёткость и вы получите документацию Яндекс облака.

В статье я хочу поделиться теми моментами которые всплыли при разработке бота в телеграм, но не описаны в документации.

Читать далее

Поиск в War Thunder режима персонального угнетения (РПУ) при помощи анализа статистики побед/поражений (Часть 1)

Level of difficultyMedium
Reading time3 min
Views20K

С 12.07.2019 по 22.07.2019 я тщательно собирал и заносил в таблицу статистику своих побед и поражений в игре в War Thunder, с целью убедится в наличии или отсутствии РПУ, при помощи тестирования статистических гипотез о равенстве средних. Спустя 2 года я наконец-то набрался сил и смелости, чтобы написать данную статью, опубликовать полученных данные и представить результаты их анализа для публичного обсуждения.

Полученные данные позволяют сделать вывод о гипотезе наличия/отсутствия РПУ в игре, приводят к очень необычным выводам относительно изучаемого объекта, обладают научной новизной и за 2 года так и не были высказаны в других публикациях. Также в статье я постараюсь сделать некоторые обоснованные выводы о характеристиках и свойствах изучаемого объекта.

Узнать подробности.

Автоматизация оценки мнения аудитории о видеофрагменте, на основе количественного CAWI опроса

Reading time3 min
Views747

В этой стать хочу рассказать о том, что оценивать мнение аудитории о происходящем на видео можно, и даже нужно, не только качественными, но и количественным методом, получая результаты сразу без каких-либо задержек.

К плюсам количественного способа оценки я бы отнес следующее:

Читать далее

Максимально просто про перебор комбинаций в реальных бизнес-задачах

Reading time4 min
Views10K
Если начать искать материал про перебор комбинаций, возникает масса примеров как перебрать все сочетания всех букв или всех цифр. Но как создать все сочетания элементов матрицы, в которой заранее неизвестна размерность, не углубляясь в Иосифа Романовского и его «Дискретный Анализ», такого материала я не нашел, поэтому и решил написать его здесь. Вдруг кому-то понадобится.
Читать дальше →

Information

Rating
3,757-th
Location
Москва, Москва и Московская обл., Россия
Registered
Activity

Specialization

Backend Developer, Data Scientist
Senior
From 280,000 ₽
Development management
Marketing research
Market research
Data Analysis
Tableau
R
Math statistics
Yandex DataLens
BI
Visual Basic