В 21 веке лавинообразно распространяется телефонное мошенничество, а доля разоблачения и поимки таких преступников мала. Можно ли определять мошенников в первые минуты разговора, если их телефонные номера постоянно меняются? Рассмотрим в статье.
В какой-то момент устав от проблемы телефонных мошенников, мы задались вопросом их идентификации до того момента, когда они полностью завладеют нашим вниманием и нашими средствами. Да, крупные компании предлагают установить бесплатные определители номера, которые оповещают о подозрительных номерах. Но принимая во внимание, что телефонные номера у мошенников постоянно меняются, обозначенные определители не дают высокого уровня защиты.
Помимо номера есть ещё голос мошенников. В данном ключе неопределённость о том, что мошенник может намеренно менять голос с помощью технических средств, мы опускаем в связи со сложностью их технической реализации, а навыки подражателя для ML моделей не страшны. Поэтому мы хотим создать модель, которая будет работать параллельно разговору и идентифицировать говорящего.
Так, набрав базу из записанных телефонных разговоров и выбрав точно определённые беседы, мы сможем обучить модель на нужных голосах.
Базовый подход к работе со звуковыми данными в ML заключается в предобработке записей:
в сэмплировании звуков с заданной частотой дискретизации;
в выделении частот быстрым преобразованием Фурье и расчёте спектральных и мел-частотных кепстральных коэффициентов;
расчёте длительности сигнала,
средней частоты,
стандартного отклонения частоты,
медианы частоты
квантилей (в кГц, например),
коэффициентов асимметрии, эксцесса,
спектральной энтропии и плотности,
центроида частоты,
пиковой частоты, фундаментальной частоты,
частоты перехода через ноль,
частоты цветности (в случае со спектрограммой)
и т. п., и дальнейшей передаче полученных датасэтов с признаками на вход моделям (нейронным сетям или другим классификаторам).
Конечно, это всё круто и интересно, но затратно по времени и не всегда полезно заниматься подробным «feature engineering»-ом.
Есть ли способ «побыстрее» в плане чтобы «загрузил модель, настроил, и она работает»? Думаем, есть.
Обратим взор на два проекта (это наш выбор, но список этим не ограничивается):
набор инструментов NVIDIA NeMo и фреймворк wav2vec2 от платформы Meta (facebook).
Wav2vec2 - это фреймворк для репрезентативного обучения речевых моделей. Он следует двухэтапному процессу обучения, включающему предварительное обучение и тонкую настройку (дообучение) и хорошо справляется с задачами распознавания речи, особенно в случаях ограниченности ресурсов.
Модель wav2vec2 обучена на немаркированных файлах с более чем 50 000 часов устной речи.
Подобно моделированию языка с маскировкой БЕРТА, модель изучает контекстуализированные речевые представления путем случайной маскировки векторов признаков перед передачей их в сеть transformer.

На рисунке приведена иллюстрация w2v-кодировщика и его предварительного обучения. Основная часть модели состоит из кодировщика на основе CNN (свёрточной нейронной сети), контекстной сети на основе трансформера и модуля квантования. CNN-кодировщик преобразует необработанный звук X в скрытые речевые представления Z.
Контекстная сеть объединяет 12 блоков трансформеров с 8 слоями внимания. Затем к замаскированным представлениям добавляется относительное позиционное вложение. Преобразователь контекстуализирует замаскированные представления и генерирует контекстные представления C.
Модуль квантования используется для дискретизации скрытых речевых представлений Z в Q. В модуле квантования имеется G = 2 кодовых книги. Каждая из них содержит V = 320 записей размером 128. Модуль квантования сначала преобразует Z в логиты. Затем Функция gumbel softmax используется для выбора одной записи из каждой кодовой книги полностью дифференцируемым способом. Все выбранные элементы объединяются в результирующие векторы [e1; e2; ...; EG], которые линейно размечаются на q.
Но в таком исходном виде модель нам не поможет, так как мы пытаемся идентифицировать говорящего без привязки к тексту. Необходимо произвести finetuning с некоторой доработкой.
Так согласно статье необходимо в модель добавить средний объединяющий слой и полносвязный слой поверх w2v-encoder. После этого модель необходимо настроить, произвести finetunig. Это можно сделать, но нам бы хотелось более «коробочного» решения.
Поэтому мы обратились к разработкам Nvidia.
NVIDIA NeMo - это набор инструментов для создания новых современных моделей разговорного искусственного интеллекта. В NeMo есть отдельные коллекции для моделей автоматического распознавания речи (ASR), обработки естественного языка (NLP) и преобразования текста в речь (TTS). Каждая коллекция состоит из готовых модулей, которые включают в себя все необходимое для обучения на ваших данных. Каждый модуль может быть легко настроен, расширен и составлен для создания новых архитектур моделей разговорного искусственного интеллекта.
Распознавание говорящих (speakers recognition SR) - это обширная область исследований, которая решает две основные задачи: идентификация говорящего (кто говорит?) и проверка говорящего (является ли говорящий тем, за кого он себя выдает?).
Нам интересно распознавание говорящего без привязки к тексту, то есть мы не отслеживаем особенности построения фраз и диалекты.
Обычно такие системы SR работают с неограниченными речевыми высказываниями, которые преобразуются в векторы фиксированной длины, называемые эмбединги дикторов/говорящих. Эти эмбединги также используется в автоматическом распознавании речи (ASR) и синтезе речи.
Так как нам не важно, что говорит диктор, то не важно и на каком языке. Поэтому для предварительного обучения мы можем использовать датасет HI-MIA, например. Высказывания в нём были записаны по сценарию «далеко от микрофона и с посторонними шумами» и «близко к микрофону с шумами», чтобы модель научилась определять именно голос и манеру произношения.
Также нужно учесть, что все аудио звуки нужно привести к 16 кГц. (можно с помощью модуля librosa)
Для нашего эксперимента установим такие зависимости:
!pip install wget !apt-get install sox libsndfile1 ffmpeg !pip install unidecode
Устанавливаем NeMo:
BRANCH = 'r1.7.0' !python -m pip install git+https://github.com/NVIDIA/NeMo.git@$BRANCH#egg=nemo_toolkit[asr]
Устанавливаем TorchAudio:
!pip install torchaudio>=0.10.0 -f https://download.pytorch.org/whl/torch_stable.html
Получаем данные:
import os NEMO_ROOT = os.getcwd() print(NEMO_ROOT) import glob import subprocess import tarfile import wget From NeMo.scripts.dataset_processing import get_hi-mia_data
Загрузим датасет:
Os.system(f‘python –m NeMo/scripts/dataset_processing/get_hi-mia_data.py --data_root={NEMO_ROOT}‘)
В процессе скачивания через указанный модуль файлы уже были преобразованы и созданы json-манифесты для обучения.
Но если вы будете использовать, например, an4 датасет или какой-нибудь другой, то придётся выполнить следующие строки (на примере an4):
data_dir = os.path.join(NEMO_ROOT,'data') os.makedirs(data_dir, exist_ok=True) print("******") if not os.path.exists(data_dir + '/an4_sphere.tar.gz'): an4_url = 'https://dldata-public.s3.us-east-2.amazonaws.com/an4_sphere.tar.gz' an4_path = wget.download(an4_url, data_dir) print(f"Dataset downloaded at: {an4_path}") else: print("Tarfile already exists.") an4_path = data_dir + '/an4_sphere.tar.gz' tar = tarfile.open(an4_path) tar.extractall(path=data_dir) print("Converting .sph to .wav...") sph_list = glob.glob(data_dir + '/an4/**/*.sph', recursive=True) for sph_path in sph_list: wav_path = sph_path[:-4] + '.wav' cmd = ["sox", sph_path, wav_path] subprocess.run(cmd) print("Finished conversion.\n******")
Сначала получим файл (ы) scp, содержащий все файлы wav с абсолютными путями для каждого из наборов train, dev и test. Это можно легко сделать с помощью команды find bash
os.system(f’find {data_dir}/an4/wav/an4_clstk -iname "*.wav" > data/an4/wav/an4_clstk/train_all.scp’)
Если посмотреть на первые 3 строчки scp файла для обучения:
Os.system(f’head -n 3 {data_dir}/an4/wav/an4_clstk/train_all.scp ’)
То получим, например, такой вывод:
/content/data/an4/wav/an4_clstk/mtje/cen4-mtje-b.wav /content/data/an4/wav/an4_clstk/mtje/an33-mtje-b.wav /content/data/an4/wav/an4_clstk/mtje/cen5-mtje-b.wav
Поскольку мы создали scp-файл для обучения, мы используем модуль scp_to_manifest.py, чтобы преобразовать этот файл scp в файл манифеста, а затем при необходимости разделить файлы на «train & dev» для оценки моделей во время обучения с помощью флага --split. Нам не понадобилась бы опция --split для тестовой папки. Соответственно, укажем id номер поля, разделенного символом /, которое будет рассматриваться как метка диктора/говорящего.
После загрузки и преобразования ваша папка с данными должна будет содержать каталоги с файлами манифеста в таком виде:
data/<path>/train.jason
data/<path>/dev.json
data/<path>/train_all.json
Каждая строка в файле манифеста описывает обучающий образец - audio_file path, содержит путь к файлу wav, duration - это длительность в секундах, а label - это метка класса говорящего:
{«{«audio_file path»: «<absolute path to dataset>data/an4/wav/an4 test_clstk/menk/cen4-menk-b.wav», «duration»: 3.9, «label»: «menk»}
Итак, создадим манифесты:
if not os.path.exists('scripts'): print("Downloading necessary scripts") os.system(‘mkdir -p scripts/speaker_tasks’) os.system(f’wget - scripts/speaker_tasks/ https://raw.githubusercontent’ f’.com/NVIDIA/NeMo/$BRANCH/scripts/speaker_tasks/scp_to_manifest.py’) os.system(f’python {NEMO_ROOT}/scripts/speaker_tasks/scp_to_manifest.py’ f’ --scp {data_dir}/an4/wav/an4_clstk/train_all.scp --id -2 --out {data_dir}’ f’/an4/wav/an4_clstk/all_manifest.json –split’)
Сгенерируем scp для тестовой папки, а затем преобразуйте его в манифест.
Os.system(f’find {data_dir}/an4/wav/an4test_clstk -iname "*.wav"’ f’ > {data_dir}/an4/wav/an4test_clstk/test_all.scp’) os.system(f‘python {NEMO_ROOT}/scripts/speaker_tasks/scp_to_manifest.py –scp’ f’ {data_dir}/an4/wav/an4test_clstk/test_all.scp --id -2 –out’ f’ {data_dir}/an4/wav/an4test_clstk/test.json’)
Задаём путь к файлам манифеста:
train_manifest = os.path.join(data_dir,'an4/wav/an4_clstk/train.json') validation_manifest = os.path.join(data_dir,'an4/wav/an4_clstk/dev.json') test_manifest = os.path.join(data_dir,'an4/wav/an4_clstk/dev.json')
Поскольку цель большинства систем, связанных с определением дикторов, состоит в том, чтобы получить хорошие эмбединги по дикторам, которые могли бы помочь отличить их друг от друга, мы сначала обучим модель end-to-end методом, оптимизируя модель TitaNet. Мы модифицируем декодер, чтобы сделать эти эмбединги фиксированного размера независимыми от длины входного аудио.
Кратко о модели TitaNet
Модель основана на архитектуре ContextNet ASR (ASR – автоматическое определение речи), состоящей из структуры кодера и декодера. Используется кодировщик модели ContextNet в качестве средства извлечения признаков верхнего уровня и передаёт выходные данные на объединяющий слой внимания. Этот уровень вычисляет характеристики внимания по измерениям канала, чтобы фиксировать представления дикторов на уровне произнесения, не зависящие от времени.
Titanet - это сверточная модель с разделением каналов по глубине в масштабе 1D с архитектурой, подобной Contextnet, в сочетании со слоем группировки (pool) внимания каналов.

На рис. 2 описывается кодировщик модели ContextNet-B×R×C и декодер объединения внимания, где B - количество блоков, R – количество повторяющихся подблоков на блок, а C – количество фильтров в слоях свертки каждого блока. Кодировщик начинается с блока пролога B0, за которым следуют мегаблоки B1 … BN−1 и заканчивается блоком эпилога BN. Блоки Prologue и epilogue отличаются от мегаблоков тем, что они оба имеют один и тот же модуль свертки (Conv), уровни batchnorm и relu слои и имеют фиксированные размеры ядра 3 в prologue и 1 в epilogue для всех предлагаемых сетевых архитектур. Они не содержат остаточные соединения и dropout слои. Каждый мегаблок начинается с разделяемого по временному каналу сверточного слоя с шагом 1 и расширением 1, за которым следуют batchnorm, relu и dropout.
Вернёмся к процессу настройки модели.
Импортируем необходимые модули.
import nemo import nemo.collections.asr as nemo_asr from omegaconf import OmegaConf
Модель TitaNet определена в конфигурационном файле, в котором объявлено несколько важных разделов.
Разделы:
Модель: все аргументы, которые будут относиться к Модели - препроцессоры, кодировщик, декодер, оптимизаторы и планировщики, наборы данных и любая другая связанная информация.
учитель: Любой аргумент, который должен быть передан в PyTorch Lightning.
Следующими строками мы выведем конфигурацию:
os.system(‘mkdir conf ‘) os.system(f‘wget -P conf https://raw.githubusercontent.com/NVIDIA/NeMo’ f’/$BRANCH/examples/speaker_tasks/recognition/conf/titanet-large.yaml’) MODEL_CONFIG = os.path.join(NEMO_ROOT,'conf/titanet-large.yaml') config = OmegaConf.load(MODEL_CONFIG) print(OmegaConf.to_yaml(config))
Установим пути к манифестам:
config.model.train_ds.manifest_filepath = train_manifest config.model.validation_ds.manifest_filepath = validation_manifest
Чтобы включить его набор данных test_ds, добавьте его в конфигурацию и замените файл манифеста как config.model.test_ds.manifest_file path = test_manifest.
Также установим количество классов в датасете:
config.model.decoder.num_classes = 340
(для an4 будет 74).
Модели Nemo являются модулями PyTorch Lightning и поэтому полностью совместимы с экосистемой PyTorch Lightning.
Импортируем модули
import torch import pytorch_lightning as pl
Проверяем доступность GPU, устанавливаем количество эпох, убираем признак стратегии и аугментации:
accelerator = 'gpu' if torch.cuda.is_available() else 'cpu' config.trainer.devices = 1 config.trainer.accelerator = accelerator config.trainer.max_epochs = 10 config.trainer.strategy = None config.model.train_ds.augmentor=None trainer = pl.Trainer(**config.trainer)
У Nemo есть менеджер экспериментов, который обрабатывает протоколирование и контрольные точки для нас:
from nemo.utils.exp_manager import exp_manager log_dir = exp_manager(trainer, config.get("exp_manager", None)) # The log_dir provides a path to the current logging directory for easy access print(log_dir)
TitaNet - это модель экстрактора эмбедингов диктора, которая может использоваться для задач идентификации дикторов - она генерирует одну метку для всего предоставленного аудиопотока. Поэтому мы инкапсулируем его внутри EncDecSpeakerLabelModel следующим образом:
Любая модель NeMo по своей сути является моделью PyTorch Lightning, ее можно легко обучить в одну строку:
trainer.fit(speaker_model)
Если у вас есть файл тестового манифеста, мы можем легко вычислить точность, выполнив:
trainer.test(speaker_model, ckpt_path=None)
Мы можем значительно сократить время, затрачиваемое на обучение этой модели, используя обучение с несколькими графическими процессорами наряду со смешанной точностью.
Смешанная точность:
trainer = Trainer(amp_level='O1', precision=16)
Тренажер с распределенным бэкендом:
trainer = Trainer(devices=2, num_nodes=2, accelerator='gpu', strategy='dp')
Можно и комбинировать эти флаги.
NeMo также позволяет сохранять и восстанавливать модели.
При использовании NEMO для обучения рекомендуется использовать фреймворк exp_manager. Ему поручено обрабатывать контрольные точки и ведение журнала.
При использовании фреймворка exp_manager, у нас есть доступ к каталогу, в котором существуют контрольные точки.
exp_manager с настройками по умолчанию сохранит для нас несколько контрольных точек -
1) Несколько контрольных точек с определенных этапов обучения. У них будут: --val_loss=tags
2) Контрольная точка в последнюю эпоху обучения обозначается символом --last.
3) Если модель завершит обучение, у нее также будет контрольная точка --last.
Выведем последнюю точку:
checkpoint_dir = os.path.join(log_dir, 'checkpoints') checkpoint_paths = list(glob.glob(os.path.join(checkpoint_dir, "*.ckpt"))) checkpoint_paths final_checkpoint = list(filter(lambda x: "-last.ckpt" in x, checkpoint_paths))[0] print(final_checkpoint)
Чтобы восстановить модель используем метод: LightningModule.load_from_checkpoint():
restored_model = nemo_asr.models.EncDecSpeakerLabelModel.load_from_checkpoint(final_checkpoint)
Для тонкой настройки все, что нам нужно сделать, это обновить конфигурацию нашей модели с помощью путей манифеста и изменить количество классов декодера, чтобы создать новый декодер с обновленным количеством классов.
config.model.train_ds.manifest_filepath = test_manifest config.model.validation_ds.manifest_filepath = test_manifest config.model.decoder.num_classes = 10
Настраиваем конфигурацию самой модели:
restored_model.setup_finetune_model(config.model)
Мы настроили данные и изменили декодер, необходимый для finetune, теперь нам просто нужно создать учителя и начать обучение с меньшей скоростью обучения в течение меньшего количества эпох.
Для примера также изменим некоторые параметры trainer:
accelerator = 'gpu' if torch.cuda.is_available() else 'cpu' trainer_config = OmegaConf.create(dict( devices=1, accelerator=accelerator, max_epochs=5, max_steps=None, num_nodes=1, accumulate_grad_batches=1, enable_checkpointing=False, # обеспечиваются exp_manager logger=False, # обеспечиваются exp_manager log_every_n_steps=1, val_check_interval=1.0, )) print(OmegaConf.to_yaml(trainer_config)) trainer_finetune = pl.Trainer(**trainer_config)
Установим параметр учителя в восстановленную модель:
restored_model.set_trainer(trainer_finetune) log_dir_finetune = exp_manager(trainer_finetune, config.get("exp_manager", None)) print(log_dir_finetune)
Настроим оптимизатор и планировщик:
import copy optim_sched_cfg = copy.deepcopy(restored_model._cfg.optim) # Struct mode не позволяет нам удалять элементы из конфигурации, поэтому отключим его OmegaConf.set_struct(optim_sched_cfg, False) # изменим максимальную скорость обучения на предыдущую минимальную скорость # обучения optim_sched_cfg.lr = 0.001 # Установим "min_lr" на низкий уровень optim_sched_cfg.sched.min_lr = 1e-4 print(OmegaConf.to_yaml(optim_sched_cfg)) # Обновим настройки оптимизатора restored_model.setup_optimization(optim_sched_cfg) # Можем заменить конфигурацию restored_model._cfg.optim = optim_sched_cfg
Дообучение:
trainer_finetune.fit(restored_model)
Теперь мы можем сохранить всю конфигурацию и параметры модели в одном файле .nemo и в любое время восстановить из него
restored_model.save_to(os.path.join(log_dir_finetune, '..',"titanet-large.nemo")) !ls {log_dir_finetune}/.. restored_model_2 = nemo_asr.models.EncDecSpeakerLabelModel.restore_from(os.path.join(log_dir_finetune, '..', "titanet-large.nemo"))
В целом это всё. Данное руководство к действию не очень сложное для реализации, и им можно пользоваться.
Для работы модели рекомендуем использовать GPU.
Использование подобных моделей освобождает пользователей от долгих изысканий новых признаков для обучения модели.
Добавим, что в github Nvidia (https://github.com/NVIDIA) есть ещё много полезных инструментов для ML.
