NVM+RVC = вокал профи? / Хабр

Да, теперь, благодаря ИИ, любой, даже не поющий может отлично петь на любом языке. Как это работает и к чему может привести?

NVM (Neural Voice Model) — нейронная голосовая модель

RVC (Retrieval-Based Voice Conversion) — преобразование голоса на основе поиска

Я не претендую на полноту раскрытия темы — она емкая и стремительно развивается, в ней каждую неделю, месяц появляется что-то новое. Но надеюсь, что мой опыт поможет интересующимся войти в неё быстрее.

Да, еще. Обычно профессионалом считают того, кто навыку обучался, им владеет или того, кто этим зарабатывает. Но все мы знакомы с людьми, которые прекрасно поют, но они не заканчивали ДМШ, колледж, консерваторию, не учились вокалу и не зарабатывают пением. К слову, вокальное отделение — единственное в консерватории, в приеме на которое не требуется аттестат музыкального колледжа, а возрастной порог 35 лет (по крайней мере, так было 20 лет назад).

Есть и краткое изложение темы. Последнее из моих экспериментов с музыкальным ИИ в телеграм-канале.

Из прошлого опыта

Меня давно интересовал синтез голоса, в первую очередь с целью создания вокала.

В 2004 в Канаде вышел CD с моей песней «Internet Angel», где я использовал приложение Miracle (или Mirage ?), кажется французское. Правда, сейчас не смог найти в сети его следы.
Чуть позже я работал над приложением добавления выразительности в пение Vocaloid. По результатам анализа MIDI-данных оно вырабатывало кривые CC (MIDI Control Changes — Expression, Modulation), Pitch Wheel и др., также генерировало мелизмы (опевания) на основе анализа лада и гармонии - примеры.
Сотрудничество с PowerFX (Швеция) позволило протестировать голосовые банки Leon, Lola, Miriam, Sweet Ann, BigAl (все английские). Последний — самый яркий, к сожалению, так и не стал общедоступным.
В 2004 организовал публичное выступление Vocaloid в большом зале Новосибирской филармонии — Miriam спела в сопровождении джаз-группы.
В 2006 в РФ выпустил CD «Место под солнцем». Альбом включал 7 песен в исполнении Leon (каждая на английском и русском).
В 2007 — несколько версий своей композиции «Помоги мне тебя понять» с Leon, Lola, BigAl, Miriam на английском и русском.
В 2008 моя компания разработала вокальный VSTi HumBox VM1 (вышел под брендом PowerFX).

В последние 3-4 года я использовал онлайн TTS сервисы, чтобы озвучивать комментарии к обучающим играм. Раньше русских голосов было немного и такие, как Светлана и Николай, кажется указывали на реального артиста, диктора, привлеченного для создания банка. Но пару лет назад на одном из сайтов заметил странную вещь — какие-то Alisha Howard и Jack Bailey говорят на английском, португальском, хинди, русском и др. языках! Тогда я не заметил приписку Neural Voice...

Меня удивляло, что технологию TTS не используют для создания вокала. Ведь для этого нужно лишь управлять высотой тона и длительностью гласных. Такие параметры есть в TTS синтезаторах речи — ради эксперимента я даже пробовал растягивать гласные, вбивая «паааапа иии мааааама».

И вот, пару месяцев назад, я получил ответы на многие вопросы, благодаря знакомству с МакКинли Хиббитсом (McKinley Hibbits) — энтузиастом, работающем над сохранением истории аудио-технологий. Поставив задачу создать NVM для Leon и не выпущенного официально BigAl, он по всему миру собирает вокальные примеры этих банков. Поскольку в сети нашлись и мои эксперименты с ними, МакКинли обратился с просьбой снабдить его исходными вокальные треками. Я отправил ему все, что смог найти, а также CD «Место под солнцем». В дальнейшем общении с МакКинли я узнал о RVC, более того, он сделал NVM моего голоса, а также рендеры вокала для 15 песен на 8 языках (примеры), до того, как я сам начал разбираться в этой кухне.

Способы синтеза вокала

Вокодер

Электронная схема или программа со следующей структурой:

Генератор тона (меандр со скважностью больше 2-х или пила)
Генератор шума
Набор полосовых фильтров
Амплитудный модулятор

Набор этих модулей по сути моделирует структуру голосового тракта и при соответствующем управлении синтезирует речь или вокал. Есть множество примеров использования, в частности в песне Стиви Уандера (Stevie Wonder) «I Just Called to Say I Love You». (Вполне возможно, что французское приложение и было создано по принципу вокодера).

В музыкальной практике управление синтезом выполняется за счет анализа вокала в реальном времени — с голоса певца снимается информация о формантах, амплитуде, тоне и шуме. В итоге колебания голосовых связок как бы заменяются сигналом с богатым спектром, нередко и гармоническим - например, аккордами, извлекаемыми на органе.

Качество синтезируемой речи невысокое, скорее всего термин голос робота и был сформирован на основе восприятия подобных голосов.

Vocaloid, UTAU, Synthesizer V

Vocaloid. Теория и практическая апробация сделаны в Испании (Университет П.Фабра, Барселона) в начале 2000-х. Программа выпущена Yamaha (2004), голосовые банки разработаны несколькими компаниями, в частности PowerFX.

Технология заключается в последовательном соединении звуковых фрагментов, в чем-то походит на Wavetable синтез и сэмплеры. Артист записывается громадное количество фраз в разных регистрах и с разными громкостями. По словам Била Брайанта (Bil Bryant), экс-руководителя PowerFX, это 60 страниц. Затем звукоинженеры обрабатывают материал, создают банк фонем в спектральном виде, тестируют синтез — в общем, создание, отладка нового банка это большой труд. В итоге пользователь в программе, согласно мелодии и текста, заданными в пиано-ролл, генерирует вокальный трек.

Качество голоса Vocaloid намного выше, чем у вокодера. Правда, все банки, с которыми я работал, имеют слегка зашумленный характер, наподобие звука в форматах со сжатием, как например, у mp3 с невысоким бит-рейтом. Второй заметный минус — излишняя статичность продолжительной гласной в следствии закольцовки усредненного спектра.

При том, что в Vocaloid можно отрисовать кривую Pitch и добавить вибрато, мне не хватало выразительности, свободы в выборе вокальных приемом. Самое слабое место — невозможность извлечь звук с опорой и на придыхе, какие бы настройки вы не выбирали. Пользователи сэмплеров сказали бы, что в банках Vocaloid мало слоев. Если использовать эту аналогию, то мне кажется, он там один.

Впрочем, за счет генерации MIDI файлов в нашем приложении, нам удалось повысить выразительность, заставить Vocaloid петь так, как создатели банков не предполагали. К слову, их удивил мой пример «I Feel Good», Бил спрашивал: «Алекс, как ты это сделал?», также эротический оттенок в «Please Touch Me Lola» и пение мимо нот в «In The Darkness» и «PowerFX Hymn» - примеры. На Франкфуртской Музыкальной Выставке (FMM) в 2007 мне представилась возможность пообщаться с Хидеки Кенмочи (Hideki Kenmochi), руководителем отдела Vocaloid в Yamaha. Мы обсудили расширении функционала Vocaloid за счет наших алгоритмов, но до практической работы дело не дошло.

UTAU. Появилось достаточно давно (2008), похоже на Vocaloid, но позволяет создавать собственные банки. Я никогда его не пробовал.

Synthesizer V — новая реинкарнация Vocaloid. Сам еще не использовал, но примеры в YouTube потрясающие, и ... там появилось управление вокальными приемами - голос может и кричать, и петь почти шепотом... Ещё, похоже, в последние 2-3 года в версии AI используются и нейронные голосовые модели, но только те, которые разрабатывает сама компания (точнее партнеры).

NVM+RVC

- это уже полностью ИИ технологии. Кратко схема выглядит так:

Нужно взять несколько минут исходного материала — пения, речи человека, на основе которых алгоритм создает нейронную голосовую модель (NVM);
Нужен эталонный вокальный трек* (Reference track), спетый реальным певцом или созданный с помощью Vocaloid (Synthesizer V, UTAU);
Далее алгоритм RVC заменит в эталонном треке все отдельные спектральные фрагменты на аналогичные из NVM, сохраняя звуковысотные и динамические параметры.

* крайне редко имеется отдельная и чистая (без эффектов) запись вокала. Поэтому также используется алгоритм ИИ для разделения музыки и голоса.

Таким образом мы получим тот-же самый вокальный трек, в котором тембр певца заменён на тембр другого человека.

Октябрь-ноябрь 2023. Хроника

Еще до осени я слышал шикарные примеры Synthesizer V и нейронные голоса. Не представлял, зачем МакКинли собирает фрагменты вокала BigAl и Leon. Указывал на отсутствие в примерах Vocaloid режимов с опорой и на придыхе. Отправил ему свой пример, где просто изобразил и то, и другое ... В ответ МакКинли прислал мне 2 трека, где мой голос был заменён на BigAl и Leon ... для меня это был шок — ощущения, как у юного техника, радующегося, что нашел классную железяку, но ещё не представляющего, где и как её можно применить.

Я спросил насколько сложно сделать мою модель — МакКинли попросил прислать 20-30 минут моего голоса. Мне было легко собрать этот объем из прошлых проектов - плюс что-то наговорил, напел максимально низко/высоко и отправил. Также первую песню, на которой хотел попробовать - «Splender» (лет 20 назад я делал аранжировку этой песни Ravi Dattatreya, с вокалом известного индийского исполнителя Rajkumar Bharati) и ... на следующий день я уже пел на тамильском!

Как и пару дней назад, я не представлял, какой для меня из всего этого толк, но желание попробовать и другие языки становилось все сильнее. В итоге я выбирал новую песню, отправлял МакКинли и, как 3-х летний малыш ждёт очередную серию «Маши и Медведя», ждал от него новый рендер.

Стали очевидны 2 принципиальных момента:

Выделенный вокальный трек не всегда хорош, песни в сети — готовые миксы среднего качества mp3/mp4, а некоторые — оцифровка записи 1950-х.
Для меня важно было понять, насколько моя русская в целом NVM справляется с другими языками.

Я попросил Рика Пола (Rick Paul), сонграйтера, с которым давно знакомы, поделиться чистым вокальным треком, заодно, проверить акцент моей NVM. Так в моем наборе появилась «You Knew Me ’Fore You Knew Me». Сначала Рик написал, что в сравнении с моим реальным акцентом, в моей модели он минимальный. Затем прислал список из 7 замечаний, разбирая каждый слог, а в конце приписку «... в целом по этому исполнению я бы ни за что не догадался, что поёт русский».

Мой старинный знакомый Питер Блумендал (Peter Bloemendaal), музыкант и журналист, нашел мне популярную песню на голландском — «Tulpen Uit Amsterdam». И после прослушивания результата заверил в том, что с голландским и, скорее всего, немецким, у меня проблем нет.

Два примера на французском я отправил другу во Францию, ответ: «Твой французский гораздо круче моего. :)». На армянском показал соседям — «Лав!», то есть хорошо... Примеры на итальянском никому не показывал, но он по фонетике считается достаточно близким к русскому.

В конце ноября я попробовал сам разобраться с этими технологиями. Постараюсь изложить все максимально просто. Но сначала хочу предложить аналогию, которая, как мне кажется, упрощает понимание результата, получаемого при замене тембра.

Есть походка и есть одежда...

И то, и другое может быть обычным, а может — ярким, особенным. Если у человека необычная походка, то мы его легко узнаем даже в обычной одежде. Также нам не удастся не обратить внимание на человека в яркой, странной одежде, даже когда его походка ничем не выделяется.

Так вот, исходный, эталонный вокальный трек — это походка, а NVM - новая одежда. Если у вокалиста глубокое и частое/медленное (отличающееся от среднего) вибрато, если есть заметные глиссандо (подъезды к тону и спуски), большая динамика, как на отдельной ноте, так и в музыкальной фразе, то ... замена исходного тембра на другой, но вполне стандартный, не сможет спрятать все эти особенности.

Происходит как бы сложение характера движения и окраски. Если ваш тембр обычный, а в качестве эталонного трека вы берете, например, вокал Г.Лепса, А.Серова (для мужчин), или Whitney Houston, Mariah Carey (для женщин), то вы, скорее всего, не услышите себя. Фактически спектр будет вашим, но интонирование, характер движения, очевидно, будут чужими. И напротив, если у вас очень своеобразный тембр, то при окраске обычного, не отличающего яркими деталями интонирования, вы будете вполне заметны.

В моих примерах вы наверняка отметите, что манера Г.Вицина в «Постой паровоз» доминирует при применении как модели МакКинли, так и моей, а модель BigAl явно преобладает на каком бы эталонном треке она не применялась.

Подготовка материала для NVM (Dataset)

Нужно собрать образцы голоса, можно только речи, но в нашем случае, желательно и пения, общей длительностью 20-30 минут. МакКинли сказал, что собрал 12 часов своего голоса, кто-то использует всего 1 минуту и меньше, на онлайн сервисах нередко длительность ограничена 10 минутами. Как я понимаю, смысл в том, чтобы в материале присутствовали все звуки, желательно в разных регистрах и с разной подачей — громкие, почти крик, и тихие, почти шепот.

Важно, чтобы материал был чистым — без посторонних шумов и реверберации помещения. Конечно, в отсутствии таких записей можно пытаться чистить то, что есть - умеющие работать со звуком знают, как это делается. Сейчас немало онлайн-сервисов, использующих ИИ алгоритмы для удаления шума и реверберации, как например, Noise Reducer. Но все подобные операции, как правило, не проходят без потерь.

Стандартная обработка всего материала:

удалить заметные (кроме вдохов) паузы;
EQ — обрезать ниже 120 и выше 8000 Hz;
Нормализовать отдельно каждую фразу + легкий компрессор (-12 dB);
Обычный Noise Gate с порогом -30...-40 dB

В общем надо получить хороший уровень, без искажений, не нарушая в целом динамику фраз и длинных звуков. Сохранять лучше в wav (44,1 kHz, mono).

Я попробовал делать NVM на разном материале, в частности, небольшой длительности (2-3 минуты) и из голосовых сообщений WhatsApp, применяя чистку. Не могу сказать, что увеличение объема однозначно повышает качество конечного результата (он зависит от многих факторов). В моих примерах я замечал ошибки моделей МакКинли и BigAl, которых моя NVM не делала. И хотя NVM МакКинли и BigAl были созданы на существенно большем объеме данных, иногда в конце слова, где присутствует легкий выдох, он у них заменялся на «ха-ха-ха» (смех), были и другие огрехи.

При сборе материала не поющими людьми я предлагал бы придерживаться следующего:

записывать свой голос, медленно (нараспев) читая стихотворение или прозу;
в обычном, удобном регистре, также максимально низко и максимально высоко;
также максимально громко и максимально тихо;
при этом, не искажая голос нарочно (имитируя ребёнка, картавя или говоря несвойственным басом);
не повторять один и тот же текст, а выбирать новый;
можно и на смартфон, лучше в приложении Диктофон, которое позволяет сохранять запись в формате wav (44,1 kHz, mono);
собрать 10-20 минут общей длительности, лучше отдельными файлами для разных способов (низко, высоко, громко, тихо и т.д.);
записывать в условиях, где нет явного эха (например, между массивной шторой и вешалкой с одеждой). Подробнее о записи

Для тех кто поёт, рекомендации в целом те же самые. Небольшое уточнение — запись речи всё-таки нужна и попадать в ноты необязательно.

Разделение вокала и музыки

Как уже отмечал, исходные вокальные треки почти недоступны. Для разделения голоса и музыки существует много онлайн сервисов и, похоже, они применяют один и тот же алгоритм ИИ. Сначала я использовал VocalRemover , но затем, по совету МакКинли, mvsep — более серьезный ресурс с множеством моделей, не только для разделения, но удаления шумов и реверберации.

При выборе песни приходится сразу обращать внимание на то, чем окружен вокал. Многоголосие, бэк-вокал (даже в унисон), одновременное звучание духовых, смычковых — все это может оказаться в выделенном вокальном треке. Также решению задачи повредит заметная реверберация и Delay. Делаем разделение и смотрим, как звучит эталонный трек - если он грязный, то, скорее всего, удачная замена тембра с ним не получится.

Из моего небольшого опыта я выяснил, что лучше всего голос извлекается из акустических записей с минимальным набором инструментов, например, из песни под гитару. Тяжелее всего что-то нормальное сделать из зальника, живого выступления, а также современных миксов, где вокал чаще всего жестко обработан — компрессия, Exciter и пр., и по своим акустическим параметрам очень далек от естественного голоса.

Создание голосовой модели

Я пробовал несколько блокнотов в Google Colab, но свой первый результат получил в том, что посоветовал МакКинли — ссылка

Идем по шагам, выполняем все требования, следим за тренировкой модели в TensorBoard и ждем сообщений:

Training is done. The program is closed.
Saving final ckpt: Success.

Затем сохраняем модель у себя для дальнейшего использования.

Время создания и тренировки NVM зависит от размера данных и доступных ресурсов — вычисления выполняются во внешней среде. У меня выходило 1,5-2 часа на Dataset в 10-15 минут. Мне кажется это очень хорошо. Всё это можно делать, видимо, и на своей машине, но процесс, очевидно, потребует намного больше времени.

По совету МакКинли я не ставил количество эпох более 300, делал шаг сохранения промежуточных моделей в 10 или 20 эпох (Google Colab). Я не замечал существенной разницы у моделей на 300-й, 240-й или 120-й эпохе, когда проверял их на тестовых примерах. Скорее всего это связано с самим материалом. В сети пишут, что пере-тренированная модель звучит хуже, чем недо-тренированная.

Есть онлайн сервисы, где разбираться в нюансах нет необходимости — достаточно загрузить свой материал. Я пробовал kits.ai . Размер — до 10 минут, качество модели в бесплатном аккаунте преднамеренно невысокое. Причем, скачать свою модель нельзя, но можно подгрузить другую, сделанную на стороне или из их библиотеки.

Как ни странно, но для одного конкретного голоса результат упрощённой модели от kits.ai был лучше, чем нормальной, отлаженной в блокноте Google Colab.

Рендер — меняем одежду

Вот мы и добрались до волшебства. Когда у нас есть и NVM, и эталонный трек, мы можем применить собственно RVC алгоритм. Для этого есть несколько блокнотов Google Colab, в частности — ссылка . Запускать можно как во внешней среде, так и на своей машине.

Я использовал подобный («RVC Inference HF») на HuggingFace . Загружаем модель и эталонный трек, жмём «Convert». На бесплатном аккаунте выделяется 2 vCPU и 16 GB RAM. Результат для трека в 1,5 минуты вычисляется за 3-4 минуты. Скорее всего, время зависит не только от доступных ресурсов, но и эталонного трека. Есть дополнительные настройки, меняющие характер обработки. Что-то из них попробовал, но особых различий для конкретной модели и трека не заметил — оставил по умолчанию.

Краткие выводы по технике и ресурсам

Материал для Dataset лучше делать не менее 10 минут, стараясь включить в него максимум, что позволяет голос. Если в эталонном треке будет что-то, аналог чего отсутствует в модели, то алгоритм будет подставлять максимально похожее из модели. Например, Ш вместо Ч, если Ч отсутствует.
Все погрешности в эталонном треке отразятся в рендере, причем, в этом случае богатая модель может работать даже хуже. Так, например, в эталонном треке наложился саксофон, алгоритм принял его за иной звук, округлил до чего-то другого. Или в спектре присутствует пик в области 5-7 kHz от применения Exciter — алгоритм может ошибиться в определении тона и на длинной гласной вставить фрагменты на октаву выше.
Ресурсов много, постоянно появляются новые. Алгоритмы обновляются — то, что работало вчера так, сегодня может работать иначе. Многое бесплатно и доступно из РФ. Чтобы оставаться в форме, надо отслеживать все значимые изменения. Есть множество готовых моделей, на weights.gg — около 18 тысяч (среди них более десятка моделей Майкла Джексона (Michael Jackson)).
Естественно, после танцев с бубном, как с приложениями, так и с оплатой зарубежного сервиса, появляется мысль — сделать апгрейд ПК и настроить все у себя. Насколько это легко - пока не знаю.
Думаю в самое ближайшее время появятся VST (и другого формата) плагины, позволяющие поменять тембр голосового трека прямо в вашей любимой DAW (Fl Studio, Ableton, Reaper). Кстати, RVC применима не только к голосу, но и музыкальным инструментам — такие модели тоже создаются и используются (см. kits.ai ).
Пара полезных учебников («Training RVC v2 models Guide» и «RVC v2 AI Cover Guide» от kalomaze).

Как может быть использована технология RVC?

В сети мнения по поводу результатов RVC диаметрально противоположные — от восторженных до негативных. Однако, как это бывает обычно, - проходит время и все встает на свои места. Когда в студенческие годы мы (рок-поп группа) замещали на танцплощадках духовой оркестр, его музыканты смотрели на нас почти с недоумением. Через 10 лет, нас заменили ребята с колонками, которые просто включали магнитофон. Тоже самое с появлением mp3, интернета, стримов. Ты или принимаешь новое, или остаешься в прошлом.

Создание песен не поющими — первое, что пришло в голову. Звучит не очень привлекательно, правда? Но это ранее, когда не было RVC.

Лет 10-15 у меня была своя студия, ориентированная на любителей, то есть, слабо поющих клиентов. С одним (со слуховым аппаратом!) записали 50, с другим — 15 их собственных песен. Если бы тогда была RVC, мне проще было бы сделать их NVM, самому спеть эти песни и заменить тембр, чем тратить время и нервы на запись, тюнинг по тону и ритму.

Ещё были дамочки с такой позицией: «Спела я очень хорошо, сейчас не надо учиться вокалу и ставить голос — все делает звукоинженер! Сколько это стоит? Мой мужчина за всё заплатит ... ». Ну, ... если за всё и есть RVC, то и ради одной песни можно создать NVM, нанять профессиональную вокалистку, которая запишет эталонный трек. Тогда дамочка окажется права — всё делается в компьютере и она действительно спела очень хорошо.

Этот вопрос я обсуждал с Риком Полом, он сомневается, что спрос на такую услугу существует — «то есть запись человека, который не может петь, (виртуально поет песню), которая не имеет реальной ценности – возможно, это просто поглаживание эго этого человека». Думаю, Рик не работал с любителями так много, как я. Полагаю, как только публика раскроет для себя такую возможность — все запоют, особенно, блогерши. Еще будут хвастаться, кто для них выступил донором, суррогатом и записал эталонный трек.

Приведу несколько идей, без этической, правовой оценки и прогноза о потенциальной художественной ценности результата.

Создать, озвучить песню голосом известного певца, артиста, которую он мог бы спеть. Конечно, певец, записывающий эталонный трек, должен максимально стремиться к интонации, свойственной этому певцу, артисту... Выпустить следующий альбом Битлз (!)...
В некоторых фильмах артист по сценарию должен петь, но сам не поет (от Рика). Раньше искали певца с похожим голосом или поющего пародиста. Сейчас все можно сделать с RVC.
Спеть дуэтом с известным певцом.
Композитор не всегда доволен исполнителем его песни — можно сделать версию с голосом композитора.
Поющие композиторы, аранжировщики могут легко делать женские песни - спел и + 8..+12 полутонов при рендере. Естественно, нужна женская NVM. Результат звучит намного натуральнее, чем Pitch Shifting.
Сколько самодеятельных авторов песен посылали свои демо-версии агентам артистов и в студии и мечтали, чтобы их песню исполнил известный певец! Теперь можно сочинить песню для Г.Лепса или П.Гагариной, записать ее с NVM этого певца/певицы - «посмотрите, как Вы поете мою песню!» ... Наверное, шансы получить ответ от агента или студии будут намного больше... В конце концов, показывают же дизайнеры макет будущего дома клиенту.
Один знакомый из голосовых сообщений собрал NVM своей девушки (скорее всего, не поющей), записал в её исполнении альбом своих любимых песен и теперь считает, что это лучшая музыка во вселенной.
Можно подарить своей маме сборник песен (в исполнении папы, которого, к сожалению, уже нет), которые любил папа, если имеются записи его голоса...

Похоже, распространение RVC окажет серьезное влияние на работу музыкантов и продюсеров. J.Rice (Джошуа Райс) говорит, что до голосов ИИ он отказывался от некоторых проектов: «Худшая часть музыкального производства — это ожидание - будь то сессионные вокалисты, студийное время или встречи с другими артистами... ИИ делает совместную работу проще, чем когда-либо, позволяя артистам обучать NVM, устраняя необходимость личных встреч для записи вокальных треков... Одно дело, если я пою текст, но теперь я могу изменить голос, существенно изменив то, как он будет слышен, создав более сложное и улучшенное звучание».

Что с авторскими правами?

Честно говоря, не встретил каких-либо общих материалов о том, как регулируется область применения NVM и RVC. Модели создаются тысячами, в свободном доступе есть множество моделей известных персон, созданных, очевидно, без их разрешения. Впрочем, на kits.ai приводятся условия использования официальных моделей, представленных в их каталоге.

Что мешает создать NVM, например, Сергея Чонишвили — известного артиста и востребованного диктора, а затем выпускать рекламу с его голосом? Слышал, что судебные разбирательства с чем-то подобным уже есть. Лучший способ защиты, как мне кажется, - самому артисту дать разрешение на создание NVM и получать доход от ее использования. Некоторые артисты уже пошли этим путем - Гвинет Пэлтроу (Gwyneth Paltrow), Граймс (Grimes), Снуп Догг (Snoop Dogg) и др. Я думаю в ближайшем будущем создание качественных моделей будет массово инициировано самими артистами и студиями, имеющими оригинальные, чистые голосовые треки. Законодательная сфера обычно отстает от практики, но если есть спрос, то стороны находят подходы, как согласовать интересы.

Выводы?

Еще раз повторюсь — я не претендую на полноту освещения темы. Я задумал написать статью пару месяцев назад, но уже и за этот короткий срок появилось много нового.

Очевидно, что мы на пороге больших изменений как в музыкальной индустрии, так и в культурной сфере в широком смысле. Еще 15 лет назад, как и любой инженер, знакомый с теоремой Котельникова / Найквиста, я бы доказывал, что восстановление потерянной информации (или разделение сведенной фонограммы на отдельные треки) невозможно, но ... Как оказалось, и мозг человека, увидевшего табуретку, не анализирует каждый пиксель с сетчатки глаза, в просто достаёт из памяти ранее виденный образ... Насмешка ИИ над человеком — «я же делаю то, что давно делает ваш мозг, что тут невозможного?»

Хочу отметить лишь некоторые принципиальные моменты, в которых я убежден:

ИИ пока не создает, не находит стиль, модель, манеру — он использует то, что нашел, отработал человек. ИИ может создать новый арт-объект, подражая художнику - 1000 новых полотен Айвазовского или 1000 новых сонат Шопена. Однако, программа, которая будет в известных песнях автоматически менять голоса на известных (и не очень) певцов, создаст, видимо, новые художественные объекты ( интонирование человека А + тембр человека Б = НОВОЕ исполнение ).
В процессе восприятия объекта есть очень важный фактор — дифференциальный порог восприятия (ДП). ДП это минимальное изменение того или иного параметра или группы параметров, которое человек способен различить. Иными словами, если удается попасть в зону допуска, то в какой-то момент слушатель не сможет отличить искусственное от натурального. Такие эксперименты уже проводились — в 1984 г. пятьсот профессиональных экспертов не увидели разницы между роялем, звучащем через колонки, и цифровым фортепиано Р.Курцвейла (Raymond Kurzweil).
50% в процессе оценки художественного объекта, условно говоря, лежит на стороне, ответственности слушателя, зависит от его подготовки к восприятию. Поэтому протесты и стенания защитников натурального, истинного, вечного, которое несомненно есть и таким является, обращены в пустоту, точнее — очень небольшому числу слушателей. Поскольку миллиарды людей на планете никогда не окажутся в концертном зале, где исполняется «Токката и фуга ре минор» И.С.Баха, а их музыкальный опыт будет строиться на том, что в верхних строчках плейлистов в их смартфонах, где и сейчас уже многое - далеко не живое исполнение. И они вряд ли заметят разницу в истинном и искусственном Шопене (как и в Айвазовском).

Лично я крайне рад, что застал такие новации (мне 66). И хотя еще не решил, как именно буду использовать RVC, прежний опыт подсказывает, что обязательно что-то применю в будущих экспериментах. Конечно, соглашаясь со словами МакКинли: «... в настоящее время, когда технологии настолько доступны, наблюдается всплеск создания NVM, к лучшему или к худшему, охватывающему широкий этический спектр... при этом я осознаю моральную ответственность, которую влечет за собой применение этих мощных инструментов».

Еще раз ссылка на демонстрационные примеры.

Если кому-то интересно более подробное освещение тем музыкальной выразительности и восприятия, то что-то по ним изложено в моей монографии, на основе диссертационной работы: А.Устинов «Моделирование музыкального исполнения: возможности и ограничения» (ISNB 5-9294-0023-7, Новосибирск, 2002. - 208 с.).