Звук

Это «ж-ж-ж» неспроста

212,09

Рейтинг

СтатьиПостыНовостиАвторыКомпании

evsom

28 июн в 06:164.9K

Доброго всем!

Я не музыкант, не композитор и не продюсер. Просто люблю музыку :)

С развитием генеративных моделей появилась бездна синтетических треков. На первый взгляд и слух многие из них неотличимы от человеческих, а местами даже лучше одноразовых коммерческих поделок. Но лично у меня от массового нейросетевого звука уже выработалось устойчивое слуховое утомление — слишком стерильно и предсказуемо.

Чтобы отсеять синтетический шум, появилось множество сервисов по распознаванию ИИ-музыки. Насколько я понимаю (возможно, в корне неверно), вся эта детекция основана на поиске в спектрограмме устойчивых паттернов: отпечатков периодических структур, артефактов нейросетевых вокодеров (типа EnCodec) и следов агрессивного сжатия.

Ради прикола я прогнал через довольно строгий детектор (aimusicdetector.online) несколько заведомо «живых» коммерческих треков. Ожидал увидеть чистый результат, но ИИ-артефакты детектировались везде — 15%, 18%, 20%. Ладно, списал на мастеринг.

Но вот попались две жемчужины, которые полностью сломали мне картину мира:

Трек 1: THER_DARK_MOTIVATION — Confessions_in_the_Smoke

Weak / inconclusive evidence Confidence: Medium · Linear model probability: 45%

Трек 2: THER_DARK_MOTIVATION — The_Man_Who_Walked_With_Shadows

Strong codec evidence Confidence: High · Linear model probability: 86% Strong codec evidence detected in the residual spectrum. The fingerprint aligns with the current linear model for AI-music artifacts.

То есть детектор с высокой уверенностью называет живую стоковую музыку нейросетевой генерацией, ссылаясь на «совпадение с линейной моделью артефактов ИИ».

Уважаемое сообщество, хочу спросить:

Как это можно объяснить с точки зрения DSP и аудио-форензики? Это баг конкретной модели, или современные детекторы действительно путают артефакты brickwall-лимитеров / MP3-кодирования с нейросетевыми вокодерами?
Можно ли хоть в какой-то степени верить таким сервисам в 2026 году, или они уже сейчас дают слишком много ложноположительных срабатываний на профессионально сведённой музыке?
Есть ли среди читателей те, кто сталкивался с подобным в работе (A&R, саунд-дизайн, модерация контента)? Как вы верифицируете происхождение треков, когда автоматика врёт?

Буду благодарен за любые мысли, ссылки на исследования или личный опыт. Заранее спасибо! 🙏

daniilshat

10 июн в 07:252.9K

Звук

Во время презентации WWDC спикеры часто произносили фразу активации Siri, но голосовой помощник у зрителей не срабатывал. Такого эффекта добились, вырезав из аудио частоты 3-6 кГц именно на обращениях к Siri. Вырезанные фрагменты хорошо видны на спектрограмме.