Раскладываем по полочкам тезисы из видео «Из голоса банка

Вчера мне в личку несколько десятков раз прислали это видео с просьбой прокомментировать. Чтобы повторно не отвечать всем в чатиках, запилил эту статью. Это видео дальше пошло ~~в спортлото~~ на Пикабу и DTF. На обеих площадках есть интересные комментарии, причем на DTF как мне кажется люди были ближе к истине.

Сначала кратенько адресуем целенаправленно эмоциональную подачу материала. Как правило, это один из стандартных приёмов, когда некая «заряженная» информация подается в максимально популистском информационном ключе «в пользу бедных» (или его вариация, «подумайте о детях»), а на самом деле реальные причины / логика / принципы работы ML‑моделей игнорируются. Как правило такие процессы возникают не на пустом месте, а во время неких тектонических сдвигов в технологии и индустрии.

Видео длинное, я выделил из него ключевые тезисы. На каждый тезис я дам свой комментарий, а потом приведу свою гипотезу о реальных первопричинах появления этого видео.

Разбираем тезисы

Вследствие длины и максимально эмоциональной подачи материала, конкретные цитаты приводить не буду из‑за их банальной длины и формы подачи материала. Буду комментировать лишь тезисы.

Корпорации заставляют подписывать относительно невыгодные договоры, не говорят реальных причин, лукавят со сроками, держат в неведении.

Это типичная проблема работы с корпорациями и в шоу- и игровом бизнесе. С этим глобально ничего поделать нельзя, так как у актеров или поставщиков таких компаний нет "профсоюзов". А их нет, потому что на самом деле интересы топовых артистов, которые по распределению 20-80 (или 5-95) получают все сливки и лучшие контракты, на самом деле не коррелируют с интересами остальных 95% участников рынка.

Есть ряд отраслей, где это имеет совсем гротескные формы - у стримеров, в вебкаме, на онлифанс, в музыке. Там 1% исполнителей получает 99% ништяков. Мы сами сталкивались с откровенно хамским и некрасивым поведением некоторых мейджоров, но тут можно только развести руками, не подписывать откровенную дичь и стоять на своей редакции договора. Особенно они любят кабальные пункты в духе "штраф миллион рублей за любое разглашение" (у нас нет punitive damages, и это скорее всего можно оспорить).

Из интересных недавних случаев можно привести забастовки в Голливуде, боль VFX студий и кейс Мика Гордона vs. Bethesda, но глобально сделать тут мало что можно. Сама суть такой отрасли не дает людям защищать свои права, т.к. зачастую winner takes all. То есть, прибавочная стоимость создается по силе труда, а распределяется по силе капитала. Увы.

Банк виноват в том, что моим голосом озвучивают порно, порно-рекламу, ролики мошенников, политические ролики, и прочее.

Мягко говоря не фанат банка Тинькофф из-за его резко изменившегося отношения к клиентам, но причинно-следственная связь тут немного иная. Актер записал голос, и получил скорее всего приличную компенсацию за свой труд, передав исключительные права на записи (корпорации просто не пойдут на меньшее).

Автор ролика скромно умалчивает сколько ей предложили в качестве отступных в конце процесса, называя "2 месячных оклада" и не демонстрирует свой договор, и мы можем только гадать, сколько платят топовым актерами озвучки, которые озвучивают "Алису" и других помощников.

Из презентаций Яндекса следует, что для Алисы записано как минимум 100 часов аудио. Сколько может "стоить" такой голос можно только гадать, игроки неохотно делятся своими КП. Но могу назвать только одну точку - мне обладатель голоса "Кубик в кубе" называл цифру в районе US$500k за исключительные права на свой голос. При общении с некоторыми игроками рынка, они называли цифры в миллионы долларов за права на известные голоса приемлемыми на этапе бюджетирования. Какой здесь порядок цифр - можем только гадать.

Так вот, продолжая эту логику, если у банка есть демка синтеза на сайте, а злоумышленники используют известный голос … это всего лишь говорит, что голос известный / на слуху, атаки на автора тут нет. Причем известным он мог стать вследствие использования банком или "Алисой". Точно так же злоумышленники могли бы сделать deepfake порно с участием автора или просто нарезать какие-то ее фразы из озвучки, суть глобально не меняется, они просто пошли по пути наименьшего сопротивления.

Ну или хочется копать дальше - мы демонстрировали, что с минимальным количеством качественного аудио можно обманывать коммерческие системы банковской голосовой (у них всех метрики рисуются на уровне 99% в презентациях) идентификации. Это было сделано на нормальных записях, но довольно старых технологиях.

При большем желании, качественный голос можно достать и очистить из нецелевых записей, и требования к количеству и качеству данных для клонирования голоса постепенно падают. Соответственно просто падает ценник такой атаки, для 99% людей опасности она всё равно не представляет, потому что надо сильно заморочиться.

То есть некоторая причинно-следственная связь между популярностью и использованием со стороны мейджоров, но наличие мошенников вряд ли как будет влиять на это, только если это не приобретёт массовый характер массированных обзвонов на десятки миллионов человек. Но как мы видели на примере массовых psy-ops кампаний там используются зачастую более простые методы.

Суммируя, "сделать" можно любой относительно известный голос (AI каверы на песни не дадут соврать). Вопрос лишь количества усилий. Если бы целенаправленно "убивали" чью-то карьеру, действовали бы иначе (см. как это делается на Западе и у нас). То есть виноваты тут политические акторы и сами мошенники в больше степени, чем банк, который скорее всего приобрел исключительные права. Да, я сказал это. Но до мошенников дотянуться тяжело, а значит, виноват банк.

И массово это фиксит только государство, принимая, например, закон про возврат денег, переведенных через банк мошенникам, и, например, Сбер, в котором из-за мошенников некоторые сценарии вывода денег стали нереально гиморными.

Тембр голоса уникален, и полностью принадлежит самому человеку.

С технической точки зрения - это не так. Разбивается о три вещи - пародисты могут копировать голос так, что обычный человек не заметит подмены, это раз. Два, существуют люди просто с банально неотличимыми голосами. И три, системы биометрии в открытом случае не могут никак служить уникальным ключом. Мы это продемонстрировали, когда наш довольно примитивный синтез прекрасно обманывал коммерческие системы биометрии.

Ну то есть, если стоит задача абсолютно легально, невзирая на последствия, получить синтез нужным голосом для "плохих" целей - то есть даже 100% белый путь. Нанимается пародист, ему платят много денег (но вероятно меньше, чем обладателю голоса) и делается синтез.

Но почему-то на еще более "крутом" уровне - глав стран и регионов, реально крутых кейсов применения такого я не видел. Либо кринж типа нейрожириновского, либо юмористический контент, где Байден играет в Майнкрафт с Обамой и Трампом. А Вован и Лексус и без синтеза как-то контент умудрились генерировать.

То есть мой посыл тут в том, что всё обходится, было бы желание, и роляет тут скорее социальный инжиниринг. Фейки в промышленных масштабах проще писать через LLM в соцсетях или распространять через официальные медиа. Важен канал, контент - менее важнен, обманывают бабушек и доверчивых граждан.

Любые аудиозаписи человека надо считать его биометрией и (не) передавать в реестр.

По этой же логике надо вообще при создании любого контента, содержащего любые фото или аудио человека, их все считать биометрией. Да и банально, когда кто-то фоткается вместе с вами, это тоже биометрия. И ваше видео - это тоже биометрия. Думаю дальше логическую цепочку легко продолжить, на как уже говорил, голос - не уникальный ключ, в отличие от ДНК (ну или сильно менее уникальный).

Синтез является полным клоном голоса. Скоро будут клонировать "личность".

Про личность это типичный FUD, чтобы сделать голограмму Горшка или полную 3D копию актера, надо потратить нетривиально много ресурсов.

Хотя синтез, войс-клонинг, speech-to-speech реально позволяют делать контент, в который уже можно поверить (suspends your disbelief), он всё равно воспринимается иначе. Обычно когда звонят мошенники с предзаписанными аудио, они легко на слух вычисляются за 2-3 фразы по некой шаблонности реакций, типичному фону и прочему.

Даже убитый на работе и вусмерть уставший оператор КЦ (даже мошеннического КЦ), все равно реагирует на ваши слова (это особенное искусство выводить мошенников из себя). А любой синтез, даже с десятками миллиардов параметров - нет. И даже если там есть эмоции, они или шаблонные, усредненные от диктора ("веселый"), или наследованные из фразы-донора. А чем это отличается в формате звонка от простой качественной записи - неясно.

AI-каверы на музыку посягают на существующую "трубу" мейджоров и стриминговых сервисов, но скорее являются нишевым кейсом, и как и любой хайп, быстро пройдут или будут кооптированы сервисами. Если понаблюдать за популярностью конкретных каналов с каверами - как правило везде там - заходит пара первых видео, потом спад на порядок.

Под угрозой может реально находиться … только процесс дубляжа иностранного контента на русский язык (и там люди гораздо менее придирчивы к качеству, да и многих устраивает бубнеж профессиональных программистов или субтитры), и об этом я рассажу подробнее в выводах и причины там конечно не только и не столько в синтезе.

Что автор ролика предлагает

Если прошлые тезисы по-человечески понять можно, Тинькофф якобы проехался по "маленькому" человеку (я думаю, что там всё далеко не так, см выводы ниже), то тут начинается самая веселая часть ролика. Эти поправки якобы предлагает в том числе юрист, что добавляет перчика.

Голос часть биометрии, нужно относиться к любым аудио-записям как к биометрическим данным у банков.

Чисто с технической точки зрения, тогда всё - часть биометрии. Все ваши фотки, аудио, видео. Когда вас фоткают ваши друзья итд итп. Как это коррелирует с практикой - мне тяжело судить.

Запрещение переработки и редактуры аудио, "искажающей смысл". Явно указывать, что договор на синтез. Ограничивать применение синтеза списком мест применения.

Приведу чисто "травоядный" пример. Актриса записала фразу "я люблю яблоки". На сведении оказалось, что нужна фраза "я люблю апельсины" и при этом слово "апельсины" диктор записал.

В итоге на практике студии скорее всего будут работать с более дешевыми актерами, кто согласится на такие правки, потому что неадекватность и жесткость корпоративных договоров еще продиктована длинной цепочкой принятия решений. Итог - понижение медианных цен на услуги актеров.

В пределе, если все дикторы станут членами некой гильдии, и она таки будет реально защищать их права (а не как обычно в отраслях, где winner takes all), то просто вырастет цена за такую поправку. Выше цены на пародиста, она естественно не станет. А пародисты, хоть и берут много, берут меньше, чем звёзды. Итог - понижение цен на услуг актеров-звёзд.

Про договор на синтез - первая хорошая идея. Но никто заранее не будет давать вам список мест применения, даже не потому, что не хочет, а потому что не знает или собирается продавать по АПИ (даже с учетом жесткого KYC). А значит - будут работать с дешевыми актерами или с пародистами. Итог - понижение цен на услуг актеров.

Нужно разрешение на слияние голосов.

В теории звучит прекрасно, на даже имея опыт работы с нейросетями, я с трудом представляю себе голосовую или техническую экспертизу в данном моменте. То есть задача автора будет в суде доказать, что этот голос, это на 50% она и на 50% эльф из игры, а не просто рандом.

Если читатели знают как это сделать - напишите в комментариях.

Точная цитата: "Ограничить действие договоров, подписанных ранее, на отчуждение прав на исполнение, если в них не было указано создание синтеза." Далее слова про компенсации, роялти, раскрытие данных и прочее.

Интересно, тут автор замахивается на основной принцип функционирования юридической системы - принцип отсутствия обратной силы для новых законов. Если бы такого принципа не было, то новыми законами можно было бы творить вообще любую грязь. Тут без комментариев.

Создание нового регулирующего органа, обязательства всё маркировать и хранить, предоставлять исходники и код в суде, итд итп

В вакууме звучит хорошо, но к сожалению система так не работает. В при радикальном капитализме любой новый институт регулирования возникает как реакция на внешние угрозы или как защита интересов крупного капитала, причем что-то "кристаллизуется", когда или угроза большая, или труба большая, или затрагивается 100% населения или есть экстерналии, если ничего не делать.

В случае с технологиями обычно же происходит так - появляется новая штука. Потом если она взлетает до общественно-значимого уровня, ее результаты начинают делить как правило "проигравшие" в забеге стороны, активно применяя риторику про детей и про бабушек с кошечками. Например - есть музыкальная индустрия. И там Google и Universal обсуждают как же "поделить" результаты AI-музыки, явно не будучи лидерами в этом забеге (лидеры - это стриминговые сервисы, кто "подберет" или кооптирует технологии генерации. YouTube наверное нельзя считать лидером, так они просто хостят эти каверы и с прав денег не получают, а YouTube Red вроде не очень успешен).

Регулирование невыгодно "победителям" и новым игрокам, оно выгодно старым игрокам, чтобы навесить некий "налог Михалкова" на новых игроков. Про интересы трудящихся тут к сожалению редко думают.

Маркировка работы нейросетей.

Внезапно, хорошее предложение.

Пролетарии соединяйтесь.

Наверное самый главный тезис, который я поддерживаю. Но я не верю в искренность автора. Почему - описал выше.

В идеальном мире начать стоило бы с того, чтобы собрать некую саморегулируемую (или просто неформальную или добровольную) организацию, которая взяла бы на себя как минимум правовую защиту и просвещение всех участников рынка. Например сделать канал в телеге, сайт, разработать качественные юридические шаблоны, поделиться этим всем бесплатно, давать юриста по запросу. В общем простые ништяки, которые единичный автор поленится делать сам.

Но повторюсь, интересы "звёзд" не совпадают с интересами 99% остальных участников рынка.

Моё личное видение

Как мне кажется время появления ролика неслучайно и дело тут не только и не столько в нейросетях.

Давайте будем откровенными, после начала СВО из нашей страны ушли голливудские мейджоры и формально ушли многие игровые студии, продажа новых игр затруднена и нужно применять схемы (~~кхм, лавка старика Хоттабыча~~) для покупки игр. Локализации в большинстве своём больше не делаются.

На рекламе, правах, стриминге, кинотеатрах, локализации они скорее всего суммарно давали индустрии сильно больше денег, чем отечественное кино / игры / мейджоры. У нас есть история успеха Чебурашки, есть многочисленные теле- и стриминговые сериалы, но озвучка там не факт, что прямо нужна. Еще есть феномен турецких сериалов, но мне кажется в одиночку они не вывезут.

А отечественный игрострой … ну я про него почти не слышал. Есть успешные денежные кейсы мобильных игр или картошки, которая "разделилась", но ни там ни там не пахнет массовыми заказами на озвучку.

А отсюда делаем какой вывод? С начала СВО, или точнее с момента "ухода" как раз прошел год-полтора. А это примерно срок, на котором строится планирование в крупных проектах. Понятно, что есть лазейки и появляются студии озвучки новой волны, но мейджоры скорее всего вернутся через несколько лет, после нормализации ситуации (если она нормализуется, и не пойдет дальнейший разлом). А общество уже глобализовано и в игры всё равно играть будут.

Получается анормальная ситуация, которую ярче всего иллюстрирует отсутствие проката Барби и Оппенгеймера. Хочется продолжать иметь свою ренту с существующей трубы, вот она - рядом. Но - не получается. А значит, нужен новый "закон Михалкова", то есть кто-то должен продолжать играть музыку в игре в музыкальные стулья. Является ли "обратное" регулирование синтеза в РФ чем-то, что облегчит их ситуацию - сомневаюсь, банально рынка там большого нет, да и все просто перейдут на американские сервисы.

Раскладываем по полочкам тезисы из видео «Из голоса банка — в фильмы 18+»

Разбираем тезисы

Что автор ролика предлагает

Моё личное видение

Articles