snakers4 29 июн 2022 в 11:38

Может ли синтез речи обмануть систему биометрической идентификации?

3 мин

4.3K

Информационная безопасность*Машинное обучение*Голосовые интерфейсы*

Комментарии 13

SADKO 29 июн 2022 в 12:25

Ха, вы пошли по замороченному пути, и даже ваш, "тупо-инженерный", поход оказался удачен.
Но он не единственно возможный, к вопросу биометрической идентификации можно подойти из изучения предметной области, и использования оных знаний, что автоматически даёт инвариантность к куче факторов важных для "тупого ML", микрофоны - сэмплы - ололо...
В крутых, коммерческих системах, иногда сочетаются оба подхода, сначала происходит параметризация а потом уже ML решает на сколько этому можно верить. (причём не всегда даже ML если в команде есть хороший математик)

Джо, не уловим, пока его никто не ловит, но по мере развития биометрической идентификации, интерес к ней будет возрастать и с учётом того, что в былые годы у криминала хватало ума и средств на решение куда более сложных задач хватало.

snakers4 29 июн 2022 в 12:36

Не совсем понял, в чем состоит суть вашего комментария кроме большого обилия оценочных суждений и эпитетов.

К нам пришел заказчик, мы сделали свою работу, система идентификации, очевидно, на вход принимала просто 2 аудио и сравнивала их.

Очевидно, что в реальной жизни делать такую систему основным ключом - бред.

SADKO 29 июн 2022 в 15:14

Ну, простите коли обидел, но я лишь о том, что есть иные способы, пусть не такие человечные как ваш, за-то выдающие голос с конкретными биометрическими параметрами, актуальные для систем идентификации. И для этого не потребуется 100500 сэмплов или машинного времени. Более того, возможно сочетание живого пародиста, с некоторым преобразованием спектра на лету для достижения заданных характеристик.

То есть, если кого припрёт серьёзно подделывать биометрию, он может пойти коротким путём.

snakers4 30 июн 2022 в 10:05

А еще можно просто подойти на улице (под видом журналиста, например) или просто спрятать микрофон под майку и спросить что-то. Или найти аудио-книгу. Или еще что-то.

Мой основной посыл - качественный синтез на 1 фразе от речи неотличим, что для человека, что для биометрической системы, но полезным для атак НЕ является.

dizatorr 30 июн 2022 в 14:08

Ещё один вектор опасности биометрических систем подобного рода - отказ в обслуживании. Это когда система не может признать носителя биометрии, из за повреждения оной. Простыл чел или в морду ему дали.

Kotsusamu 29 июн 2022 в 15:16

Очевидно, что в реальной жизни делать такую систему основным ключом - бред

ой не факт, совсем не факт. Маркетинг рулит многими проектами.

Zoraccer 29 июн 2022 в 13:16

Для получения в изобилии отличных семплов публичной фигуры и даже простого гражданина достаточно пригласить его на интервью.. ой?

snakers4 29 июн 2022 в 13:20

Многие публичные фигуры и говорящие головы выкладывают часы или десятки часов своей речи в публичный доступ, часто в очень высоком качестве (но там часто шум, эффекты или музыка наложены).

А для простого человека - никто заморачиваться не будет, посыл моей статьи, что мошенничество работает, потому что фиксированные расходы на 1 пользователя равны нулю. Условно для каждой бабки - скрипт одинаковый.

igand 30 июн 2022 в 08:55

Например, многие преподаватели во время пандемии записывали дистанционные лекции на хороший микрофон и выкладывали в открытый доступ

Bedal 30 июн 2022 в 09:57

ерунда, пара-тройка звонков по невинным поводам (поэтому достаточно длинных), и можно получить довольно длинную запись голоса. С тем самым качеством, которое будет и в реальных системах использоваться.

snakers4 30 июн 2022 в 10:03

Вопрос дизайна простоты системы проверки, но вообще можно просто подойти на улице и что-то спросить). По идее если подходит тупо любое слово, сказанное в звонке - то система априори плохая.

Моя основная задача показать - что синтез или клонирование речи опасности не представляют, потому что или качество будет не очень, несмотря на все оптимизации, или всегда будут более простые способы через социальный инжиниринг.

Опять же, полная неотличимость в рамках одного предложения синтезированной речи от реальной нужна только для каких-то супер high-profile атак.

Bedal 30 июн 2022 в 10:14

разница в объёме. «Тупо сказанное любое слово» — мало. А десяток минут речи — уже нет. Причём то, какие слова будут сказаны, с высокой вероятностью задаёт тема разговора, а тему — звонящий.

snakers4 29 июн 2022 в 14:02

Да, важная ремарка.

Заказчик дал нам табличку, где значения менее 1 были покрашены как зеленые, от 1 до 1.1 как желтые, более 1.1 как красные.

Если желтые посчитать как "не обманули", то процент обмана будет 65%.

Но повторюсь, большая часть проблем из-за которых оно "не работало", были артефактами синтеза.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Может ли синтез речи обмануть систему биометрической идентификации?

Комментарии 13

Публикации

Истории