shushurikhin 25 авг 2021 в 16:48

Разобучите это: что такое machine unlearning и почему это важно

4 мин

5.7K

Блог компании SelectelМатематика*Машинное обучение*Искусственный интеллектБудущее здесь

Технотекст 2021

^{Источник}

Судя по всему, искусственный интеллект узнал о человечестве достаточно. Пора ему уже кое-что забыть, а именно персональные данные людей. Решение этой задачи человечество ищет с помощью новой области знаний под названием machine unlearning. Разбираемся, что это, как поможет победить восстание машин в зародыше и успеет ли человечество разработать эффективный machine unlearning быстрее, чем станет слишком поздно.

Что за разобучение

Хотя ИИ делает и полезные вещи (например, считает слонов), пугающих действий у него тоже хватает. Область науки под названием «machine unlearning» появилась не так давно, и ее цель — найти способы вызывать избирательную амнезию у искусственного интеллекта и удалять из него абсолютно всю информацию о конкретных людях. Сделать это, разумеется, надо так, чтобы не пострадала производительность.

Если эта задача будет решена, люди получат больше контроля над своими данными, а значит, и жизнью. Хотя сегодня пользователи уже могут попросить некоторые сервисы удалить личные данные, они, как правило, не знают, какие алгоритмы были использованы для их настройки или обучения. Поэтому неизвестно, остались ли их данные внутри этих алгоритмов (скорее всего, остались). Таким образом, machine unlearning может позволить людям максимально помешать корпорациям извлекать прибыль из своей приватной информации.

Инициатива сверху

В том случае, если технологические компании не разработают инструменты для machine unlearning сами, регуляторы с соответствующими требованиями не заставят себя ждать. И первые шаги к этому уже есть. Так, совсем недавно Европейская комиссия заявила, что запретит «неприемлемую» эксплуатацию систем искусственного интеллекта.

Таковой считается, например, их использование, которое несет в себе «явную угрозу безопасности, средствам к существованию и правам людей» или же манипуляция поведением. Также планируется ужесточить правила использования биометрии. Например, будет ограничено использование систем распознавания лиц правоохранительными органами.

Серьезность намерений подтверждается суммами штрафов за неисполнение требований — они достигают миллиардов евро. Вице-председатель Еврокомиссии Маргрете Вестагер Хансен (Margrethe Vestager Hansen) заявила, что в области искусственного интеллекта «доверие — это обязательное условие, а не приятная мелочь». «Наши правила, рассчитанные на будущее и ориентированные на инновации, будут действовать там, где это строго необходимо, ведь на карту поставлены безопасность и основные права граждан ЕС», — также отметила она.

Отдельно подчеркивается, что правила будут регулировать только то, для чего используются технологии. Все остальные вопросы остаются на совести производителя. Системам же, работающим в сферах повышенного риска, потребуется пройти дополнительные проверки. В число таких сфер входят инфраструктура, образование, вопросы занятости людей, финансы и правоохранительная деятельность. Что забавно, отдельно прописано требование в явной форме уведомлять людей, когда диалог в чате ведет машина, а не живой человек. Ранее мы писали, чем закончились попытки сделать интернет более добрым местом (спойлер: ничем).

Аналогичные вещи происходят и в других странах. Так, в Великобритании регуляторы предупредили компании, что на некоторые системы машинного обучения могут распространяться требования GDPR, а именно удаление данных. В начале этого года Федеральная торговая комиссия США заставила стартап Paravision, занимающийся распознаванием лиц, удалить коллекцию лиц людей и обученные на их основе алгоритмы машинного обучения.

Представитель Федеральной торговой комиссии страны Рохит Чопра заявил, что компанию заставили «лишиться плодов своего обмана», так как снимки были загружены без разрешения пользователей и их не ставили в известность, что фотографии будут использоваться для создания алгоритмов.

Актуальное состояние дел

Корпорации тратят огромные деньги на разработку алгоритмов машинного обучения, и после того, как система запущена, изменить такую систему (даже понять принцип ее работы) очень сложно. Поэтому практическая реализация machine unlearning требует очень серьезных затрат.

Самый очевидный способ изъять информацию из системы — перестроить ее с нуля, и это очень дорогой процесс. Профессор Пенсильванского университета Аарон Рот, работающий над проблемой machine unlearning, говорит, что цель здесь — найти золотую середину. Уже существует ряд относительно успешных исследований, которые показали, что алгоритмы машинного обучения можно заставить забывать данные. Но «проклятие» ограничения «только при определенных условиях» они пока победить не смогли.

Один из подходов, предложенный в 2019 году, предполагает разделение исходных данных для алгоритма машинного обучения на несколько частей. Затем каждая из них обрабатывается отдельно, после чего результаты объединяются в итоговую модель. Если впоследствии какую-то часть данных нужно забыть, необходимо переработать лишь часть исходников. Этот подход был успешно применен в знаменитом датасете ImageNet. В нем были размыто более 200 тысяч человеческих лиц, при этом удалось сохранить точность распознавания объектов.

Еще одна задача здесь — проверка того, что система действительно забыла данные с последующей проверкой этого факта регулятором. К решению этой задачи пока никто даже не приблизился. То есть здесь, как и во многих других чувствительных пограничных областях цифровых технологий новой эры, доверяя корпорациям свои приватные данные, вам все еще приходится верить в то, что с ними не сделают ничего плохого. Но оснований для этого особо нет.

Еще одна вещь, которая теоретически может решить эту проблему — дифференциальная приватность, то есть математический метод обезличить данные. Эту технологию умеренно используют Google и Apple, однако повсеместным стандартом эффективности она, судя по всему, не стала.

Подводя итог, можно сказать следующее. Если вы испытываете беспокойство, когда какой-либо популярный сервис просит вас отсканировать свое лицо, вы делаете абсолютно правильно. И когда эта ситуация изменится, пока точно сказать нельзя.

Теги:

Хабы:

Если эта публикация вас вдохновила и вы хотите поддержать автора — не стесняйтесь нажать на кнопку

Разобучите это: что такое machine unlearning и почему это важно

Что за разобучение

Инициатива сверху

Актуальное состояние дел

Публикации

Информация