
Институт искусственного интеллекта и цифровых наук ФКН ВШЭ представил сервис обезличивания табличных данных. Он предназначен для подготовки корпоративных датасетов к использованию в аналитических и ИИ-сервисах.
Реальные данные нужны для обучения и тестирования моделей, но использовать их напрямую нельзя из-за опасности раскрытия личных данных. Сервис НИУ ВШЭ решает эту задачу благодаря реестру замен и воспроизводимой модели обезличивания. Сервис находит персональные данные в таблицах и формирует вместо них артефакты для дальнейшего использования в защищённых контурах.
«Для одинаковых входных данных система формирует предсказуемый результат, что важно для повторяемости экспериментов, проверки качества данных и последующего аудита. Такой подход позволяет сохранить структуру набора данных и его пригодность для аналитических задач и ИИ-сценариев», — поясняют в НИУ ВШЭ.
Разработка соответствует требованиям законодательства о персональных данных. В архитектуре предусмотрено раздельное хранение исходных данных и артефактов, управление правилами замены, разграничение доступа, контроль целостности и реестр замен, что позволяет включать сервис в управляемый жизненный цикл данных для ИИ.
Сейчас сервис работает на платформе SmartMLOps НИУ ВШЭ для обработки университетских корпоративных данных. Решение планируют адаптировать для закрытых контуров в образовании, медицине, промышленности, финансах и госорганах. В разработке также находится версия для неструктурированных данных (тексты, договоры, обращения).
