Инфраструктура открытых данных для ИИ — кто и зачем её разрабатывает / Habr

Группа независимых американских организаций планирует построить сеть открытых репозиториев с данными. На их основе будут обучать ML-модели в самых разных отраслях — от медицины до климатических исследований. Инициатива пока находится на самых ранних этапах развития, но мы решили обсудить, зачем она понадобилась.

/ unspalsh.com / DeepMind

Несогласованность данных

В последние месяцы языковые модели не сходят с заголовков СМИ. Илон Маск даже призвал временно остановить разработку нейросетей, но быстро передумал и основал собственную компанию, которая займется обучением ML-моделей. Продукты вроде ChatGPT уже внедряют в BI-системы, которые помогают руководителям компаний принимать бизнес-решения.

Крупные языковые модели обучают на основе информации в интернете — и в этом кроется проблема. Такого рода данные могут содержать фактические ошибки или баги, если мы говорим о программном коде. За примером не нужно далеко ходить — в конце марта разработчикам ChatGPT пришлось отключить бота, когда он начал раскрывать истории запросов других пользователей. Причиной стала ошибка в одном из open source компонентов.

Эксперты утверждают, если языковые модели будут обучаться на таком коде, то сами будут генерировать неидеальные программы. Кроме того, по словам одного профессора из Швейцарской высшей технической школы Цюриха, на ответы языковых моделей можно влиять путем вредоносных инъекций в обучающие выборки. В теории решением проблемы может стать разработка курируемых сводов данных для обучения систем ИИ.

Путь к открытым данным

Как раз один такой проект профинансирует NASA, совместно с американскими National Science Foundation, National Institutes of Health и другими организациями. Они разработают Open Knowledge Network (OKN) — открытый набор репозиториев с данными и связанными графами знаний. В каком-то смысле OKN будет представлять собой облачную инфраструктуру для разработки моделей машинного обучения в сфере здравоохранения и правопорядка, космической отрасли и природных исследованиях.

Сейчас организации ищут подрядчиков на каждый из трех этапов разработки. Первый подразумевает формирование графов знаний, которые позволят решать профильные задачи, а второй — разработку и развертывание инфраструктуры для обмена данными. Третий этап посвящен созданию обучающих материалов и инструментария для взаимодействия с OKN.

Частные инициативы

Параллельно с инициативами, направленными на становление интеллектуальных технологий и их углублённую интеграцию в интернет-пространство, развиваются проекты, связанные с идентификацией пользователей. Есть мнение, что уже в скором времени станет невозможно отличить контент, сгенерированный человеком и машиной. Поэтому энтузиасты предлагают протоколы для определения «человечности» участников сетевых коммуникаций.

/ unsplash.com / Pawel Czerwinski

Так, резидент Hacker News предложил собственный протокол — PeerID. Идентификация личности подразумевает физическую встречу двух участников, которые помещают специальную p2p-подпись в распределенный реестр. Все это происходит без обмена паспортными или какими-либо другими данными.

Специальный сервис под названием «оракул» верифицирует данные в реестре и вычисляет индивидуальный уровень доверия для каждого пользователя. На репутацию виляет количество завершенных «физических» верификаций. Далее, оракул генерирует доказательство с нулевым разглашением. Его получает клиентское приложение, которое можно использовать в качестве идентификатора.

Сейчас проект представляет собой сырую концепцию. Поэтому непонятно, в каком направлении он продолжит развиваться (и будет ли вообще). Хотя можно ожидать появления новых механизмов, которые помогут людям выделяться среди машин и ботов.

Больше интересного в нашем корпоративном блоге: