VASExperts 22 апр 2023 в 12:59

Инфраструктура открытых данных для ИИ — кто и зачем её разрабатывает

3 мин

1.5K

Блог компании VAS ExpertsИскусственный интеллектОткрытые данные*Машинное обучение*

Комментарии 7

AndrewShmig 22 апр 2023 в 13:09

По теме статьи - начал относительно недавно разрабатывать платформу для обмена структурированными и неструктурированными данными - https://datahub.su

Есть возможность делиться данными, покупать и продавать. Репозитории данных могут содержать хранилища любого типа - MySQL, MongoDB, etc.

Несколько статей на Хабре в виде инструкций.

В целом, думаю, что совместная работа над данными для обучения выйдет на новый уровень. Конкуренция тоже вырастет, потому что разработать модель - это часть задачи, но обучение на качественных данных - другая сторона медали.

vassabi 22 апр 2023 в 16:42

а как вы проверяете, что продающий - это А) настоящий владелец данных и Б) имеет право их продавать в том виде в котором он их продает ? (например медицинские данные можно продававать только после обезличивания, усредняя данные и т.д.)

fedorro 22 апр 2023 в 17:30

В) Что это вообще настоящие данные, а не сгенерированные рандомом другой сеткой данные)

vassabi 23 апр 2023 в 15:30

ну, это-то хоть можно продавать - там только обман покупателя, а не секир-башка от разных проверяющих органов.

OlegZH 22 апр 2023 в 23:34

Качественные данные — это данные, полученные известным хорошо документированным и сертифицированным способом. Нужна грамотная постановка измерительного эксперимента. Нельзя просто так взять какие-то данные, и что то в них найти. Найти можно что-то всегда. А нужно решать практические задачи. И тут сначала нужна постановка эксперимента. Поэтому всё должно начинаться с построения всевозможных моделей (объекта исследования, вычислительных алгоритмов и измерительных процессов). Чтобы иметь готовый скелет для реализации алгоритмов. И, вообще, методология работы. Вот с чёго надо начинать. С графов знаний. С наведения порядка. А мы (люди) даже не можем энциклопедию (Википедию) написать! Будем ждать, когда это за нас сделает ChatGPT? (Если это уже не реализовано внутри...)

Конечно, было бы крайне интересно в таком поучаствовать. Но хотелось бы начать с обобщений, моделей и... моделей баз данных. Ведь, надо, по существу заново изобретать способ представления информации в компьютере!

OBIEESupport 23 апр 2023 в 22:40

Что давным-давно сделано на идейном уровне. Только поставщиками БД, которые сбежали из страны. Building, Using, and Managing the Data Warehouse (Data Warehousing Institute Series from Prentice Hall Ptr)

fabela_arbaro 24 апр 2023 в 02:39

А как новый проект соотносится с уже существующим ЦЕРНовским https://about.zenodo.org/?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий