Комментарии 7
По теме статьи - начал относительно недавно разрабатывать платформу для обмена структурированными и неструктурированными данными - https://datahub.su
Есть возможность делиться данными, покупать и продавать. Репозитории данных могут содержать хранилища любого типа - MySQL, MongoDB, etc.
Несколько статей на Хабре в виде инструкций.
В целом, думаю, что совместная работа над данными для обучения выйдет на новый уровень. Конкуренция тоже вырастет, потому что разработать модель - это часть задачи, но обучение на качественных данных - другая сторона медали.
Качественные данные — это данные, полученные известным хорошо документированным и сертифицированным способом. Нужна грамотная постановка измерительного эксперимента. Нельзя просто так взять какие-то данные, и что то в них найти. Найти можно что-то всегда. А нужно решать практические задачи. И тут сначала нужна постановка эксперимента. Поэтому всё должно начинаться с построения всевозможных моделей (объекта исследования, вычислительных алгоритмов и измерительных процессов). Чтобы иметь готовый скелет для реализации алгоритмов. И, вообще, методология работы. Вот с чёго надо начинать. С графов знаний. С наведения порядка. А мы (люди) даже не можем энциклопедию (Википедию) написать! Будем ждать, когда это за нас сделает ChatGPT? (Если это уже не реализовано внутри...)
Конечно, было бы крайне интересно в таком поучаствовать. Но хотелось бы начать с обобщений, моделей и... моделей баз данных. Ведь, надо, по существу заново изобретать способ представления информации в компьютере!
Что давным-давно сделано на идейном уровне. Только поставщиками БД, которые сбежали из страны. Building, Using, and Managing the Data Warehouse (Data Warehousing Institute Series from Prentice Hall Ptr)
А как новый проект соотносится с уже существующим ЦЕРНовским https://about.zenodo.org/?
Инфраструктура открытых данных для ИИ — кто и зачем её разрабатывает