Как стать автором
Обновить

Неструктурированные данные: что это, в чем их опасность и как защититься?

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров4.3K
Всего голосов 7: ↑7 и ↓0+7
Комментарии4

Комментарии 4

Да что ж такое... Это слабоструктурированные данные!!! У них есть некоторая структура, метаданные. Если только это не стихи Хармса в электронных письмах.

... Это слабоструктурированные данные!!!

Спорное утверждение:
1. кстати, похоже путаются понятия "данные" и "документы".
2. метаданные, это не слабоструктурированные данные. В моем понимании - это описание данных, к данным отношение имеют слабое.

Если про документы, то слабоструктурированные, это когда у вас есть схема, но она может не соблюдаться и данные расположены где угодно.
Например, контракт: "стороны" должны быть, но где в документе - четко не определено.

Кстати, тема статьи довольно актуальна и интересна определенным специалистам.
В банковской индустрии (больная тема) сталкиваемся часто и не только во внутренних документах, но и во внешних публикациях, когда нарушаются правила и законы, но отловить сложно из-за "свободного" текста.

Для того, чтобы продать DAG (почему-то в тексте данная технология не упомянута) / DCAP изделие назовут как угодно, даже неструктурированными данными. И даже убедят в этом покупателя :)

А вот идеологи datalake учат, что не надо структурировать данные. Это наоборот хорошо, что они неструктурированные

Зарегистрируйтесь на Хабре, чтобы оставить комментарий