Pull to refresh

Comments 14

Данные — это основа, фундамент. 

Информация — это очищенные данные, которые можно проанализировать.

Знания: как поступать на основе алгоритмов Data Science, каким образом предугадывать тренды, предотвращать аномалии и ошибки.

Мудрость — это уже не просто аналитика, это некая стратегия принятия решения.

Добрый день! Это описание пирамиды данных и знаний, которая упоминается во многих книгах, например "DAMA-DMBOK. Data Management Body of Knowledge" и "Turning TEXT into GOLD. Taxonomies and Textual Analytics" . Могу вам их порекомендовать.

И? Ссылка на источник не добавляет смысла написанному вами. Кто то написал ерунду, а вы ее перепечатали.

Позвольте заметить, что, например, книга “Turning TEXT into GOLD. Taxonomies and Textual Analytics” написана Bill Inmon, он является отцом основателем классического Data WareHouse, и я не могу сказать, что он пишет «ерунду». Вот, пожалуйста, ссылки:
https://www.amazon.com/DAMA-DMBOK-Data-Management-Body-Knowledge/dp/1634622340/
https://www.amazon.com/Turning-Text-into-Gold-Taxonomies-ebook/dp/B01N7OK2SZ/

Называйте его как хотите, написана ерунда.

Подскажите, что именно в пирамиде данных вы считаете ерундой? Давайте обсудим? :)

Любопытное распределение ролей

Добрый день! Спасибо за внимание к статье :) 

Как раз изучаю DAMA DMBOK. Интересно было оценить реальный пример использования этого подхода. Спасибо за статью.

Добрый день! Спасибо, рад, что статья была вам полезна :) Успехов!

Ничего подобного раньше не встречал в русскоязычных статьях. Большое спасибо, Азат, что так досконально все раписали. Подскажите, пожалуйста, получается граница между Data инженерами и Инженерами использующими машинное обучение все больше размывается? Как вы думаете эти компетенции объединятся в итоге или будут также сепарированы?

Добрый день! Спасибо вам за комментарий и интересный вопрос. По моему мнению, в IT-индустрии сейчас наблюдается тенденция разделения DS и DE ролей. Более того, среди DS-специалистов можно выделить ML Engineer, Computer Vision Engineer, ML DataOps... DS-специалисты стараются работать с данными, которые «уже доставлены до их инструмента», применяя алгоритмы ML / Data Mining / etc. Но хочу отметить, что вопрос очистки / нормализации данных лежит на плечах DS, т. к. процесс исследования данных и поиска наилучшей математической модели может быть итеративным и уточняющим.

Это не говорит о том, что DS-специалисты не знают, как написать SQL или (H|C|*)QL запрос к данным или настроить Data Pipeline. Например, у нас DS-команда имеет в своем хозяйстве такие хранилища, как Cassandra / ClickHouse / PostgreSQL и моменты, связанные с данными, они делают своими силами.

Вопросы из угла ньюби: я, таки, правильно понял, что технически не очень большая разница какую дату обрабатывать? То есть, если есть продолжительный опыт работы с датой на уровне пользователя(операции с извлечением даты с использованием шаблона SQL, работа со специализированными интерфейсами БД, обработка даты вручную), то этот факт никаких преимуществ не даёт?

Добрый день, спасибо за вопрос)

Вообще, если подходить к категориям данных, то как раз есть разница в том, как работать с:

1) Big Data

2) ClickStream Data

3) Relational (Structured) Data

4) Unstructured / Semi-structured Data

5) Streaming Data (например, Internet of Things)

6) etc.

Знание SQL, понимание модели и структуры данных, по моему мнению, очень важно.

Data-инженер должен знать SQL (опять же, по моему мнению), так как в большинстве случаев именно с этим языком или его модификацией (не ANSI SQL я имею в виду) приходится сталкиваться в разных хранилищах и в создании ETL-процессов.

Sign up to leave a comment.