Comments 14
Данные — это основа, фундамент.
Информация — это очищенные данные, которые можно проанализировать.
Знания: как поступать на основе алгоритмов Data Science, каким образом предугадывать тренды, предотвращать аномалии и ошибки.
Мудрость — это уже не просто аналитика, это некая стратегия принятия решения.
Добрый день! Это описание пирамиды данных и знаний, которая упоминается во многих книгах, например "DAMA-DMBOK. Data Management Body of Knowledge" и "Turning TEXT into GOLD. Taxonomies and Textual Analytics" . Могу вам их порекомендовать.
И? Ссылка на источник не добавляет смысла написанному вами. Кто то написал ерунду, а вы ее перепечатали.
Позвольте заметить, что, например, книга “Turning TEXT into GOLD. Taxonomies and Textual Analytics” написана Bill Inmon, он является отцом основателем классического Data WareHouse, и я не могу сказать, что он пишет «ерунду». Вот, пожалуйста, ссылки:
https://www.amazon.com/DAMA-DMBOK-Data-Management-Body-Knowledge/dp/1634622340/
https://www.amazon.com/Turning-Text-into-Gold-Taxonomies-ebook/dp/B01N7OK2SZ/
Любопытное распределение ролей
Как раз изучаю DAMA DMBOK. Интересно было оценить реальный пример использования этого подхода. Спасибо за статью.
Ничего подобного раньше не встречал в русскоязычных статьях. Большое спасибо, Азат, что так досконально все раписали. Подскажите, пожалуйста, получается граница между Data инженерами и Инженерами использующими машинное обучение все больше размывается? Как вы думаете эти компетенции объединятся в итоге или будут также сепарированы?
Добрый день! Спасибо вам за комментарий и интересный вопрос. По моему мнению, в IT-индустрии сейчас наблюдается тенденция разделения DS и DE ролей. Более того, среди DS-специалистов можно выделить ML Engineer, Computer Vision Engineer, ML DataOps... DS-специалисты стараются работать с данными, которые «уже доставлены до их инструмента», применяя алгоритмы ML / Data Mining / etc. Но хочу отметить, что вопрос очистки / нормализации данных лежит на плечах DS, т. к. процесс исследования данных и поиска наилучшей математической модели может быть итеративным и уточняющим.
Это не говорит о том, что DS-специалисты не знают, как написать SQL или (H|C|*)QL запрос к данным или настроить Data Pipeline. Например, у нас DS-команда имеет в своем хозяйстве такие хранилища, как Cassandra / ClickHouse / PostgreSQL и моменты, связанные с данными, они делают своими силами.
Вопросы из угла ньюби: я, таки, правильно понял, что технически не очень большая разница какую дату обрабатывать? То есть, если есть продолжительный опыт работы с датой на уровне пользователя(операции с извлечением даты с использованием шаблона SQL, работа со специализированными интерфейсами БД, обработка даты вручную), то этот факт никаких преимуществ не даёт?
Добрый день, спасибо за вопрос)
Вообще, если подходить к категориям данных, то как раз есть разница в том, как работать с:
1) Big Data
2) ClickStream Data
3) Relational (Structured) Data
4) Unstructured / Semi-structured Data
5) Streaming Data (например, Internet of Things)
6) etc.
Знание SQL, понимание модели и структуры данных, по моему мнению, очень важно.
Data-инженер должен знать SQL (опять же, по моему мнению), так как в большинстве случаев именно с этим языком или его модификацией (не ANSI SQL я имею в виду) приходится сталкиваться в разных хранилищах и в создании ETL-процессов.
Кто такие Data-специалисты, чем они занимаются и как строится работа