Количество данных растет с каждым днем огромными рывками. Ежедневно в сеть заливается 2,3 триллиона гигабайт данных. К 2017 году ожидается, что количество данных вырастет на 800%. Чем больше данных, тем выше спрос на специалистов по их обработке.
Наука о данных настолько динамично развивается, что у каждого специалиста есть своя узкая зона ответственности. Мартин Джонс (Martin Jones), CEO и co-founder в Cambriano Energy предлагает выделить 14 основных ролей в работе с большими данными.
Это специалист, который работает с альтернативными источниками данных. Он формирует рынок и спрос, поддерживает рынок данных и постоянно пополняет его новыми значениями. Трейдеры ищут потенциально ценные данные, исследуют новые потоки и внедряют их на рынок.
Data Trader также ищет и исследует инструменты по обработке данных для своих клиентов. Он оценивает и прогнозирует тренды и проводит сделки по покупке данных, которые могут стать популярными в будущем.
Data Hound — это правая рука трейдера. После того, как трейдер сделал прогноз за работу берется Data Hound. Его задание — найти самый лучший, самый дешевый и надежный источник больших данных и вычислить контакты владельцев и поставщиков этих самых данных.
Только Data Hound может заразить всех энтузиазмом и вдохновить на работу с новыми данными. Он должен быть милым и терпеливым и владеть огромной силой убеждения. И только он может развеять все сомнения при работе с новым порталом данных.
Этот специалист конструирует и поддерживает всю инфраструктуру. Обеспечивает доставку данных, следит за тем, чтобы данные прошли все стадии: подготовку, очистку, анализ и представление.
Data Plumber должен удостовериться, что данные прошли все стадии обработки и дошли от поставщика к потребителю данных.
Его типичные зоны ответственности:
Data Butcher работает в тандеме с Data Shef. Он отбирает и готовит нужные части поставляемых данных, которые затем передает шефу для дата майнинга, прогнозного анализа и визуализации. Data Butcher отделяет интересные данные от ненужных. На выход попадают качественные, структурированные данные, которые затем анализируют. Можно сказать, что Data Butcher — это частный случай архитектора данных.
Без сомнений — это самая тяжелая и напряженная роль. Майнер всегда занят логическими и физическими исследованиями. Он выявляет и извлекает наиболее труднодоступные данные с наибольшим информационным значением. Скорее всего эти данные очень глубоко закопаны и его задача рискнуть и извлечь их на поверхность. Такие данные имеют очень высокий коэффициент полезности и будут еще долго использоваться. Вот почему работа дата майнера всегда будет востребованной в мире больших данных.
Data Canary контролирует качество данных, извлеченных дата майнером и помогает ему здраво их оценивать.
Когда данных больше, чем ресурс может обработать или когда в бизнес-процесс внедрены «токсичные» данные — тогда в свою роль вступает Data Pharmacist. Он должен обладать недюжинными математическими способностями, чтобы выявить проблемы и найти способ исправить их.
Точность и педантичность — его главные качества. Даже незначительные ошибки могут привести к неправильному использованию и трактовке данных. Data Pharmacists обычно работают в режиме многозадачности и должны быстро принимать решения.
Также он должен обладать великолепными комуникативными навыками, поскольку ежедневно взаимодействует с большим количеством раздраженных людей, консультирует их, отвечает на вопросы и успокаивает.
Data Pharmacist — это очень терпеливый, очень внимательный математик-экстраверт.
Также эту роль можно назвать: Data Janitor или Data Custodian. Data Caretaker ухаживает за дата-центрами, облаками и хранилищами данных. Он обеспечивает безопасность и чистоту хранилищ и данных.
Чтобы стать таким специалистом нужно иметь практические навыки в программировании на Python, data scrambling и DIY моделировании. В этой роли опыт работы всегда предпочтительнее высшего образования.
Основная задача Data Cleaner — выявлять и избавляться от токсичных и вирусных значений, которые могут исказить природу данных. Они заботятся о том, чтобы данные были чистыми, репрезентативными и пригодными для обработки.
Data Chef организовывает и координирует работу всех отделов. В идеале Шеф обладает знаниями в аналитике, имеет солидный опыт в статистике и твердое понимание архитектуры данных. А также в его резюме вписан широкий спектр других навыков, которые можно перечислять вечно.
Data Chef вместе с Data Trader и Data Butcher находит и отбирает первичные сырые данные. А на основании этих данных Data Chef составляет план их обработки и подбирает метод анализа, даже если данные динамически меняются во времени.
Data Taster — это человек, который пробует (тестирует) данные или информацию перед отправкой к потребителю. Всегда есть риск, что данные на выходе могут быть ошибочными или вводящими в заблуждение.
К примеру Data Taster проверяет и подтверждает, что данные актуальны и используемые модели действительны.
Он также может быть задействован для подготовки и представления данных. Такой специалист должен быть очень щепетилен, ведь неверные данные на выходе влияют на его репутацию.
По-простому Data Server презентует данные и принимает заказы. Также он может советовать своим клиентам оптимальный выбор данных, основанный на доступных данных и предпочтениях других клиентов.
Рассказчик, весельчак и философ. Главная задача этого человека — помочь клиенту правильно интерпретировать результаты, представить и объяснить все простым и доступным языком. Data Whisperer — главный эмпат в мире больших данных.
Обычно эту роль играет CFO или следующий за ним человек. Он должен быть в курсе всех номенклатурных значений и всех действий внутри организации. Он управляет всеми, справляется с различными бизнес-задачами, пробивает стены и добивается всего наилучшего для своей команды.
Наука о данных настолько динамично развивается, что у каждого специалиста есть своя узкая зона ответственности. Мартин Джонс (Martin Jones), CEO и co-founder в Cambriano Energy предлагает выделить 14 основных ролей в работе с большими данными.
Роли и обязанности
Data Trader
Это специалист, который работает с альтернативными источниками данных. Он формирует рынок и спрос, поддерживает рынок данных и постоянно пополняет его новыми значениями. Трейдеры ищут потенциально ценные данные, исследуют новые потоки и внедряют их на рынок.
Data Trader также ищет и исследует инструменты по обработке данных для своих клиентов. Он оценивает и прогнозирует тренды и проводит сделки по покупке данных, которые могут стать популярными в будущем.
Data Hound
Data Hound — это правая рука трейдера. После того, как трейдер сделал прогноз за работу берется Data Hound. Его задание — найти самый лучший, самый дешевый и надежный источник больших данных и вычислить контакты владельцев и поставщиков этих самых данных.
Только Data Hound может заразить всех энтузиазмом и вдохновить на работу с новыми данными. Он должен быть милым и терпеливым и владеть огромной силой убеждения. И только он может развеять все сомнения при работе с новым порталом данных.
Data Plumber
Этот специалист конструирует и поддерживает всю инфраструктуру. Обеспечивает доставку данных, следит за тем, чтобы данные прошли все стадии: подготовку, очистку, анализ и представление.
Data Plumber должен удостовериться, что данные прошли все стадии обработки и дошли от поставщика к потребителю данных.
Его типичные зоны ответственности:
- Знание спецификаций и возможностей информационных репозиториев и баз знаний.
- Обнаружение ошибок в работе этих систем и диагностика причин.
- Расположение и маркировка проводов, адаптеров, портов и каналов для получения и отправки данных. А также поддержка корректной работы дата центров.
Data Butcher
Data Butcher работает в тандеме с Data Shef. Он отбирает и готовит нужные части поставляемых данных, которые затем передает шефу для дата майнинга, прогнозного анализа и визуализации. Data Butcher отделяет интересные данные от ненужных. На выход попадают качественные, структурированные данные, которые затем анализируют. Можно сказать, что Data Butcher — это частный случай архитектора данных.
Data Miner
Без сомнений — это самая тяжелая и напряженная роль. Майнер всегда занят логическими и физическими исследованиями. Он выявляет и извлекает наиболее труднодоступные данные с наибольшим информационным значением. Скорее всего эти данные очень глубоко закопаны и его задача рискнуть и извлечь их на поверхность. Такие данные имеют очень высокий коэффициент полезности и будут еще долго использоваться. Вот почему работа дата майнера всегда будет востребованной в мире больших данных.
Data Canary
Data Canary контролирует качество данных, извлеченных дата майнером и помогает ему здраво их оценивать.
Data Pharmacist
Когда данных больше, чем ресурс может обработать или когда в бизнес-процесс внедрены «токсичные» данные — тогда в свою роль вступает Data Pharmacist. Он должен обладать недюжинными математическими способностями, чтобы выявить проблемы и найти способ исправить их.
Точность и педантичность — его главные качества. Даже незначительные ошибки могут привести к неправильному использованию и трактовке данных. Data Pharmacists обычно работают в режиме многозадачности и должны быстро принимать решения.
Также он должен обладать великолепными комуникативными навыками, поскольку ежедневно взаимодействует с большим количеством раздраженных людей, консультирует их, отвечает на вопросы и успокаивает.
Data Pharmacist — это очень терпеливый, очень внимательный математик-экстраверт.
Data Caretaker
Также эту роль можно назвать: Data Janitor или Data Custodian. Data Caretaker ухаживает за дата-центрами, облаками и хранилищами данных. Он обеспечивает безопасность и чистоту хранилищ и данных.
Чтобы стать таким специалистом нужно иметь практические навыки в программировании на Python, data scrambling и DIY моделировании. В этой роли опыт работы всегда предпочтительнее высшего образования.
Data Cleaner
Основная задача Data Cleaner — выявлять и избавляться от токсичных и вирусных значений, которые могут исказить природу данных. Они заботятся о том, чтобы данные были чистыми, репрезентативными и пригодными для обработки.
Data Chef
Data Chef организовывает и координирует работу всех отделов. В идеале Шеф обладает знаниями в аналитике, имеет солидный опыт в статистике и твердое понимание архитектуры данных. А также в его резюме вписан широкий спектр других навыков, которые можно перечислять вечно.
Data Chef вместе с Data Trader и Data Butcher находит и отбирает первичные сырые данные. А на основании этих данных Data Chef составляет план их обработки и подбирает метод анализа, даже если данные динамически меняются во времени.
Data Taster
Data Taster — это человек, который пробует (тестирует) данные или информацию перед отправкой к потребителю. Всегда есть риск, что данные на выходе могут быть ошибочными или вводящими в заблуждение.
К примеру Data Taster проверяет и подтверждает, что данные актуальны и используемые модели действительны.
Он также может быть задействован для подготовки и представления данных. Такой специалист должен быть очень щепетилен, ведь неверные данные на выходе влияют на его репутацию.
Data Server
По-простому Data Server презентует данные и принимает заказы. Также он может советовать своим клиентам оптимальный выбор данных, основанный на доступных данных и предпочтениях других клиентов.
Data Whisperer
Рассказчик, весельчак и философ. Главная задача этого человека — помочь клиенту правильно интерпретировать результаты, представить и объяснить все простым и доступным языком. Data Whisperer — главный эмпат в мире больших данных.
Data Czar
Обычно эту роль играет CFO или следующий за ним человек. Он должен быть в курсе всех номенклатурных значений и всех действий внутри организации. Он управляет всеми, справляется с различными бизнес-задачами, пробивает стены и добивается всего наилучшего для своей команды.
Конспект
- К 2017 году ожидается, что количество данных вырастет на 800%.
- Мартин Джонс (Martin Jones), CEO и co-founder в Cambriano Energy предлагает выделить 14 основных ролей в работе с большими данными.