Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

selesnow 24 фев 2020 в 07:54

Как работать с API Google Таблиц (Google Sheets API v4) на языке R с помощью нового пакета googlesheets4

11 мин

91K

Проектирование API * Data Engineering * Data Mining * Google API * R *

Туториал

Электронные таблицы по-прежнему остаются довольно популярным инструментом для работы с данными, а среди различных процессоров электронных таблиц наиболее популярными являются Google Таблицы. Во-первых, это бесплатный инструмент, во-вторых, функционал Google Таблиц достаточно широк, и они предоставляют вам возможность в онлайн режиме получить доступ к данным.

В этой статье мы разберёмся с тем, как на языке программирования R работать с Google Sheets API v4 с помощью пакета googlesheets4, а точнее:

Как пройти авторизацию для работы с Google Таблицами по API;
Рассмотрим основные функции пакета;
Разберём примеры кода для чтения данных, создания новых таблиц и выполнения других манипуляций с Google Таблицами по API.

Также эта статья поможет пользователям устаревшего пакета googlesheets мигрировать на новый googlesheets4.

Для тех кому лень читать статью, вот ссылка на 10 минутный, русскоязычный видео урок на YouTube. Остальным добро пожаловать под кат.

Читать дальше →

+4

Sistemaalex 21 фев 2020 в 15:43

Очистка данных, как игра «Камень, Ножницы, Бумага». Это игра с финишем или без? Часть 2. Практическая

5 мин

2.2K

Алгоритмы * Data Mining * Data Engineering * Big Data * Открытые данные *

В части первой описывалось, что данная публикация сделана на основе датасета результатов кадастровой оценки объектов недвижимости в Ханты-Мансийском АО.

Практическая часть представлена в виде шагов. Проводилась вся очистка в Excel, так как самый распространенный инструмент и описанные операции может повторить большинство специалистов знающих Excel. И достаточно неплохо подходит для работы в «рукопашную».

Нулевым этапом поставлю работы по запуску, сохранению файла, так как он размером 100 мб, то при количестве этих операций десятки и сотни на них уходит существенное время.
Открытие, в среднем, — 30 сек.
Сохранение – 22 сек.

Первый этап начинается с определения статистических показателей датасета.

Таблица 1. Статпоказатели датасета

Читать дальше →

+1

Sistemaalex 21 фев 2020 в 12:46

Очистка данных, как игра «Камень, Ножницы, Бумага». Это игра с финишем или без? Часть 1. Теоретическая

14 мин

2.1K

Big Data * Data Engineering * Data Mining * Алгоритмы * Открытые данные *

1. Исходные данные

Очистка данных – это одна из проблем стоящих перед задачами анализа данных. В этом материале отразил наработки, решения, которые возникли в результате решения практической задачи по анализу БД при формировании кадастровой стоимости. Исходники здесь «ОТЧЕТ № 01/ОКС-2019 об итогах государственной кадастровой оценки всех видов объектов недвижимости (за исключением земельных участков) на территории Ханты-Мансийского автономного округа — Югры».

Рассматривался файл «Сравнительный модель итог.ods» в «Приложение Б. Результаты определения КС 5. Сведения о способе определения кадастровой стоимости 5.1 Сравнительный подход».

Таблица 1. Статпоказатели датасета в файле «Сравнительный модель итог.ods»
Общее количество полей, шт. — 44
Общее количество записей, шт. — 365 490
Общее количество символов, шт. — 101 714 693
Среднее количество символов в записи, шт. — 278,297
Стандартное отклонение символов в записи, шт. — 15,510
Минимальное количество символов в записи, шт. — 198
Максимальное количество символов в записи, шт. — 363

2. Вводная часть. Базовые нормы

Занимаясь анализом указанной БД сформировалась задача по конкретизации требований к степени очистки, так как, это понятно всем, указанная БД формирует правовые и экономические последствия для пользователей. В процессе работы оказалось, что особо никаких требований к степени очистки больших данных не сформировано. Анализируя правовые нормы в этом вопросе пришел к выводу, что все они сформированы от возможностей. То есть появилась определенная задача, под задачу комплектуются источники информации, далее формируется датасет и, на основе создаваемого датасета, инструменты для решения задачи. Полученные решения являются реперными точками в выборе из альтернатив. Представил это на рисунке 1.

Читать дальше →

0

alez13 20 фев 2020 в 22:41

Физика текста. Часть 1. Символы

127 мин

4.5K

Алгоритмы * Data Mining * Data Engineering *

Символ — текстовый атом. Ни больше, ни меньше. В тексте каждый символ встречается определенное количество раз. Разобрав текст на символы, можно заметить некоторые особенности и закономерности. Давайте об этом и поговорим.

[Если без слов: исходники к статье]

Читать дальше →

+1

aniskovets 20 фев 2020 в 07:00

Sber.DS — платформа, которая позволяет создавать и внедрять модели даже без кода

5 мин

18K

Блог компании СберМашинное обучение * Искусственный интеллектData Engineering * Big Data *

Идеи ~~и встречи~~ о том, какие ещё процессы можно автоматизировать, возникают в бизнесе разного масштаба ежедневно. Но помимо того, что много времени может уходить на создание модели, нужно потратить его на её оценку и проверку того, что получаемый результат не является случайным. После внедрения любую модель необходимо поставить на мониторинг и периодически проверять.

И это всё этапы, которые нужно пройти в любой компании, не зависимо от её размера. Если мы говорим о масштабе и legacy Сбербанка, количество тонких настроек возрастает в разы. К концу 2019 года в Сбере использовалось уже более 2000 моделей. Недостаточно просто разработать модель, необходимо интегрироваться с промышленными системами, разработать витрины данных для построения моделей, обеспечить контроль её работы на кластере.

Наша команда разрабатывает платформу Sber.DS. Она позволяет решать задачи машинного обучения, ускоряет процесс проверки гипотез, в принципе упрощает процесс разработки и валидации моделей, а также контролирует результат работы модели в ПРОМ.

Чтобы не обмануть ваших ожиданий, хочу заранее сказать, что этот пост — вводный, и под катом для начала рассказано о том, что в принципе под капотом платформы Sber.DS. Историю о жизненном цикле модели от создания до внедрения мы расскажем отдельно.

Читать дальше →

+4

Ceridan 18 фев 2020 в 15:48

Data Engineer or die: история одного разработчика

5 мин

13K

Блог компании Dodo EngineeringПрограммирование * КонференцииКарьера в IT-индустрииData Engineering *

В начале декабря я ~~совершил роковую ошибку~~ принял поворотное решение в своей жизни разработчика и перешёл в команду Data Engineering (DE) внутри компании. В статье я поделюсь некоторыми наблюдениями, которые я сделал за два месяца работы в команде DE.

Читать дальше →

+14

Leo_Gan 17 фев 2020 в 02:40

Null проблема в Data Science и Machine Learning

3 мин

5.9K

Семантические сети * Машинное обучение * Алгоритмы * Natural Language Processing * Data Engineering *

Существующее определение Null в Data Science сильно ограничено. Приложив немножко усилий? мы значительно улучшим обработку данных, ранее попадаемых в Null.

Читать дальше →

+6

i_shutov 11 фев 2020 в 13:43

Воспроизводимые вычисления в R. Как разделить код и данные?

4 мин

2.2K

Data Engineering * Data Mining * R *

Достаточно часто возникает потребность проведения периодических вычислений и подготовки консолидированного отчета по самодостаточным данным. Т.е. по данным, которые хранятся в виде файлов. Это могут быть данные, набранные из открытых источников, различные документы и excel таблицы, выгрузки из корпоративных систем. Данные в сыром виде могут занимать как несколько мегабайт, так и несколько гигабайт. Данные могут быть обезличенными, либо содержать конфиденциальную информацию. В том случае, когда код вычислений помещается в репозиторий, а работа ведется более чем одним человеком более чем на одном компьютере, возникает проблема сохранения консистентности кода и данных. При этом необходимо еще обеспечить соблюдение разных прав доступа к коду и данным. Что делать?

Является продолжением предыдущих публикаций.

Читать дальше →

+5

kristinanikulina 10 фев 2020 в 14:06

«Да, они существуют!» Чем занимаются и сколько зарабатывают Data Science-специалисты в Казахстане?

3 мин

6.6K

Блог компании Kolesa GroupBig Data * Data Engineering * Карьера в IT-индустрии

Из песочницы

Дмитрий Казаков, Data Analytics Team Lead в Kolesa Group, делится инсайтами из первого казахстанского опроса специалистов по работе с данными.

На фото: Дмитрий Казаков

Помните популярную фразу о том, что Big Data больше всего напоминает подростковый секс – все о нем говорят, но никто не знает, есть ли он на самом деле. То же самое можно было сказать и о рынке специалистов по работе с данными (в Казахстане) – хайп есть, а кто за ним стоит (~~и есть ли там вообще хоть кто-то~~), не было до конца понятно – ни эйчарам, ни менеджерам, ни самим дата-сайентистам.

Мы провели исследование, в рамках которого опросили более 300 специалистов об их зарплатах, функциях, скиллах, инструментах и много еще о чем.

Спойлер: да, они точно существуют, но все не так однозначно.

Приятный инсайт. Во-первых, специалистов по работе с данными больше чем мы ожидали. Нам удалось опросить 300 человек, среди которых есть не только product-, marketing- и BI-аналитики, но и ML-, DWH-инженеры, что особенно порадовало. В самой большой группе оказались все те, кто называет себя дата-сайентистами – это 36% опрошенных. Покрывает это запрос рынка или нет, сказать сложно, потому что сам рынок только формируется.

Читать дальше →

+6

MaxRokatansky 7 фев 2020 в 15:41

Delta: Платформа синхронизации данных и обогащения

9 мин

3.3K

Блог компании OTUSData Engineering * Big Data *

Перевод

В преддверии запуска нового потока по курсу «Data Engineer» подготовили перевод интересного материала.

Обзор

Мы поговорим о достаточно популярном паттерне, с помощью которого приложения используют несколько хранилищ данных, где каждое хранилище используется под свои цели, например, для хранения канонической формы данных (MySQL и т.д.), обеспечения расширенных возможностей поиска (ElasticSearch и т.д.), кэширования (Memcached и т.д.) и других. Обычно при использовании нескольких хранилищ данных одно из них работает как основное хранилище, а другие как производные хранилища. Единственная проблема заключается в том, как синхронизировать эти хранилища данных.

Мы рассмотрели ряд различных паттернов, которые пытались решить проблему синхронизации нескольких хранилищ, таких как двойная запись, распределенные транзакции и т.д. Однако эти подходы имеют существенные ограничения в плане использования в реальной жизни, надежности и технического обслуживания. Помимо синхронизации данных, некоторым приложениям также необходимо обогащать данные, вызывая внешние сервисы.

Читать дальше →

+5

eduard93 5 фев 2020 в 07:49

Python Gateway в InterSystems IRIS

18 мин

2.3K

Блог компании InterSystemsБазы данных * Python * Data Engineering * Big Data *

Туториал

Перевод

Эта статья посвящена Python Gateway — комьюнити-проекту с открытым исходным кодом для платформы данных InterSystems IRIS. Этот проект позволяет оркестрировать любые алгоритмы машинного обучения, созданные на языке Python (основная среда для многих Data Scientists), использовать многочисленные готовые библиотеки для быстрого создания адаптивных, роботизированных аналитических AI/ML-решений на платформе InterSystems IRIS. В этой статье я покажу как InterSystems IRIS может оркестровать процессы на языке Python, эффективно осуществлять двустороннюю передачу данных и создавать интеллектуальные бизнес-процессы.

Читать дальше →

+5

mongohtotech 29 янв 2020 в 14:54

Impala vs Hive vs Spark SQL: Выбор правильного SQL движка для правильной работы в Cloudera Data Warehouse

7 мин

19K

SQL * Hadoop * Data Engineering * Big Data * Apache *

Перевод

Нам всегда не хватает данных. И мы не просто хотим больше данных… мы хотим новые типы данных, которые позволят нам лучше понимать свою продукцию, клиентов и рынки. Мы все-время находимся в поиске новых данных, данных всех форм и размеров, структурированных и не очень. Мы хотим распахнуть свои двери для нового поколения бизнес-специалистов и технических специалистов, которые будут увлеченно вместе с нами открывать новые базы данных и технологии, которые впоследствии изменят характер того, как мы взаимодействуем с данными и какое влияние они оказывают на нашу жизнь.

Читать дальше →

+4

NapoleonIT 28 янв 2020 в 09:18

Каково это было — изучать Data Science в 2019 году

14 мин

19K

Data Engineering *

Перевод

Эта статья — перевод статьи Томаса Нильда How It Feels to Learn Data Science in 2019

Видение (случайного) леса через деревья (решений)

Thomas Nield Follow Feb 4
Время чтения: 16 минут

+4

PastorGL 25 янв 2020 в 20:11

[кейс Locomizer] Какие знания можно на самом деле извлечь из анонимизированного датасета с координатами пользователей

20 мин

9K

Информационная безопасность * Спутниковые системы навигации * Геоинформационные сервисы * Data Engineering * Big Data *

Данная статья является частью серии «Кейс Locomizer», см. также

Как за два с половиной года ускорить расчёт тепловой карты в 20 000 раз

Открываем One Ring — инструментарий для гибкой конфигурации сложных процессов обработки данных на Spark в облаке

Здравствуйте.

КДПВ: Тепловая карта, построенная алгоритмами Locomizer для KFC

Недавно издание The New York Times опубликовало претендующую на сенсационность статью о том, как отследить пользователей по коммерчески доступным анонимизированным датасетам с координатами их перемещений, и здесь, на Хабре её вольный перевод с дополнениями от неизвестного корпоративного копирайтера собрал большое количество комментариев разной степени обеспокоенности.

Так получилось, что я последние два с половиной года являюсь техническим лидом на геоинформационном проекте, который занимается задачей непосредственного извлечения знаний именно из таких коммерческих датасетов. Но мои комментарии с просьбой отставить панику собрали большое количество минусов. Что ж. В поговорке про отсутствие паранойи и не факт, что за вами не следят, есть некая доля истины.

Но есть и доля истины по ту сторону чёрного зеркала, возможно, куда большая. Или интересная.

Узнать всю правду о пользаках и поях

+27

sergbe 22 янв 2020 в 07:09

Год без Splunk — как американская компания изменила рынок аналитики машинных данных в РФ и кого оставила после себя

9 мин

12K

IT-компанииData Mining * Data Engineering * Big Data * Информационная безопасность *

Почти год назад в России не стало Splunk. Эта статья во многом обзорная. Она и про машинные данные, и о рыночной нише, и о примере импортозамещения, который случился без громких лозунгов — просто потому, что этого потребовал рынок. Эксклюзивно — версия автора о причине ухода Splunk из России, но возможно, что все было совсем не так.

Много текста, 15 тыс. знаков

Время чтения около
10 мин.

Читать дальше →

-3

InlyIT 16 янв 2020 в 08:59

Самые востребованные навыки в профессии data engineer

6 мин

8.8K

Блог компании InlyITКарьера в IT-индустрииData Engineering *

Перевод

Согласно статистике 2019 года, data engineer на данный момент является профессией, спрос на которую растет быстрее всех прочих. Data engineer играет в организации критически важную роль – создает и поддерживает в рабочем состоянии пайплайны и базы данных, которые используются для обработки, трансформации и хранения данных. Какие навыки нужны представителям этой профессии в первую очередь? Отличается ли список от того, что требуется от data scientists? Обо всем этом вы узнаете из моей статьи.

Я проанализировал вакансии на позицию data engineer в том виде, в котором они пребывают в январе 2020 года, чтобы понять, какие умения в области технологий пользуются наибольшей популярностью. Затем я сравнил полученные результаты со статистикой по вакансиям на позиции data scientist – при этом вскрылись некоторые занятные различия.

Обойдемся без долгих предисловий – вот топ-десять технологий, которые упоминаются в текстах вакансий чаще всего:

Упоминания технологий в вакансиях на позицию data engineer в 2020 году

Давайте разбираться.

Читать дальше →

+3

a-pichugin 27 дек 2019 в 08:35

Как сделать свой автоскейлер для кластера

7 мин

1.9K

Блог компании New Professions LabОблачные сервисы * DevOps * Data Engineering * Big Data *

Привет! Мы обучаем людей работе с большими данными. Невозможно себе представить образовательную программу по большим данным без своего кластера, на котором все участники совместно работают. По этой причине на нашей программе он всегда есть :) Мы занимаемся его настройкой, тюнингом и администрированием, а ребята непосредственно запускают там MapReduce-джобы и пользуются Spark'ом.

В этом посте мы расскажем, как мы решали проблему неравномерной загрузки кластера, написав свой автоскейлер, используя облако Mail.ru Cloud Solutions.

Читать дальше →

+1

mekhan 23 дек 2019 в 08:26

Разбор настройки ELK 7.5 для анализа логов Mikrotik

13 мин

36K

Data Engineering * Визуализация данных * Сетевые технологии * Системное администрирование *

Туториал

Из песочницы

Давно была мысль посмотреть, что можно делать с ELK и подручными источниками логов и статистики. На страницах хабра планирую показать практический пример, как с помощью домашнего мини-сервера можно сделать, например, honeypot с системой анализа логов на основе ELK стека. В этой статье расскажу про простейший пример анализа логов firewall с помощью стека ELK. В дальнейшем хотелось бы описать настройку окружения для анализа Netflow трафика и pcap дампов инструментом Zeek.

Если у вас есть публичный IP-адрес и более-менее умное устройство в качестве шлюза/файрволла, вы можете организовать пассивный honeypot, настроив логирование входящих запросов на «вкусные» TCP и UDP порты. Под катом пример настройки маршрутизатора Mikrotik, но если у вас под рукой маршрутизатор другого вендора (или какая-то ещё security система), нужно просто немного разобраться с форматами данных и вендоро-специфичными настройками, и получится тот же результат.

Disclaimer

Статья не претендует на оригинальность, здесь не рассматриваются вопросы отказоустойчивости сервисов, безопасности, лучших практик и т.д. Нужно рассматривать этот материал как академический, он подходит для ознакомления с базовым функционалом стека ELK и механизмом анализа логов сетевого устройства. Однако и не новичку может быть что-то интересно.

Проект запускается из docker-compose файла, соответственно развернуть своё подобное окружение очень просто, даже если у вас под рукой маршрутизатор другого вендора, нужно просто немного разобраться с форматами данных и вендоро-специфичными настройками. В остальном я постарался максимально подробно описать все нюансы, связанные с конфигурированием Logstash pipelines и Elasticsearch mappings в актуальной версии ELK. Все компоненты этой системы хостятся на github, в том числе конфиги сервисов. В конце статьи я сделаю раздел Troubleshooting, в котором будут описаны шаги по диагностике популярных проблем новичков в этом деле.

Читать дальше →

+9

Alexarus 12 дек 2019 в 14:22

Модель эффективности медиа рекламы для интернет-магазинов

7 мин

3.9K

Блог компании OKKAM GroupData Engineering * Python * Математика * Медийная реклама *

Мы в агентстве People & Screens много лет работаем с онлайн-бизнесами в качестве рекламного партнера. Когда у нас появилась идея оценить вклад медийной рекламы в продажи интернет-магазинов, она казалась нереализуемой и даже безумной. Как только мы поняли, что все элементы мозаики можно найти и сложить вместе, то решили попробовать. Первые гипотезы начали подтверждаться, вместе с компанией Data Insight мы углубились в эту историю и за несколько месяцев кропотливой работы создали такое исследование, которое, по сути, является прикладным рабочим инструментом – модель оценки эффективности рекламы в 12 товарных категориях e-commerce. В этой статье мы расскажем о результатах и используемых методах анализа.

Читать дальше →

+2

elena_newprolab 26 ноя 2019 в 08:17

Data Engineer – самая сексуальная профессия XXI века

7 мин

9.5K

Блог компании New Professions LabКарьера в IT-индустрииData Mining * Data Engineering * Big Data *

Recovery Mode

Недавно в разговоре с HR’ами одной крупной компании прозвучало «Каждый data engineer, приходящий к нам на интервью, мечтает стать data scientist’ом». Меня это тогда сильно удивило и стало очень обидно за дата инженера, честно говоря.

Мы здесь (и не только) уже публиковали несколько материалов про data engineer’ов и их ценность для бизнеса – например, интервью с Николаем Марковым или «4 причины стать data engineer», но это было давно. Время идет, материал накапливается, мир развивается, поэтому есть что рассказать.

Возможно, надо сначала коротко напомнить, из чего складывается круг задач дата инженера (плюс-минус, конечно, т.к. каждая компания может добавлять что-то свое\ что-то из перечисленного может выполняться другими сотрудниками):

Читать дальше →

+1

1 2 ...

76