Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

devozerov 4 окт 2021 в 05:30

Rule-based оптимизация SQL-запросов

7 мин

6.1K

Блог компании CedrusDataData Engineering * Big Data * NoSQL * SQL *

Перевод

Всем привет! В компании Querify Labs мы создаем компоненты СУБД, включая оптимизаторы SQL-запросов.

Любой SQL-запрос может быть выполнен множеством способов. Задача оптимизатора - найти эффективный план выполнения запроса.

В этой статье мы обсудим rule-based оптимизацию - популярную архитектуру оптимизатора, в котором планирование запроса разбито на последовательность атомарных трансформации. Мы рассмотрим особенности реализации данного подхода в Apache Calcite, Presto, и CockroachDB.

Читать далее

+3

PythonAnalyst 3 окт 2021 в 12:01

Влияние загрязнения воздуха на тяжесть течения Covid- 19

6 мин

4.4K

Python * Data Mining * Машинное обучение * ЭкологияData Engineering *

Продолжаю цикл статей основанных на анализе базы московских больных. В настоящей второй части я буду анализировать влияние загрязнение воздуха на тяжесть течения заболевания. В этом нам поможет сайт с открытыми данными г. Москвы, на котором представлена информация метеорологических станций.

Читать далее

+7

nathandope 1 окт 2021 в 11:15

Lightbend Cloudflow. Разработка конвейеров потоковой обработки данных

10 мин

2.1K

Блог компании NeoflexData Engineering * Big Data * Scala *

Lightbend Cloudflow - open-source фреймворк для построения конвейеров потоковой обработки данных, объединивший в себе тройку популярных сред: Akka, Flink и Spark.

Под катом: demo-проект и обзор фреймворка с точки зрения общей концепции и разработки.

Читать далее

+4

Tyiler 1 окт 2021 в 03:31

Airflow, подвинься

6 мин

4.4K

Big Data * Data Engineering * DevOps * Open source *

Всем привет.
Написал многопользовательский менеджер задач с веб интерфейсом. Кому интересно, прошу.

Читать дальше →

+5

30 сентября 2021

Так вот кто все эти люди: DS-анализ результатов опроса о Data Science

Недавно мы со Сбером проводили опрос о том, кто должен заниматься работой с данными и как это организовано в ваших компаниях. Чтобы не прослыть сапожниками без сапог, для анализа результатов мы использовали DS-подход. Хотите узнать, что у нас получилось? Тогда милости просим под кат.

Читать далее

+21

dlampsi 30 сен 2021 в 13:10

Как мы развернули коммунальный Apache Airflow для 30+ команд и сотни разработчиков

9 мин

11K

Блог компании Лемана ТехDevOps * Big Data * Apache * Data Engineering *

О том как мы внедряли Apache Airflow для использования различными командами в нашей компании, какие задачи мы хотели решить этим сервисом. Внутри описание архитектуры деплоя и наш Infrastructure as Code (IaC).

Читать далее

+6

Cloudera 29 сен 2021 в 14:47

Референсная архитектура Cloudera CDP Private Cloud Base

8 мин

1.5K

Блог компании ClouderaBig Data * Hadoop * Data Engineering *

Выпуск версии Cloudera Data Platform (CDP) Private Cloud Base означает появление гибридной облачной архитектуры следующего поколения. Ниже представлен обзор методов проектирования и развертывания кластеров («лучшие практики»), включая конфигурацию оборудования и операционной системы, а также руководство по организации сети и построению системы безопасности, интеграции с существующей корпоративной инфраструктурой.

Читать далее

+8

MrNightSky 29 сен 2021 в 09:00

Дообучаем готовую нейросеть для классификации данных

12 мин

10K

Блог компании FUNCORPData Engineering * Машинное обучение * Обработка изображений * Python *

В прошлой статье мы научились классифицировать данные без разметки с помощью понижения размерности и методов кластеризации. По итогам получили первичную разметку данных и узнали, что это картинки. С такими начальными условиями можно придумать что-то более серьёзное, например, дообучить существующую нейросеть на наши классы, даже если до этого она их никогда не видела. В iFunny на первом уровне модерации мы выделяем три основных класса:

• approved — картинки идут в раздел collective (развлекательный контент и мемы);
• not suitable — не попадают в общую ленту, но остаются в ленте пользователя (селфи, пейзажи и другие);
• risked — получают бан и удаляются из приложения (расизм, порнография, расчленёнка и всё, что попадает под определение «противоправный контент»).

Сегодня расскажу на наглядных примерах, как мы перестраивали модель под наши классы, обучали её и выделяли паттерны распознавания картинок. Технические подробности — под катом.

Читать далее

+47

olegchir 28 сен 2021 в 06:17

Плагин Big Data Tools теперь поддерживает IntelliJ IDEA Ultimate, PyCharm Professional, DataGrip 2021.3 EAP и DataSpell

2 мин

2.7K

Блог компании JetBrainsПрограммирование * Big Data * Data Engineering *

Недавно мы выпустили новую сборку плагина Big Data Tools, совместимую со свежими (2021.3) версиями IntelliJ IDEA Ultimate и PyCharm Professional. Когда в октябре выйдет DataGrip 2021.3, эта сборка тоже будет с ним работать. Более того, теперь мы умеем запускаться в DataSpell — новой IDE для Data Science.

Если вы используете старые версии Big Data Tools, сейчас самое время обновиться и попробовать новую версию плагина вместе со свежей версией IDE!

В этом году мы много чего улучшили и добавили совершенно новые фичи (например, запуск Spark Submit в виде Run Configuration). Вот небольшой список изменений за этот год. Этот список — лишь небольшая капля в море того, что изменилось с прошлого года.

Читать далее

+8

krisstinkou 24 сен 2021 в 16:45

Работаем с текстами на Python: кодировки, нормализация, чистка

9 мин

102K

Python * Data Engineering *

Из песочницы

Об обработке текстов на естественном языке сейчас знают все. Все хоть раз пробовали задавать вопрос Сири или Алисе, пользовались Grammarly (это не реклама), пробовали генераторы стихов, текстов... или просто вводили запрос в Google. Да, вот так просто. На самом деле Google понимаетот него хотите, благодаря ш, что вы тукам, которые умеют обрабатывать и анализировать естественную речь в вашем запросе.

При анализе текста мы можем столкнуться с ситуациями, когда текст содержит специфические символы, которые необходимо проанализировать наравне с "простым текстом" или формулы, например. В таком случае обработка текста может усложниться.

Вы можете заметить, что если ввести в поисковую строку запрос с символами с ударением (так называемый модифицирующий акут), к примеру "ó", поисковая система может показать результаты, содержащие слова из вашего запроса, символы с ударением уже выглядят как обычные символы.

Так как всё-таки происходит обработка таких запросов?

Читать далее

+22

k_tultseva 24 сен 2021 в 16:04

Обзор программы SmartData 2021

19 мин

2K

Блог компании JUG Ru GroupКонференцииData Engineering *

Совсем скоро в онлайне стартует SmartData 2021. По названию конференции уже понятно, что она посвящена работе с данными, но не все так просто. Это достаточно обширная тема, в которой можно заниматься совершенно разными вещами. SmartData затрагивает конкретную часть домена «Работа с данными» — дата-инжиниринг. Тут можно услышать про СУБД, архитектуру DWH, MLOps и многое другое, с чем сталкиваются дата-инженеры.

Среди наших спикеров есть и люди из академической среды (Энди Павло), те, кто имеет дело с огромным количеством данным (Теджас Чопра из Netflix), топовый контрибьютор популярнейшего оркестратора Airflow (Эш Берлин-Тейлор) и многие другие профессиональные дата-инженеры и архитекторы.

Темы докладов будут самые разнообразные: как заниматься йогой со Spark, какие бывают инженеры данных, как масштабировать аналитику, совладать с ClickHouse без ущерба для здоровья, оптимизировать повседневные задачи с помощью ML и так далее.

Но не докладами едиными: будет ещё и два воркшопа, где зрители не внимают теоретическим знаниям со слайдов, а перенимают у спикера практические навыки работы с чем-то. А в финале конференции будет круглый стол об альтернативах Hadoop.

Под катом — детальный обзор программы, для вашего удобства поделённый на тематические блоки (инструменты, процессы, архитектура и т.д.).

Смотреть программу

+7

avl33 21 сен 2021 в 18:17

Digital Material Passport. Ч.2 – Цифровой парадокс и рынок DMP

14 мин

1.1K

CAD/CAM * Исследования и прогнозы в IT * Управление продуктом * СуперкомпьютерыData Engineering *

Увеличение потребности в новых данных напрямую связано с попыткой приблизить цифровой двойник к физическому объекту. Таким образом, сам процесс совершенствования цифровых двойников провоцирует прогрессивный рост стоимости такого совершенствования.

Этот цифровой парадокс заставляет усомниться в возможностях массового перехода на качественные Digital Twin и тем более использование DMP в России при «хаотичной» организации работы, даже в условиях распространения цифровизации.

В то же время потребность в данных порождает новый цифровой товар - на этот товар претендует не сам DMP, а цифровые данные производителей о физическом продукте.

Читать далее

0

X5Tech 21 сен 2021 в 15:34

Построение архитектуры проекта при работе с PySpark

19 мин

9K

Блог компании X5 TechData Engineering * Big Data * Анализ и проектирование систем * Python *

В настоящее время уже сложно найти крупную компанию, которая не использовала бы возможности накопления и использования больших данных. Меня зовут Никита Сурков и я работаю в проекте ценообразования "Пятёрочки" X5 Group. Проект является ярким примером использования больших данных, так как Пятёрочка -- это 18000 магазинов по всей стране. Чтобы построить систему ценообразования в такой сети требуется обработка миллиардов строк информации из чеков, данных по остаткам, себестоимостей и многих других данных. Для всего этого преимущественно используется PySpark, как один из популярных инструментов для работы с расперделёнными системами. В данной статье будет представлен один из методов написания кода на PySpark таким образом, чтобы он был более читаем, легко тестируем и поддерживаем. Сразу оговорюсь, что не представляю здесь единственное правильное решение, но оно доказало свою жизнеспособность на примере того проекта, в котором я работал.

Читать далее

+1

vandriichuk 21 сен 2021 в 12:35

Как сделать платформу по анализу НЕ больших данных — готовая к работе сборка на базе AirFlow + PostgreSQL + MetaBase

3 мин

7.6K

Data Engineering *

Туториал

Как-то мне попалась на глаза презентация Даниила Охлопкова, в которой он рассказывает об удобных инструментах для создания небольшой аналитической платформы по хранению данных для стартапа. Посмотрел и посморел, но информация отложилась. И вот недавно мне пришлось решать подобную задачу. Поэтому я сразу вспомнил данную презентацию и воспользовался готовыми идеями. Это сэкономило мне несколько дней, а может и неделю на исследования и выбор инструментов. Особенно MetaBase - я об этом слышал разве что мельком. Но добрых два рабочих дня (примерно 16-20 часов) ушло на то, чтобы все это запустить так, как я хотел бы. И если вы хотите сэкономить для себя эти два дня - тогда велком под кат.

Читать далее

+4

Oleh_Lastovetskyi 21 сен 2021 в 08:15

Автоматическое заполнение файлами документов Word и подписей к ним с помощью Python и библиотеки docx

4 мин

15K

Data Engineering * Python *

Из песочницы

Рассмотрим пример простой программы на Python с помощью библотекы docx для автоматизации рабочего процесса, а именно автоматической вставки файлов (в данном случае изображений) и их подпись в документах Word (docx).

Данная статья будет интересна для начинающих изучающих Python, а также полезна для тех кто работает с большими объемами изображений, графиков, осциллограмм и тому подобное. В ней мы рассмотрим простой и удобный способ вставки изображений в Word и их подписью с помощью Python.

Редактирования кода займет 5 минут, выполнение программы займет 5 секунд. Вы сэкономите 300 минут работы.

Я опишу свой максимально дубовый и непрофессиональный но простой код который Вы сможете повторить в своих проектах. (Полный код в низу статьи).

Читать далее

+7

kmoseenk 20 сен 2021 в 16:55

Почему лучше НЕ использовать CSV с Apache Spark

4 мин

3K

Блог компании OTUSData Engineering *

Перевод

Недавно я в очередной раз услышал:

“CSV — это популярный формат хранения данных, имеющий встроенную поддержку в Apache Spark…”

Ну, на счет “популярный” — согласен, “имеющий встроенную поддержку” — согласен, но на счет “хранения данных” — категорически не согласен. Подобные фразы могут не только сбить с толку окружающих, но и привести к значительным непродуктивным затратам времени (и памяти данных). Давайте разберемся.

Читать далее

+5

krasnov_v_i 20 сен 2021 в 11:00

Python микросервисы с Kafka без боли

10 мин

35K

Data Engineering * Проектирование API * Python *

Из песочницы

В этой статье я бы хотел поделиться способом написания асинхронных микросервисов на Python, в основе которых библиотека Faust. А в качестве брокера сообщений Kafka. Ну и немного мониторинга с Prometheus и Grafana.

Читать далее

+23

Mojsha 19 сен 2021 в 18:05

Как Airbnb ошиблась и зачем строила Wall

8 мин

3.4K

Блог компании SkillfactoryPython * IT-инфраструктура * Big Data * Data Engineering *

Перевод

Чтобы ускорить принятие решений и лучше поддерживать мониторинг метрик бизнеса, в Airbnb внедрили сертификацию всех метрик и наборов данных, написали рекомендации о проверках качества данных, но не обеспечили их выполнение. О возникшей из-за этого проблеме и её решении рассказываем к старту флагманского курса по Data Science.

Читать далее

+3

valexv 17 сен 2021 в 22:29

Apache Spark: оптимизация производительности на реальных примерах

13 мин

31K

Блог компании NeoflexApache * Big Data * Data Engineering * Хранение данных *

Из песочницы

Apache Spark – фреймворк для обработки больших данных, который давно уже стал одним из самых популярных и часто встречаемых во всевозможных проектах, связанных с Big Data. Он удачно сочетает в себе скорость работы и простоту выражения своих мыслей разработчиком.

Разработчик работает с данными на достаточно высоком уровне и, кажется, что нет ничего сложного в том, чтобы, например, соединить два набора данных, написав всего одну строку кода. Но только задумайтесь: что происходит в кластере при соединении двух наборов данных, которые могут и не находится целиком на каком-либо из узлов кластера? Обычно Spark со всем справляется быстро, но иногда, а особенно, если данных действительно много, необходимо все-таки понимать – что происходит уровнем ниже и использовать это знание, чтобы помочь Spark работать в полную силу.

Читать далее

+18

avl33 15 сен 2021 в 13:09

Digital Material Passport. Ч.1 — Скрытые грани «цифровых двойников»

10 мин

2.2K

CAD/CAM * Исследования и прогнозы в IT * Управление продуктом * СуперкомпьютерыData Engineering *

Рано или поздно, непременно возникнет вопрос – а насколько можно доверять цифровым «двойникам» и насколько они на самом деле являются двойниками физическим образцам? На 60%? на 80%? Вчера было на 80%, а сегодня другой поставщик и возможно уже только 60%?

Достаточно ли Вам будет такого отчета в документах о гарантии тормозной системы автомобиля, как «виртуальные испытания тормозной системы автомобиля подтвердили длину тормозного пути на сухом асфальте с разогретыми шинами ~40 метров со скорости 100 км/час при отклонениях ± 30-40% на покупаемом Вами физическом экземпляре автомобиля.»

Читать далее

+5

1 2 ...

57

58 59 ...