Pull to refresh
1
0
Максим Валериевич Федоров @mfreal

Developer DWH/ETL

Send message

ETL процесс получения данных из электронной почты в Apache Airflow

Reading time8 min
Views8.3K


Как бы сильно не развивались технологии, за развитием всегда тянется вереница устаревших подходов. Это может быть обусловлено плавным переходом, человеческим фактором, технологическими необходимостями или чем-то другим. В области обработки данных наиболее показательными в этой части являются источники данных. Как бы мы не мечтали от этого избавиться, но пока часть данных пересылается в мессенджерах и электронных письмах, не говоря и про более архаичные форматы. Приглашаю под кат разобрать один из вариантов для Apache Airflow, иллюстрирующий, как можно забирать данные из электронных писем.

Читать дальше →
Total votes 6: ↑5 and ↓1+8
Comments3

Извлечение максимальной пользы из Git

Reading time7 min
Views14K
image

Сегодня ни один проект не обходится без контроля версий с помощью Git под колпаком. Хорошее знание Git поможет вам улучшить свои навыки разработчика, ускорить рабочий процесс и действительно улучшить качество вашей кодовой базы. Однако для этого необходимо немного выйти за пределы привычной нам зоны комфорта. Оказывается, в Git есть нечто большее, чем просто commit, push и pull.

Некоторые разработчики остаются верны основным принципам Git, и зачастую это абсолютно оправданно. В нашем фронтенд-мире так много сложных вещей, которые нужно понять и улучшить в них свои навыки, что, честно говоря, Git часто не является приоритетом. Как побочный эффект, многие ценные приёмы, которые могут улучшить рабочий процесс разработчика, остаются незамеченными и редко раскрываются.

В этой статье мы рассмотрим четыре продвинутых инструмента Git и, надеюсь, пробудим в вас желание узнать о Git ещё больше.
Читать дальше →
Total votes 14: ↑10 and ↓4+9
Comments12

Карманный справочник: сравнение синтаксиса MS SQL Server и PostgreSQL

Reading time17 min
Views89K

Приветствую, уважаемые хаброжители!

Так как занимаюсь переводом кода с MS SQL в Postgre SQL с начала 2019 года, то решил продолжить сравнение этих двух СУБД.

В прошлой публикации мы рассматривали отличия в быстродействии MS SQL и PostgreSQL для 1C.

Сегодня давайте сравним основные конструкции синтаксиса MS SQL и PostgreSQL для правильного чтения кода, а также для того, чтобы быстро изменить код из MS SQL для PostgreSQL или наоборот.

Начнем рассмотрение с сопоставления типов.

Читать далее
Total votes 78: ↑78 and ↓0+78
Comments78

PGHero — дашборд для мониторинга БД PostgreSQL

Reading time5 min
Views12K

Всем привет. Сегодня я бы хотел поделиться рецептом установки утилиты PGHero с подключением нескольких баз данных. PGHero — это простенькая утилита, написанная на Ruby, с минималистичным дашбордом для мониторинга производительности БД PostgreSQL.

Что может показать нам PGHero:

статистику по запросам: количество вызовов, среднее и суммарное время выполнения (с возможностью хранения истории);

активные в данный момент запросы;

информацию о таблицах: занимаемое на диске место, даты последних запусков VACUUM и ANALYSE;

информацию об индексах: занимаемое на диске место, наличие дублируемых/неиспользуемых индексов. Также может порекомендовать добавить индекс при наличии сложных запросов с Seq Scan;

статистику по открытым подключениям к БД;

вывод основных настроек БД, влияющих на производительность (shared_buffers, work_mem, maintenance_work_mem и т.д.)

Читать далее
Total votes 35: ↑35 and ↓0+35
Comments9

Microsoft SQL Server 2019 и флэш-массивы Dell EMC Unity XT

Reading time27 min
Views6.5K
Сегодня мы познакомим вас с особенностями использования SQL Server 2019 с системой хранения Unity XT, а также дадим рекомендации по виртуализации SQL Server с помощью технологии VMware, по настройке и управлению базовыми компонентами инфраструктуры Dell EMC.


В 2017 году Dell EMC и VMware опубликовали результаты опроса о тенденциях и эволюции SQL Server — «Трансформация SQL Server: на пути к гибкости и отказоустойчивости» (SQL Server Transformation: Toward Agility and Resiliency), в котором использовался опыт сообщества членов Профессиональной ассоциации SQL Server (Professional Association of SQL Server, PASS). Результаты показывают, что среды баз данных SQL Server растут как по размеру, так и по сложности, что обусловлено увеличивающимися объемами данных и новыми бизнес-требованиями. Базы данных SQL Server в настоящее время развернуты во многих компаниях, обеспечивая работу критически важных приложений, и нередко служат основой цифровой трансформации. 

За время, прошедшего с момента проведения данного опроса, Microsoft выпустила следующее поколение СУБД — SQL Server 2019. В дополнение улучшению основных функций реляционного движка и хранения данных появились новые сервисы и функции. Например, SQL Server 2019 включает поддержку рабочих нагрузок больших данных с использованием Apache Spark и распределенной файловой системы Hadoop (Hadoop Distributed File System, HDFS).
Читать дальше →
Total votes 11: ↑9 and ↓2+15
Comments3

Секционирование таблиц и время компиляции плана запроса в SQL Server

Reading time5 min
Views5.4K

Меня иногда спрашивают: «Если в таблице много индексов и SQL Server вынужден анализировать больше вариантов, то не замедлит ли это построение плана запроса?»

Что же, вполне может быть, но что действительно сбивает с толку оптимизатор, так это секционирование. Даже простейшие запросы к секционированным таблицам могут привести к значительному увеличению использования процессорного времени. Хуже того, как однажды сказал знаменитый философ: «Больше секционирования — больше проблем».

Итак, давайте возьмем какую-нибудь из баз данных Stack Overflow и создадим функцию секционирования, которая будет разбивать наши данные по дням:

Читать далее
Total votes 9: ↑8 and ↓1+9
Comments0

Information

Rating
Does not participate
Location
Казань, Татарстан, Россия
Date of birth
Registered
Activity

Specialization

Data Engineer
Git
Python
Docker
PostgreSQL
MSSQL