KDim4eg91 Oct 8 2024 at 12:15

ETL-проект для начинающих Data Engineers: От почтового сервера до Greenplum

Medium

7 min

13K

SQL * Python * Data Engineering *

From sandbox

Comments 11

Kreyv Oct 8 2024 at 19:55

А какой смысл здесь в использовании огромной тяжёлой библиотеки ради 1 простого действия? Просто ради import pandas as pd?

AButakov Oct 8 2024 at 20:35

Вероятнее всего, автор, как и я, только изучает эту область и других вариантов может не знать, ну или так ему просто удобнее. Я бы тоже, вероятнее всего, делал бы через pandas, а вот БД сделал бы локальную в postgresql. Но возможно это потому что ч не знаю Greenplum, и знаю немного потсгрю, да и с интернетом у меня большой вопрос сейчас. Как бы вы реализовали transform без pandas? Чем можно заменить?

Автору спасибо за материал.

Kreyv Oct 8 2024 at 21:05

Если брать самый простой уровень для тех кто только учится:

1 - не вижу смысла в сохранении в txt, это просто лишний этап если эти данные больше нигде не используются

2 - вместо трансформа с пандас простой csv который встроен в питон по умолчанию

3 - а вообще трансформ тут по сути лишний если не хранить сам csv а только данные из него, можно вообще напрямую в бд сохранять

4 - для парсинга хтмл вообще есть свои инструменты например soup.

KDim4eg91 Oct 9 2024 at 06:12

Вы правы.

Сохранять локально и читать файл, особенно в txt не нужно. Это делалось скорее для отладки и просмотра содержимого. Если далее идут трансформации, можно не сохранять, а преобразовывать или загружать в бд.
Не все знакомы с beautiful soap, как и я на момент работы над пет проектом. Поэтому решил идти известным мне путей.

Благодарю за комментарии, это очень ценно. Безусловно, улучшать и докручивать есть куда. 👍🏻

JuliaKorn Oct 8 2024 at 20:48

Полезно для новичков. Спасибо автору)

Spellbuilder Oct 9 2024 at 05:33

Даёшь больше рекламы Вкусвилл

KDim4eg91 Oct 9 2024 at 06:07

Со стороны может так выглядит, но я их не рекламирую :) на мой взгляд, завышенные цены про том же качестве продукции, что в ряде других магазинов.

Slipeer Oct 9 2024 at 06:26

Если нужно обрабатывать письма от конкретного источника проще и надежнее ориентироваться на заголовки письма. Отбор, кстати тоже лучше делать по ним и помнить дату/ИД последнего обработанного письма. Data Engineer наверное должен задумываться о транзакционной целостности.
Информационные письма шаблонизированы. Шаблон может меняться. Круто сразу иметь возможность обрабатывать разные шаблоны.
А еще все всегда забывают про обработку ошибок и контроль качества полученной информации. Например, если цена или количество получилось с буквами, то наверное у отправителя изменился шаблон (или парсинг был реализован недостаточно корректно)

KDim4eg91 Oct 9 2024 at 06:33

Спасибо за комментарий.

Действительно, проверки на ошибки должны быть. Это это уже следующий этап по моему мнению. Сначала выстроим пайплайн, получим результат. Затем будем вводить отладку и проверки.

Статья больше рассчитана на читателей, знакомых с sql и python (pandas), которые хотят в первую очередь получить данные и попробовать их обработать.

Есть, что доработать ☝🏻

AButakov Oct 9 2024 at 07:26

Вот да, вчера не написал об этом, но try-except точно не хватает (на мой дилетантский взгляд).

В остальном было интересно почитать. Не сталкивался пока с библиотеками для работы с электронной почтой. :)

Apokalepsis Oct 9 2024 at 18:23

Спасибо за идею. Я теперь знаю как обогатить данные в Дзен Мани