Pull to refresh

Comments 11

А какой смысл здесь в использовании огромной тяжёлой библиотеки ради 1 простого действия? Просто ради import pandas as pd?

Вероятнее всего, автор, как и я, только изучает эту область и других вариантов может не знать, ну или так ему просто удобнее. Я бы тоже, вероятнее всего, делал бы через pandas, а вот БД сделал бы локальную в postgresql. Но возможно это потому что ч не знаю Greenplum, и знаю немного потсгрю, да и с интернетом у меня большой вопрос сейчас. Как бы вы реализовали transform без pandas? Чем можно заменить?

Автору спасибо за материал.

Если брать самый простой уровень для тех кто только учится:

1 - не вижу смысла в сохранении в txt, это просто лишний этап если эти данные больше нигде не используются

2 - вместо трансформа с пандас простой csv который встроен в питон по умолчанию

3 - а вообще трансформ тут по сути лишний если не хранить сам csv а только данные из него, можно вообще напрямую в бд сохранять

4 - для парсинга хтмл вообще есть свои инструменты например soup.

Вы правы.

  1. Сохранять локально и читать файл, особенно в txt не нужно. Это делалось скорее для отладки и просмотра содержимого. Если далее идут трансформации, можно не сохранять, а преобразовывать или загружать в бд.

  2. Не все знакомы с beautiful soap, как и я на момент работы над пет проектом. Поэтому решил идти известным мне путей.

Благодарю за комментарии, это очень ценно. Безусловно, улучшать и докручивать есть куда. 👍🏻

Со стороны может так выглядит, но я их не рекламирую :) на мой взгляд, завышенные цены про том же качестве продукции, что в ряде других магазинов.

Если нужно обрабатывать письма от конкретного источника проще и надежнее ориентироваться на заголовки письма. Отбор, кстати тоже лучше делать по ним и помнить дату/ИД последнего обработанного письма. Data Engineer наверное должен задумываться о транзакционной целостности.
Информационные письма шаблонизированы. Шаблон может меняться. Круто сразу иметь возможность обрабатывать разные шаблоны.
А еще все всегда забывают про обработку ошибок и контроль качества полученной информации. Например, если цена или количество получилось с буквами, то наверное у отправителя изменился шаблон (или парсинг был реализован недостаточно корректно)

Спасибо за комментарий.

Действительно, проверки на ошибки должны быть. Это это уже следующий этап по моему мнению. Сначала выстроим пайплайн, получим результат. Затем будем вводить отладку и проверки.

Статья больше рассчитана на читателей, знакомых с sql и python (pandas), которые хотят в первую очередь получить данные и попробовать их обработать.

Есть, что доработать ☝🏻

Вот да, вчера не написал об этом, но try-except точно не хватает (на мой дилетантский взгляд).

В остальном было интересно почитать. Не сталкивался пока с библиотеками для работы с электронной почтой. :)

Спасибо за идею. Я теперь знаю как обогатить данные в Дзен Мани

Sign up to leave a comment.

Articles