Data Engineer

Профиль Публикации Комментарии 8Закладки 96

AntonSenior 6 июн в 13:48

Базы данных простыми словами

Простой

4 мин

7.4K

SQL*Администрирование баз данных*Открытые данные*Визуализация данных*Хранение данных*

Обзор

Привет, Хабр!
Это статья больше для начинающих или любознательных, тут я постарался простыми словами объяснить что же такое эта база данных и для чего они используются на проектах.

-9

honsour72 5 июл 2023 в 01:38

Шпаргалка по SQL (postgres), которая выручает меня на собесах

Простой

8 мин

199K

PostgreSQL*SQL*Администрирование баз данных*Терминология ITИнтервью

Из песочницы

Привет, Хабр!

Я решил посвятить свою первую статью SQL. Вопросы, рассмотренные ниже мне задавали на собеседованиях на позицию python-разработчика. Естественно отвечать правильно получалось не всегда, а если точнее то чаще не правильно, однако проведя N часов в рефлексии я составил перечень ответов, которыми пользуюсь до сих пор.

Данная информация предполагает знание основ языка запросов и я надеюсь, она окажется полезной для разработчиков, которые сейчас активно ищут работу а также, что ты прочитаешь этот текст до конца и добавишь свой вопрос к перечню (ну или поправишь неточности в существующих)

+177

178

Autechre 5 апр 2023 в 18:12

Предварительная обработка данных с помощью библиотеки Pandas (Задача)

Простой

5 мин

14K

Python*Восстановление данных*

Из песочницы

В современном мире большинство бизнес-процессов связаны с обработкой больших объемов данных, получаемых от различных источников. Часто эти данные содержат ошибки, дубликаты и пропуски, что может привести к неверным выводам и решениям. Одним из инструментов, которые позволяют очистить и преобразовать данные, является библиотека pandas для языка программирования Python.

Я собираюсь рассмотреть задачу по очистке данных с помощью pandas. Для этого возьмем данные, содержащие дубликаты строк, неправильные типы данных, пропуски и отрицательные значения. Затем я буду использовать функциональные возможности pandas для очистки и преобразования этих данных в форму, пригодную для дальнейшего анализа.

Предположим, у вас есть набор данных, содержащий информацию о продажах компании за последние несколько лет. Но данные не очень чистые, и вы заметили, что есть некоторые проблемы с форматированием и некоторые строки содержат ошибки.

Задача: Необходимо очистить данные о продажах компании за последние несколько лет с помощью библиотеки Pandas.

Cloud4Y 20 мар 2023 в 13:34

OSINT & Hacking — как работает фишинг для нельзяграма

Простой

3 мин

5.8K

Блог компании Cloud4YИнформационная безопасность*Социальные сети и сообщества

Обзор

Перевод

Взлом Instagram*‑аккаунта — популярный запрос в поисковиках. Поэтому есть смысл рассказать о том, как это обычно работает. Просто для того, чтобы вы знали, откуда может пойти атака.

k0rsakov 16 мар 2023 в 06:04

Генерация DAG в Apache Airflow

Средний

6 мин

5.7K

Python*Big Data*Хранилища данных*Data Engineering*

Туториал

Пошаговая инструкция о том, как из одного DAG сделать фабрику DAG.

Включает в себя: установка Airflow через Docker и поэтапное объяснение того, как сделать фабрику DAG.

BeyondTheHype 27 фев 2023 в 09:27

6 способов ускорения поиска работы используя ChatGPT

Простой

4 мин

14K

IT-эмиграцияКарьера в IT-индустрииИскусственный интеллект

Туториал

ChatGPT — это сервис на базе Искусственного Интеллекта (Artificial intelligence) от команды Open. AI (используется более продвинутая языковая модель GPT-3.5, скоро выйдет 4-я версия, и будет совсем космос). В чем фишка? Вы общаетесь с ним как будто с человеком в чате.

В этой статье я хочу показать на рабочих примерах как сервис ChatGTP может помочь получить в разы больше интервью при поиске работы при правильном его использовании. Попробуйте эти 6 советов по ChatGPT, чтобы вдвое сократить время поиска работы (и втрое увеличить количество собеседований).

-3

avshkol 23 авг 2022 в 23:54

Все, что вам нужно знать об Airflow DAGs, ч.3.1 — Создание шаблонов

8 мин

9.4K

Python*PostgreSQL*Apache*Хранилища данных*Data Engineering*

Перевод

Все об использовании шаблонов в Airflow с примерами кода. Продолжение серии публикаций astronomer.io

-1

mr-pickles 21 ноя 2022 в 12:30

Полное руководство по модулю asyncio в Python. Часть 1

11 мин

129K

Блог компании Wunder FundPython*Программирование*

Туториал

Перевод

Python-модуль asyncio позволяет заниматься асинхронным программированием с применением конкурентного выполнения кода, основанного на корутинах. Хотя этот модуль имеется в Python уже много лет, он остаётся одним из самых интересных механизмов языка. Но asyncio, при этом, можно назвать ещё и одним из модулей, которые вызывают больше всего недоразумений. Дело в том, что начинающим разработчикам бывает трудно приступить к использованию asyncio.

Перед вами — подробное и всестороннее руководство по использованию модуля asyncio в Python. В частности, здесь будут рассмотрены следующие основные вопросы:

+27

honyaki 17 ноя 2022 в 23:39

Три инструмента для быстрого профилирования данных

5 мин

6.6K

Блог компании SkillfactoryPython*Программирование*Софт

Перевод

Анализируйте и сводите данные быстрее с помощью этих инструментов Python

Автор материала кратко, наглядно и с примерами кода представлет три пакета Python, заметно упрощающих и ускоряющих исследовательский анализ данных. Подборкой делимся к старту нашего флагманского курса по Data Science.

Читать дальше →

azathot 3 мар 2017 в 14:02

Vertica+Anchor Modeling = запусти рост своей грибницы

5 мин

32K

Блог компании AvitoTechBig Data*

Какое-то время назад я написал статью на Хабре. В ней же пообещал продолжение через пару недель. Но, как известно, обещанного три года ждут — и с тех пор действительно прошло три года. Если вы не запомнили со времён той статьи, то напомню — я работаю в Avito, строю хранилище на основе Vertica.
Из того, что поменялось — теперь я могу не просто написать статью, а сделать это в блоге компании. И, надеюсь, не один раз. Самопиар окончен, теперь к делу.

Читать дальше →

+41

alekskram 30 окт 2022 в 18:08

Топ полезных SQL-запросов для PostgreSQL

7 мин

92K

PostgreSQL*SQL*Администрирование баз данных*Хранение данных*Хранилища данных*

Технотекст 2022

Статей о работе с PostgreSQL и её преимуществах достаточно много, но не всегда из них понятно, как следить за состоянием базы и метриками, влияющими на её оптимальную работу. В статье подробно рассмотрим SQL-запросы, которые помогут вам отслеживать эти показатели и просто могут быть полезны как пользователю.

+78

Molechka 21 дек 2021 в 17:33

Как обучить джунов QA за 3 дня (сборник материалов)

5 мин

168K

Блог компании HFLabsТестирование IT-систем*Тестирование веб-сервисов*Тестирование мобильных приложений*

Чему нужно обучить junior QA, чтобы он начал приносить пользу проекту? Конечно, было бы здорово «всему и сразу», но это может затянуться надолго. А вот с основами тестирования можно познакомить буквально за пару-тройку дней. Особенно если это фулл-тайм дни (рабочее время).

Я обучаю новичков больше 6 лет, больше тысячи людей выпустила, книгу вот написала. И на опыте студентов вижу, что «план-минимум» на самом деле небольшой.

Если перед вами стоит задача «завтра выйдут два джуниора, обучи их», начните с основ. Один из вариантов:

• дали посмотреть видео или прочитать статьи;

• собрались вместе в переговорке или зуме, обсудили;

• дали ДЗ на закрепление материала;

• через три дня получили более-менее адекватного джуна, профит!

В этом посте я собрала ссылки в помощь по каждой теме:

• видео — варианты из публичного доступа. Выбираете то, что больше по душе, отдаете падаванам;

• статьи — даете как дополнительный материал.

В итоге затраты на подготовку — меньше, а польза от новичков — быстрее.

+17

Syurmakov 19 мая 2019 в 19:23

Подборка датасетов для машинного обучения

6 мин

151K

Python*Data Mining*Машинное обучение*Искусственный интеллект

Привет, читатель!

Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие статьи.

Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения. В ней я, для начала, соберу подборку интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплю полезные ссылки по самостоятельному поиску датасетов.

Меньше слов, больше данных.

Подборка датасетов для машинного обучения:

Данные смертей и сражений из игры престолов — этот набор данных объединяет три источника данных, каждый из которых основан на информации из серии книг.
Глобальная база данных терроризма — Более 180 000 террористических атак по всему миру, 1970-2017.
Биткойн, исторические данные — данные биткойнов с интервалом в 1 минуту с избранных бирж, январь 2012 г. — март 2019 г.

Читать дальше →

+62

mr-pickles 4 июл 2022 в 12:38

F-строки в Python мощнее, чем можно подумать

5 мин

131K

Блог компании Wunder FundPython*Программирование*

Перевод

Форматированные строковые литералы, которые ещё называют f-строками (f-strings), появились довольно давно, в Python 3.6. Поэтому все знают о том, что это такое, и о том, как ими пользоваться. Правда, f-строки обладают кое-какими полезными возможностями, некоторыми особенностями, о которых кто-нибудь может и не знать. Разберёмся с некоторыми интересными возможностями f-строк, которые могут оказаться очень кстати в повседневной работе Python-программиста.

+94

neoflex 10 окт 2022 в 09:55

Мониторинг в Apache NiFi. Часть первая

20 мин

7.5K

Блог компании NeoflexOpen source*Apache*Big Data*

Apache NiFi динамично развивается и на сегодняшний день обладает достаточно большим набором возможностей, позволяющим отслеживать состояние потоков данных, ошибки и предупреждения, возникающие в процессорах и на кластере, а также состояние кластера.

Первая статья посвящена мониторингу потоков данных с помощью инструмента GUI NiFi. В последующих материалах мы рассмотрим задачи отчетности, опишем примеры сбора метрик и визуализации при помощи таких популярных систем, как Prometheus и Grafana.

slivka_83 27 сен 2022 в 12:05

Dagster | Туториал

9 мин

12K

Data Mining*Big Data*Машинное обучение*Data Engineering*

Туториал

Cезон Data Mining

Dagster — это оркестратор, предназначенный для организации конвейеров обработки данных: ETL, проведение тестов, формирование отчетов, обучение ML-моделей и т.д.

На паре несложных примеров посмотрим как его развернуть, настроить и работать с ним.

NewTechAudit 22 июл 2022 в 15:49

Параллельная обработка и преобразование json-фалов в pandas

4 мин

4.2K

Python*Программирование*

Привет, Хабр!

Структурированные данные – хорошо, а полуструктурированные – не проблема. Формат json хоть и является очень популярным, однако не очень удобен для анализа, особенно если данных много, и они разделены на отдельные файлы.

Разберем преобразование множества json файлов различной структуры в привычный аналитикам pandas.DataFrame.

NewTechAudit 15 июл 2022 в 11:00

3 пакета Python для генерации синтетических данных

6 мин

11K

Python*Программирование*Natural Language Processing*

Нет данных? Сгенерируй!

Рассмотрим три самых интересных, в плане функциональности и простоты использования, способа генерации синтетических данных с помощью пакетов Python .

mr-pickles 18 июл 2022 в 12:12

Как работать с датами в pandas

4 мин

70K

Блог компании Wunder FundPython*

Перевод

Библиотека Pandas — это весьма эффективный инструмент для обработки данных, представляющих собой временные ряды. На самом деле, эта библиотека была создана Уэсом МакКинни для работы с финансовыми данными, которые состоят, главным образом, из временных рядов.

При работе с временными рядами много сил уходит на выполнение различных операций с датой и временем. Этот материал посвящён ответам на четыре распространённых вопроса из данной сферы.

Возможно, вы уже сталкивались с этими вопросами. Ответить на все из них, кроме последнего, можно сравнительно просто. А вот ответ на последний, довольно-таки хитрый вопрос, представляет собой последовательность из нескольких действий.

Начнём с создания учебного датафрейма (объекта DataFrame), с которым будем экспериментировать:

+16

tmat 24 фев 2021 в 18:08

Всё, о чём должен знать разработчик Телеграм-ботов

15 мин

637K

Мессенджеры*API*

Вы вряд ли найдете в интернете что-то про разработку ботов, кроме документаций к библиотекам, историй "как я создал такого-то бота" и туториалов вроде "как создать бота, который будет говорить hello world". При этом многие неочевидные моменты просто нигде не описаны.

Как вообще устроены боты? Как они взаимодействуют с пользователями? Что с их помощью можно реализовать, а что нельзя?

Подробный гайд о том, как работать с ботами — под катом.

+127

2 3 4 5

Базы данных простыми словами

Шпаргалка по SQL (postgres), которая выручает меня на собесах

Предварительная обработка данных с помощью библиотеки Pandas (Задача)

OSINT & Hacking — как работает фишинг для нельзяграма

Генерация DAG в Apache Airflow

6 способов ускорения поиска работы используя ChatGPT

Все, что вам нужно знать об Airflow DAGs, ч.3.1 — Создание шаблонов

Полное руководство по модулю asyncio в Python. Часть 1

Три инструмента для быстрого профилирования данных

Анализируйте и сводите данные быстрее с помощью этих инструментов Python

Vertica+Anchor Modeling = запусти рост своей грибницы

Топ полезных SQL-запросов для PostgreSQL

Как обучить джунов QA за 3 дня (сборник материалов)

Подборка датасетов для машинного обучения

Подборка датасетов для машинного обучения:

F-строки в Python мощнее, чем можно подумать

Мониторинг в Apache NiFi. Часть первая

Dagster | Туториал

Параллельная обработка и преобразование json-фалов в pandas

3 пакета Python для генерации синтетических данных

Как работать с датами в pandas

Всё, о чём должен знать разработчик Телеграм-ботов

Информация

Специализация