Как стать автором
Обновить
1
0

Data Engineer

Отправить сообщение

Базы данных простыми словами

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров7.4K

Привет, Хабр!
Это статья больше для начинающих или любознательных, тут я постарался простыми словами объяснить что же такое эта база данных и для чего они используются на проектах.

Читать далее
Всего голосов 22: ↑6 и ↓16-9
Комментарии7

Шпаргалка по SQL (postgres), которая выручает меня на собесах

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров199K

Привет, Хабр!

Я решил посвятить свою первую статью SQL. Вопросы, рассмотренные ниже мне задавали на собеседованиях на позицию python-разработчика. Естественно отвечать правильно получалось не всегда, а если точнее то чаще не правильно, однако проведя N часов в рефлексии я составил перечень ответов, которыми пользуюсь до сих пор.

Данная информация предполагает знание основ языка запросов и я надеюсь, она окажется полезной для разработчиков, которые сейчас активно ищут работу а также, что ты прочитаешь этот текст до конца и добавишь свой вопрос к перечню (ну или поправишь неточности в существующих)

Читать далее
Всего голосов 156: ↑149 и ↓7+177
Комментарии178

Предварительная обработка данных с помощью библиотеки Pandas (Задача)

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров14K

В современном мире большинство бизнес-процессов связаны с обработкой больших объемов данных, получаемых от различных источников. Часто эти данные содержат ошибки, дубликаты и пропуски, что может привести к неверным выводам и решениям. Одним из инструментов, которые позволяют очистить и преобразовать данные, является библиотека pandas для языка программирования Python.

Я собираюсь рассмотреть задачу по очистке данных с помощью pandas. Для этого возьмем данные, содержащие дубликаты строк, неправильные типы данных, пропуски и отрицательные значения. Затем я буду использовать функциональные возможности pandas для очистки и преобразования этих данных в форму, пригодную для дальнейшего анализа.

Предположим, у вас есть набор данных, содержащий информацию о продажах компании за последние несколько лет. Но данные не очень чистые, и вы заметили, что есть некоторые проблемы с форматированием и некоторые строки содержат ошибки.

Задача: Необходимо очистить данные о продажах компании за последние несколько лет с помощью библиотеки Pandas.

Читать далее
Всего голосов 9: ↑7 и ↓2+8
Комментарии13

OSINT & Hacking — как работает фишинг для нельзяграма

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров5.8K

Взлом Instagram*‑аккаунта — популярный запрос в поисковиках. Поэтому есть смысл рассказать о том, как это обычно работает. Просто для того, чтобы вы знали, откуда может пойти атака.

Читать далее
Всего голосов 10: ↑9 и ↓1+8
Комментарии3

Генерация DAG в Apache Airflow

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров5.7K

Пошаговая инструкция о том, как из одного DAG сделать фабрику DAG.

Включает в себя: установка Airflow через Docker и поэтапное объяснение того, как сделать фабрику DAG.

Читать далее
Всего голосов 4: ↑3 и ↓1+2
Комментарии1

6 способов ускорения поиска работы используя ChatGPT

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров14K

ChatGPT — это сервис на базе Искусственного Интеллекта (Artificial intelligence) от команды Open. AI (используется более продвинутая языковая модель GPT-3.5, скоро выйдет 4-я версия, и будет совсем космос). В чем фишка? Вы общаетесь с ним как будто с человеком в чате.

В этой статье я хочу показать на рабочих примерах как сервис ChatGTP может помочь получить в разы больше интервью при поиске работы при правильном его использовании. Попробуйте эти 6 советов по ChatGPT, чтобы вдвое сократить время поиска работы (и втрое увеличить количество собеседований).

Читать далее
Всего голосов 21: ↑8 и ↓13-3
Комментарии7

Все, что вам нужно знать об Airflow DAGs, ч.3.1 — Создание шаблонов

Время на прочтение8 мин
Количество просмотров9.4K

Все об использовании шаблонов в Airflow с примерами кода. Продолжение серии публикаций astronomer.io

Читать далее
Всего голосов 1: ↑0 и ↓1-1
Комментарии0

Полное руководство по модулю asyncio в Python. Часть 1

Время на прочтение11 мин
Количество просмотров129K

Python-модуль asyncio позволяет заниматься асинхронным программированием с применением конкурентного выполнения кода, основанного на корутинах. Хотя этот модуль имеется в Python уже много лет, он остаётся одним из самых интересных механизмов языка. Но asyncio, при этом, можно назвать ещё и одним из модулей, которые вызывают больше всего недоразумений. Дело в том, что начинающим разработчикам бывает трудно приступить к использованию asyncio.

Перед вами — подробное и всестороннее руководство по использованию модуля asyncio в Python. В частности, здесь будут рассмотрены следующие основные вопросы:

Читать далее
Всего голосов 21: ↑19 и ↓2+27
Комментарии8

Три инструмента для быстрого профилирования данных

Время на прочтение5 мин
Количество просмотров6.6K

Анализируйте и сводите данные быстрее с помощью этих инструментов Python



Автор материала кратко, наглядно и с примерами кода представлет три пакета Python, заметно упрощающих и ускоряющих исследовательский анализ данных. Подборкой делимся к старту нашего флагманского курса по Data Science.

Читать дальше →
Всего голосов 5: ↑3 и ↓2+1
Комментарии7

Vertica+Anchor Modeling = запусти рост своей грибницы

Время на прочтение5 мин
Количество просмотров32K
Какое-то время назад я написал статью на Хабре. В ней же пообещал продолжение через пару недель. Но, как известно, обещанного три года ждут  —  и с тех пор действительно прошло три года. Если вы не запомнили со времён той статьи, то напомню  —  я работаю в Avito, строю хранилище на основе Vertica.
Из того, что поменялось — теперь я могу не просто написать статью, а сделать это в блоге компании. И, надеюсь, не один раз. Самопиар окончен, теперь к делу.


Читать дальше →
Всего голосов 41: ↑41 и ↓0+41
Комментарии27

Топ полезных SQL-запросов для PostgreSQL

Время на прочтение7 мин
Количество просмотров92K

Статей о работе с PostgreSQL и её преимуществах достаточно много, но не всегда из них понятно, как следить за состоянием базы и метриками, влияющими на её оптимальную работу. В статье подробно рассмотрим SQL-запросы, которые помогут вам отслеживать эти показатели и просто могут быть полезны как пользователю.

Читать далее
Всего голосов 70: ↑68 и ↓2+78
Комментарии16

Как обучить джунов QA за 3 дня (сборник материалов)

Время на прочтение5 мин
Количество просмотров168K

Чему нужно обучить junior QA, чтобы он начал приносить пользу проекту? Конечно, было бы здорово «всему и сразу», но это может затянуться надолго. А вот с основами тестирования можно познакомить буквально за пару-тройку дней. Особенно если это фулл-тайм дни (рабочее время).

Я обучаю новичков больше 6 лет, больше тысячи людей выпустила, книгу вот написала. И на опыте студентов вижу, что «план-минимум» на самом деле небольшой.

Если перед вами стоит задача «завтра выйдут два джуниора, обучи их», начните с основ. Один из вариантов: 

дали посмотреть видео или прочитать статьи;

собрались вместе в переговорке или зуме, обсудили;

дали ДЗ на закрепление материала;

через три дня получили более-менее адекватного джуна, профит!

В этом посте я собрала ссылки в помощь по каждой теме:

видео — варианты из публичного доступа. Выбираете то, что больше по душе, отдаете падаванам;

статьи — даете как дополнительный материал.

В итоге затраты на подготовку — меньше, а польза от новичков — быстрее.

Читать далее
Всего голосов 23: ↑19 и ↓4+17
Комментарии26

Подборка датасетов для машинного обучения

Время на прочтение6 мин
Количество просмотров151K
Привет, читатель!

Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие статьи.

Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения. В ней я, для начала, соберу подборку интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплю полезные ссылки по самостоятельному поиску датасетов.

Меньше слов, больше данных.

image

Подборка датасетов для машинного обучения:


Читать дальше →
Всего голосов 66: ↑64 и ↓2+62
Комментарии6

F-строки в Python мощнее, чем можно подумать

Время на прочтение5 мин
Количество просмотров131K

Форматированные строковые литералы, которые ещё называют f-строками (f-strings), появились довольно давно, в Python 3.6. Поэтому все знают о том, что это такое, и о том, как ими пользоваться. Правда, f-строки обладают кое-какими полезными возможностями, некоторыми особенностями, о которых кто-нибудь может и не знать. Разберёмся с некоторыми интересными возможностями f-строк, которые могут оказаться очень кстати в повседневной работе Python-программиста.

Читать далее
Всего голосов 73: ↑71 и ↓2+94
Комментарии25

Мониторинг в Apache NiFi. Часть первая

Время на прочтение20 мин
Количество просмотров7.5K

Apache NiFi динамично развивается и на сегодняшний день обладает достаточно большим набором возможностей, позволяющим отслеживать состояние потоков данных, ошибки и предупреждения, возникающие в процессорах и на кластере, а также состояние кластера.

Первая статья посвящена мониторингу потоков данных с помощью инструмента GUI NiFi. В последующих материалах мы рассмотрим задачи отчетности, опишем примеры сбора метрик и визуализации при помощи таких популярных систем, как Prometheus и Grafana.

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Комментарии1

Dagster | Туториал

Время на прочтение9 мин
Количество просмотров12K

Dagster — это оркестратор, предназначенный для организации конвейеров обработки данных: ETL, проведение тестов, формирование отчетов, обучение ML-моделей и т.д.

На паре несложных примеров посмотрим как его развернуть, настроить и работать с ним.

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии4

Параллельная обработка и преобразование json-фалов в pandas

Время на прочтение4 мин
Количество просмотров4.2K

Привет, Хабр!

Структурированные данные – хорошо, а полуструктурированные – не проблема. Формат json хоть и является очень популярным, однако не очень удобен для анализа, особенно если данных много, и они разделены на отдельные файлы.

Разберем преобразование множества json файлов различной структуры в привычный аналитикам pandas.DataFrame.

Читать далее
Всего голосов 3: ↑2 и ↓1+1
Комментарии0

3 пакета Python для генерации синтетических данных

Время на прочтение6 мин
Количество просмотров11K

Нет данных? Сгенерируй!

Рассмотрим три самых интересных, в плане функциональности и простоты использования, способа генерации синтетических данных с помощью пакетов Python .

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии2

Как работать с датами в pandas

Время на прочтение4 мин
Количество просмотров70K

Библиотека Pandas — это весьма эффективный инструмент для обработки данных, представляющих собой временные ряды. На самом деле, эта библиотека была создана Уэсом МакКинни для работы с финансовыми данными, которые состоят, главным образом, из временных рядов.

При работе с временными рядами много сил уходит на выполнение различных операций с датой и временем. Этот материал посвящён ответам на четыре распространённых вопроса из данной сферы.

Возможно, вы уже сталкивались с этими вопросами. Ответить на все из них, кроме последнего, можно сравнительно просто. А вот ответ на последний, довольно-таки хитрый вопрос, представляет собой последовательность из нескольких действий.

Начнём с создания учебного датафрейма (объекта DataFrame), с которым будем экспериментировать:

Читать далее
Всего голосов 10: ↑9 и ↓1+16
Комментарии2

Всё, о чём должен знать разработчик Телеграм-ботов

Время на прочтение15 мин
Количество просмотров637K

Вы вряд ли найдете в интернете что-то про разработку ботов, кроме документаций к библиотекам, историй "как я создал такого-то бота" и туториалов вроде "как создать бота, который будет говорить hello world". При этом многие неочевидные моменты просто нигде не описаны.

Как вообще устроены боты? Как они взаимодействуют с пользователями? Что с их помощью можно реализовать, а что нельзя?

Подробный гайд о том, как работать с ботами — под катом.

Читать далее
Всего голосов 127: ↑127 и ↓0+127
Комментарии73

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность

Специализация

Data Engineer
Python
SQL
PostgreSQL
Database