Результаты поиска по запросу «[dataframe]» / Хабр

Публикации Хабы Компании Пользователи Комментарии

val6789 15 апр в 09:12

Spark. План запросов на примерах

Средний

7 мин

3.4K

SQL*Apache*Big Data*Хранение данных*Data Engineering*

FAQ

Всем привет!

В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды планов друг от друга, что в них изменяется от запроса к запросу и разберем каждую строчку на примере партиционированной и непартиционированной таблицы.

Falcon_eye 29 ноя 2023 в 18:33

Apache Spark… Это база

Средний

6 мин

7.4K

Data Mining*Apache*Big Data*Data Engineering*

Обзор

✏️ Технотекст 2023

Apache Spark — это фреймворк для обработки и анализа данных, который позволяет выполнять операции на вычислительных кластерах и поддерживает несколько языков программирования: Scala, Java, Python, R и SQL.

В статье рассмотрим основные понятия для понимания обработки данных на Spark, разберем функционал его компонентов и сформируем DataFrame разными способами.

optimusqp 27 июл 2017 в 18:08

Призрак локомотива или биржевой рынок через призму корреляций

12 мин

6.5K

Python*Data Mining*Машинное обучение*

Recovery Mode

В этой статье будет продемонстрирована техника обработки информации по биржевым котировкам с помощью пакета pandas (python), а также изучены некоторые «мифы и легенды» биржевой торговли посредством применения методов математической статистики. Попутно кратко рассмотрим особенности использования библиотеки plotly.

Одной из легенд трейдеров является понятие «локомотива». Описать ее можно следующим образом: есть бумаги «ведущие» и есть бумаги «ведомые». Если поверить в существование подобной закономерности, то можно «предсказывать» будущие движения финансового инструмента по движению «локомотивов» («ведущих» бумаг). Так ли это? Есть ли под этим основания?

Читать дальше →

Lubiviy_Alexander 4 апр 2020 в 00:00

Перспективны ли просевшие акции? Проанализируем с помощью python

4 мин

9.2K

Python*

Туториал

Проанализируем динамику акций аутсайдеров и лидеров

Недавно прочитал статью о том, что акции-аутсайдеры (те, что максимально упали в цене за месяц) индекса Мосбиржи имеют бОльшие перспективы роста, нежели в среднем по индексу.

В данном исследовании рассмотрю

динамику акций аутсайдеров и лидеров роста (период 30 дней)
Имеет ли смысл покупать на просадках и играть на понижение после значительного роста

Важно! Я буду рассматривать абсолютно каждый день по всем акциям, соответственно многие просадки будут дивидендными гэпами (идея — рассмотреть все отклонения).

Буду рассматривать акции индекса Мосбиржы (только акции с долей в индексе >0,5%), а именно:

Читать дальше →

+13

Lubiviy_Alexander 13 июл 2019 в 23:13

Визуализация столбца из DataFrame с помощью библиотеки Seaborn

1 мин

7.5K

Python*Интернет-маркетинг*

Туториал

Попробуем визуализировать данные по рекламным кампаниям, которые храняться в DataFrame.

Дано:

DataFrame, в котором хранится статистика по рекламным кампаниям по следующим показателям:

CampaignName
Date
Impressions
Clicks
Ctr
Cost
AvgCpc
BounceRate
AvgPageviews
ConversionRate
CostPerConversion
Conversions

Читать дальше →

iss_spb 19 фев 2019 в 10:42

Прогноз состояния VoIP-сети на основе текстовых лог-файлов SIP-сервера приложений

5 мин

2.7K

Блог компании DINSPython*Разработка систем связи*

Контроль за состоянием сигнальной сети VoIP является одним из важных условий, позволяющих UCaaS-провайдеру предоставлять клиентам гарантированный уровень качества таких услуг как аудио- и видеовызовы, приём и передача факсов. Обычно такой контроль осуществляется с помощью различных систем мониторинга, сбора и анализа трафика, анализа CDR. Некоторые из параметров сигнальной сети достаточно трудно, а часто и невозможно оценить указанными способами.

Читать дальше →

+11

Lubiviy_Alexander 24 апр 2019 в 23:24

Получение статистики по всем клиентам из API Яндекс Директ в разрезе дней с помощью Python

5 мин

5.7K

Python*API*Интернет-маркетинг*Контекстная реклама*

Туториал

В работе часто использую короткую статистику в разрезе дней чтобы отслеживать отклонения трафика.

Более подробно о написании запросов написал в статье « Получение рекламных кампаний Яндекс Директ с помощью API в DataFrame (Python)».

В данной статье я в большей степени расскажу о том, как структурировать данные и запросы, чтобы этим можно было нормально пользоваться.

Нам следует прописать запрос к серверу как функцию.

Лично я сделал 2 файла: функция с запросом и файл с данными, которые будут передаваться в функцию.

В первом файле пишем функцию

Я запрашиваю по всем проектам одни и те же поля, поэтому мне нужно передавать в запрос только даты, логин и токен.

Передача данных в функцию у меня выглядит следующим образом:

def rep(token,login,date_from,date_to):

Пишем запрос к серверу API Яндекс Директ

Данный запрос запрашивает данные по следующим параметрам:

Date
Impressions
Clicks
Ctr
Cost
AvgCpc
AvgImpressionPosition
AvgClickPosition
AvgTrafficVolume
BounceRate
AvgPageviews

Читать дальше →

Lubiviy_Alexander 30 мая 2019 в 15:35

Отправка статистики из DataFrame в BigQuery на примере статистики Яндекс Директ

2 мин

1.6K

Python*Контекстная реклама*Google Cloud Platform*

Туториал

В этой статье расскажу о том, как я свел статистику по всему контексту в одном месте с помощью BigQuery и Data Studio

У меня появилась необходимость визуализировать данные по всем источникам трафика.

Для данной задачи я использую Data Studio. Google Ads туда подтягивается прекраснейшим образом, а вот с Яндекс Директ все сложнее.

Я для себя выбрал полуручной способ сведения статистики: получение и отправка статистики со своего компьютера.

Я ежедневно получаю статитику в различных разрезах в DataFrame.

И это отлично потому, что в pandas есть библиотека pandas_gbq, которая умеет отправлять DataFrame в BigQuery.

Читать дальше →

+11

NewTechAudit 30 апр 2022 в 19:43

Основы работы со Spark DataFrame

4 мин

25K

Python*Программирование*Data Mining*Визуализация данных*

При работе с распределенными базами данных, возникают задачи, которые ввиду технических ограничений сложно или невозможно решить с помощью всем привычного пакета Pandas на Python. Решением может стать использование распределенных вычислений Spark и его собственных DataFrame.

NewTechAudit 22 июл 2022 в 15:49

Параллельная обработка и преобразование json-фалов в pandas

4 мин

3.9K

Python*Программирование*

Привет, Хабр!

Структурированные данные – хорошо, а полуструктурированные – не проблема. Формат json хоть и является очень популярным, однако не очень удобен для анализа, особенно если данных много, и они разделены на отдельные файлы.

Разберем преобразование множества json файлов различной структуры в привычный аналитикам pandas.DataFrame.

GolovinDS 7 дек 2022 в 13:03

Количество партиций в Spark DataFrame, DataSet на основе Relational Data Base table

5 мин

1.6K

Блог компании OTUSData Engineering*

В прошлой статье мы рассмотрели количество партиций, которое по умолчанию создается Apache Spark при инициализации DataFrame, DataSet. В текущей статье продолжим рассматривать количество партиций у Spark DataFrame и DataSet, созданных на основе таблицы в Relational Database.

V-Moskalenko 16 янв 2023 в 12:01

Лучший формат данных для хранения pandas.DataFrame

4 мин

7.4K

Блог компании Страховой Дом ВСКPython*Хранение данных*Data Engineering*

Привет, Хабр!

Меня зовут Вадим Москаленко и я разработчик инновационных технологий Страхового Дома ВСК. В этой статье, хочу поделится с вами, информацией в области хранения данных.

На сегодняшний день существует огромное количество форматов для хранения данных, и, используя библиотеку Pandas при обработке большого объёма данных, возникает вопрос – а какой формат, с которыми Pandas работает «из коробки», даст наибольшую производительность, при дальнейшем использовании, обработанного DataFrame?

Ремарка: поиск информации по этой теме, привёл меня к репозиторию, за авторством Devforfu (ссылка), но так как информация в нём датируется 2019 годом, а за этот период вышло множество обновлений, я решил написать «свежий» бенчмарк, основываясь на принципах автора – ссылка на обновленный бенчмарк. Отмечу, что из-за слишком большой разницы в полученных результатах, я склоняюсь к тому, что мог совершить ошибку, поэтому далее в статье будет указана информация по оригиналу.

В качестве тестируемых форматов использовались следующие варианты: CSV (как самый популярный текстовый формат), Pickle, Feather, Parquet, Msgpack, HDF. Для сравнения будем использовать следующие метрики: размер сериализованного файла, время загрузки DataFrame из файла, время сохранения DataFrame в файл, потребление оперативной памяти при сохранении и загрузке DataFrame.

Тестовые данные – сгенерированный DataFrame с 1 миллионом строк, 15 столбцами цифр и 15 столбцами строковых значений. Генерация численных данных проводилась с помощью numpy. random.normal, в качестве строчных данных использовались UUID. С появлением в Pandas, категориального типа данных (Categorical data), который использует гораздо меньше памяти и более производительней в обработке (обширный материал для другой статьи), интересно также сравнить насколько изменится производительность форматов, поэтому ещё одним этапом сравнения в тестовых данных стал перевод формата «object» к формату «category».

+13

honyaki 29 апр 2021 в 15:38

Использование геолокационных данных в машинном обучении: основные методы

10 мин

6.7K

Блог компании SkillfactoryPython*Программирование*Визуализация данных*

Туториал

Перевод

Данные о местоположении — это важная категория данных, с которыми часто приходится иметь дело в проектах машинного обучения. Они, как правило, дают дополнительный контекст к данным используемого приложения. Специально к старту нового потока курса по Machine Learning, делимся с вами кратким руководством по проектированию и визуализации элементов с геопространственными данными.