Pull to refresh
30
0
Александр Ледовский @aledovskiy

Analytics/DS Team Lead, Avito

Send message

Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI

Reading time7 min
Views16K

Продолжаем выводить ваши знания о PySpark на новый уровень :) В этот раз расскажем, что такое план запроса, как его смотреть, и что делать, чтобы уточнить узкие места в расчётах.

Читать далее
Total votes 10: ↑9 and ↓1+8
Comments0

PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив

Reading time9 min
Views12K

Тимлид команды аналитики и DS в Авито Александр Ледовский рассказал, как быть, когда нужно посчитать что-то на pySpark, чтобы потом выгрузить.

Читать далее
Total votes 5: ↑5 and ↓0+5
Comments15

PySpark для аналитика. Как правильно просить ресурсы и как понять, сколько нужно брать

Reading time9 min
Views14K

Александр Ледовский, тимлид команды аналитики и DS в Авито, рассказал про опыт работы с Apache Spark и о том, как правильно задавать параметры Spark-сессии, чтобы получить ресурсы.

Читать далее
Total votes 17: ↑17 and ↓0+17
Comments19

Мои принципы в менеджменте ИТ-команд

Reading time6 min
Views10K

Уже более 5 лет я занимаю руководящие позиции в области анализа данных. От синьора DS с двумя подчиненными до лида трех команд аналитиков и инженеров в Малом бизнесе Сбера. За это время я сформировал приципы, которые помогают мне в управлении творческими специалистами.

Не претендую на истину, да и не всему всегда получается следовать. Принципы не отражают всех задач менеджера, а относятся к конкретным вопросам. Делюсь с вами своим опытом, буду рад услышать ваше мнение.

Читать далее
Total votes 19: ↑18 and ↓1+24
Comments9

Несколько применений Sublime Text 3, которыми Вы могли бы пользоваться

Reading time1 min
Views67K
Sublime Text относится к тем текстовым редактором, которые могут все. Гибкость позволяет настроить его на любой вкус, а большое комьюнити штампует плагины днями и ночами. Многие программисты используют его как среду разработки, однако до неосновных применений доходят не все. В этой небольшой статье я расскажу о некоторых из них.
Читать дальше →
Total votes 97: ↑82 and ↓15+67
Comments61

Статистические тесты в R. Часть 3: Тесты количественных данных

Reading time3 min
Views24K
Это третья статья в серии о применении R для статистического анализа данных, в которой будут разбираться представление и тестирование количественных данных. Вы узнаете как быстро и наглядно представить данные, а также как использовать t-тест в R.

Часть 1: Бинарная классифиация
Часть 2: Анализ качественных данных

Поехали!
Читать дальше →
Total votes 22: ↑21 and ↓1+20
Comments0

Статистические тесты в R. Часть 2: Тесты качественных данных

Reading time4 min
Views21K
Эта статья — продолжение первой части. В этой серии статей я рассматриваю применение набирающего популярность языка программирования R для решения распространенных статистических задач.

В данной и следующей статье я показываю как выбрать для обработки качественных и количественных данных правильные тесты и реализовать их в R. Данные методы позволяют получить реальное представление об объекте, процессе или явлении по какому-либо параметру, т.е. позволяют сказать «хорошо» или «плохо». Они не потребуют глубоких знаний программирования и статистики, и пригодятся людям различного рода деятельности.

Заинтересовались? Добро пожаловать под кат!
Читать дальше →
Total votes 7: ↑6 and ↓1+5
Comments0

Статистические тесты в R. Часть 1: Бинарная классификация

Reading time5 min
Views25K
Доброго времени суток. Хочу поделиться своими знаниями о работе со статистикой в R.
Многим из нас приходится сталкиваться с различными данными на работе и в повседневной жизни. Качественно и правильно их обработать и проанализировать не так сложно. В этой серии статей я покажу применения некоторых статистических тестов.

Заинтересовались? Добро пожаловать под кат.
Читать дальше →
Total votes 13: ↑13 and ↓0+13
Comments11

Information

Rating
Does not participate
Registered
Activity

Specialization

Data Scientist, Data Engineer
Lead
Machine learning
Deep Learning
DWH
Spark
Apache Hadoop
Python
Docker
Django