Обновить
29
Александр Ледовский@aledovskiy

Data Science Team Lead, Avito

30
Подписчики
Отправить сообщение

Как я учился писать промпты для RAG пайплайна. Разбор 3-го места на AI Journey 24 E-com AI assistant

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели12K

Я занимаюсь классическим ML, как это теперь принято называть. Делаю продвижение в поиске и рекомендациях Авито (и еще пишу в канал Big Ledovsky). Работа, признаюсь, интересная, и очень мне нравится. Однако этот хайп вокруг LLM.. Да даже не хайп, а просто бытовой опыт использования LLM говорит: нужно разобраться в этой технологии, это серьезный прорыв в отрасли.

И вот в преддверии AI Journey выложили соревнование, где нужно было построить ассистента для рекомендации товаров Мегамаркета, а в качестве модели использовать Gigachat через API. Я решил, что время поделать что-то руками настало. В итоге получилось нарешать на 3-е место.

Как человек, который первый раз делал RAG пайплайн, я получил много инсайтов и интуиции, которыми хочу поделиться. Всем заинтересованным добро пожаловать под кат.

Читать далее

Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI

Время на прочтение7 мин
Охват и читатели30K

Продолжаем выводить ваши знания о PySpark на новый уровень :) В этот раз расскажем, что такое план запроса, как его смотреть, и что делать, чтобы уточнить узкие места в расчётах.

Читать далее

PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив

Время на прочтение9 мин
Охват и читатели21K

Тимлид команды аналитики и DS в Авито Александр Ледовский рассказал, как быть, когда нужно посчитать что-то на pySpark, чтобы потом выгрузить.

Читать далее

PySpark для аналитика. Как правильно просить ресурсы и как понять, сколько нужно брать

Время на прочтение9 мин
Охват и читатели22K

Александр Ледовский, тимлид команды аналитики и DS в Авито, рассказал про опыт работы с Apache Spark и о том, как правильно задавать параметры Spark-сессии, чтобы получить ресурсы.

Читать далее

Мои принципы в менеджменте ИТ-команд

Время на прочтение6 мин
Охват и читатели11K

Уже более 5 лет я занимаю руководящие позиции в области анализа данных. От синьора DS с двумя подчиненными до лида трех команд аналитиков и инженеров в Малом бизнесе Сбера. За это время я сформировал приципы, которые помогают мне в управлении творческими специалистами.

Не претендую на истину, да и не всему всегда получается следовать. Принципы не отражают всех задач менеджера, а относятся к конкретным вопросам. Делюсь с вами своим опытом, буду рад услышать ваше мнение.

Читать далее

Несколько применений Sublime Text 3, которыми Вы могли бы пользоваться

Время на прочтение1 мин
Охват и читатели68K
Sublime Text относится к тем текстовым редактором, которые могут все. Гибкость позволяет настроить его на любой вкус, а большое комьюнити штампует плагины днями и ночами. Многие программисты используют его как среду разработки, однако до неосновных применений доходят не все. В этой небольшой статье я расскажу о некоторых из них.
Читать дальше →

Статистические тесты в R. Часть 3: Тесты количественных данных

Время на прочтение3 мин
Охват и читатели24K
Это третья статья в серии о применении R для статистического анализа данных, в которой будут разбираться представление и тестирование количественных данных. Вы узнаете как быстро и наглядно представить данные, а также как использовать t-тест в R.

Часть 1: Бинарная классифиация
Часть 2: Анализ качественных данных

Поехали!
Читать дальше →

Статистические тесты в R. Часть 2: Тесты качественных данных

Время на прочтение4 мин
Охват и читатели22K
Эта статья — продолжение первой части. В этой серии статей я рассматриваю применение набирающего популярность языка программирования R для решения распространенных статистических задач.

В данной и следующей статье я показываю как выбрать для обработки качественных и количественных данных правильные тесты и реализовать их в R. Данные методы позволяют получить реальное представление об объекте, процессе или явлении по какому-либо параметру, т.е. позволяют сказать «хорошо» или «плохо». Они не потребуют глубоких знаний программирования и статистики, и пригодятся людям различного рода деятельности.

Заинтересовались? Добро пожаловать под кат!
Читать дальше →

Статистические тесты в R. Часть 1: Бинарная классификация

Время на прочтение5 мин
Охват и читатели26K
Доброго времени суток. Хочу поделиться своими знаниями о работе со статистикой в R.
Многим из нас приходится сталкиваться с различными данными на работе и в повседневной жизни. Качественно и правильно их обработать и проанализировать не так сложно. В этой серии статей я покажу применения некоторых статистических тестов.

Заинтересовались? Добро пожаловать под кат.
Читать дальше →

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Data Scientist, Data Engineer
Lead
Machine learning
Deep Learning
DWH
Spark
Apache Hadoop
Python
Docker
Django