Pull to refresh
1
Наталья Попова@ctg2aread⁠-⁠only

User

Send message

Пакетная репликация данных в аналитическом ландшафте ХД

Level of difficultyMedium
Reading time14 min
Reach and readers633

Наполнение данными хранилища или озера, как правило, является первым большим шагом к доступности аналитической среды для основного функционала и работы конечных пользователей. От эффективной реализации этой задачи зависят стоимость и длительность всего проекта по созданию хранилища данных и сроки предоставления отдельных data-сервисов.

В этой публикации я поделюсь опытом реализации пакетной загрузки больших данных в аналитические хранилища и расскажу, когда следует выбрать именно пакетную загрузку, а когда – онлайн-подход. Отдельно раскрою, как многолетний опыт решения подобных задач был воплощен в промышленном инструменте репликации данных.

Читать далее

Как я из специалиста по защите информации стал аналитиком данных. Моя история

Level of difficultyEasy
Reading time3 min
Reach and readers2.9K

Привет, хабр! Меня зовут Алексей, я работаю аналитиком данных в компании "Мегапьютер", но я не сразу стал им. Чтобы понять, кем я действительно хочу работать, потребовалось время.

В 2017 я закончил ЧГУ (Чебоксарский Государственный Университет) по специальности защита информации, но и начал свой трудовой путь в телекоммуникационной компании специалистом по защите информации.

И пошло-поехало первое, что я делал, приходя на работу изо дня в день - проверял свой почтовый ящик на наличие уведомлений о событиях информационной безопасности (ИБ). Данные уведомления поступали из различных источников, включая системы обнаружения вторжений, брандмауэры и антивирусное программное обеспечение. Специалист по ИТ-безопасности, то есть я, должен знать эти предупреждения, чтобы определить, представляют ли они реальную угрозу или ложное срабатывание.

Читать далее

Как найти стажера — аналитика данных

Reading time9 min
Reach and readers11K

Хочу поделиться опытом поиска стажеров - аналитиков данных. Статья может быть интересна тимлидам аналитики, а при некоторой адаптации — и для лидов других направлений. Кандидатам на стажерские позиции статья тоже может пригодиться, но все секреты не выдам :) Мой подход заключается в том, что оценивается не столько правильный ответ на прямой вопрос, сколько большое количество сопутствующих паттернов поведения.

Читать далее

Не доверять данным и уметь признавать ошибки: какие софтскилы нужны аналитику данных

Level of difficultyEasy
Reading time6 min
Reach and readers4.4K

Привет! Меня зовут Дарина Кухтина, я работаю лидом маркетинговой аналитики в геймдев-компании и наставником на курсе «Аналитик данных» в Практикуме.

На основном месте работы я провела много интервью и со временем стала уделять софтскилам не меньше внимания, чем хардскилам. Если вторые хотя бы понятно, как прокачивать, то для развития «мягких навыков» нет чёткого рабочего алгоритма. И если закрыть глаза на нехватку софтскилов при найме, потом с сотрудником могут быть проблемы.

В этой подборке я расскажу, какие софтскилы, на мой взгляд, особенно важны для аналитиков данных, как специалисту найти свои слабые места и что поможет развить те или иные навыки.

Читать далее

Как аналитики данных и специалисты по Data Science находят работу после курсов: опыт Практикума

Level of difficultyEasy
Reading time10 min
Reach and readers14K

Привет, Хабр! Меня зовут Ольга Матушевич, я наставница на курсе «Аналитик данных» в Яндекс Практикуме. Большая часть наших студентов в качестве цели обучения указывает успешное трудоустройство в новой профессии. Поэтому мы внимательно отслеживаем, у кого из выпускников получилось устроиться на желаемую должность, сколько времени это заняло и сколько усилий потребовало. На основе этих данных мы строим наши продуктовые обещания студентам.

В конце прошлого года у нас появилась идея выявить ключевые факторы, влияющие на трудоустройство студентов, и научиться давать более точные и дифференцированные обещания. Для этого мы провели исследование — делюсь результатами в материале.

Читать далее

Cобеседование на позицию стажера в Яндекс на аналитика данных

Reading time6 min
Reach and readers73K

Всем привет! Целью данного поста является:

1) Поделится личным опытом.

2) Помочь другим кандидатам при подготовке к собеседованию.

Читать далее

Про что могут спросить аналитика данных о статистике на интервью: 3 темы

Level of difficultyEasy
Reading time5 min
Reach and readers7.2K

Привет, Хабр!

Когда проходит собес на позицию аналитика данных, одна из важных проверок - это знания по статистике. Компании хотят убедиться, что вы понимаете статистику и умеете применять ее на практике для принятия решений на основе данных.

В статье рассмотрим кратко три темы по статистике, которые часто задают на собеседованиях.

Читать далее

Полный список вопросов с собеседований по Python для дата-сайентистов и инженеров

Reading time14 min
Reach and readers154K
Snake and flowers 2 by pikaole

Бывает, что компания ищет дата-сайентиста, а на самом деле ей нужен Python-разработчик. Поэтому при подготовке к собеседованию есть смысл освежить в памяти информацию по Python, а не только штудировать алгоритмы.

Команда Mail.ru Cloud Solutions перевела статью разработчика, который не раз попадал в такую ситуацию и на основе своего опыта составил список из 53 вопросов и ответов для подготовки к собеседованию. Большинство исследователей данных пишут много кода, поэтому такой список пригодится и дата-сайентистам, и инженерам. Он будет полезен и для соискателей, и для тех, кто проводит собеседования, и для тех, кто просто изучает Python.

Вопросы идут в случайном порядке. Поехали.
Читать дальше →

Критерий Манна-Уитни — самый главный враг A/B-тестов

Reading time17 min
Reach and readers81K

Всем привет! Меня зовут Дима Лунин, я аналитик в компании Авито. В этой статье я расскажу про критерий Манна-Уитни и проблемы при его использовании.

Если вы анализировали A/B-тест, где вас интересовал прирост или падение какой-то метрики, то наверняка использовали критерий Манна-Уитни. Я хочу рассказать про подводные камни этого критерия, и почему мы в компании его не используем. А в конце вы поймёте, откуда такой холиварный заголовок) 

Читать далее

Большой гайд по A/B-тестированию

Reading time18 min
Reach and readers89K
В интернете масса информации об A/B-тестированиях, но многие до сих пор проводят их неправильно. Ошибиться действительно легко, поэтому подобные исследования требуют серьезной предварительной подготовки. В этой статье рассматриваются основные аспекты A/B-тестирования, которые необходимо учитывать для эффективного анализа веб-страниц.

Что такое A/B-тестирование?


A/B тестирование (сплит-тестирование) разделяет трафик в соотношении 50/50 между разными версиями страницы. По сути, этот метод — новое название для старой техники, известной как «контролируемый эксперимент».

Для проверки эффективности новых лекарств специалисты проводят сплит-тесты. Фактически, большинство исследовательских экспериментов можно назвать A/B-тестированием. Они включают в себя гипотезу, основной объект исследования, его вариацию и результат, представленный в виде статистических данных.

Вот и все. В качестве примера можно привести простое A/B-тестирование, при котором трафик в соотношении 50/50 делится между основной страницей и ее вариацией:


Читать дальше →

Titanic Survivors Data Research

Level of difficultyMedium
Reading time17 min
Reach and readers17K

15 апреля 1912 года произошло крушение парохода «Титаник», став одной из самых значимых катастроф в истории человечества. В данной статье исследованы данные пассажиров Титаника, сделаны и проверены предположения о влиянии определённых факторов на вероятность человека выжить в той катастрофе. Анализ данных сопровождается примерами кода на Python, с использованием пакета Pandas. Построена и обучена модель нейронной сети, предсказывающая вероятность человека выжить в катастрофе с точностью 0.78 на тестовых данных. Модель построена на базе фреймворка pyTorch.

Читать далее

Шпаргалка по SQL (postgres), которая выручает меня на собесах

Level of difficultyEasy
Reading time8 min
Reach and readers274K

Привет, Хабр!

Я решил посвятить свою первую статью SQL. Вопросы, рассмотренные ниже мне задавали на собеседованиях на позицию python-разработчика. Естественно отвечать правильно получалось не всегда, а если точнее то чаще не правильно, однако проведя N часов в рефлексии я составил перечень ответов, которыми пользуюсь до сих пор.

Данная информация предполагает знание основ языка запросов и я надеюсь, она окажется полезной для разработчиков, которые сейчас активно ищут работу а также, что ты прочитаешь этот текст до конца и добавишь свой вопрос к перечню (ну или поправишь неточности в существующих)

Читать далее

Редактор кода Visual Studio Code. Самый подробный гайд по настройке и установке плагинов для начинающих

Reading time23 min
Reach and readers1.1M
Бесплатный, мощный, очень популярный, с кучей дополнений, да что там говорить, сам Фейсбук выбрал его в качестве основного редактора!


Сегодня речь пойдет о редакторе кода Visual Studio Code или просто VS Code. Мы с тобой его установим, настроим, а также применим плагины, которые существенно упростят нам работу.
Читать дальше →

Лучшие Проекты Для Начинающих Python-Разработчиков

Reading time8 min
Reach and readers337K

Чтобы научиться ходить – надо ходить, чтобы научиться подтягиваться – надо подтягиваться, чтобы научиться решать задачи по физике – надо решать задачи по физике. Так говорил преподаватель физики в моём университете, и эта аналогия применима и к программированию.

Можно сколько угодно упираться в сухую теорию, но без применения своих знаний на практике научиться программировать невозможно. В этой статье я подобрал несколько проектов для начинающих python-разработчиков. Эти проекты помогут закрепить теорию, применить полученные знания на практике и набить руку в написании кода. Некоторые из них даже можно добавить в будущее портфолио. Я объясню, чем хорош каждый проект, какие навыки и темы он позволяет проработать, а также сориентирую какие библиотеки и технологии можно использовать для его реализации.

Цель данного "топа" – это не создание самого оригинального портфолио и не перечисление уникальных проектов. Цель статьи разобраться в простых вещах, технологиях и темах, которые помогут развить практические навыки программирования. Поэтому не стоит ждать здесь сборку Оптимуса Прайма, программирование Звезды смерти и создание двигателя на китовом жире. Мы пройдёмся по простым, но в тоже время базовым вещам. Ведь как говорил один мой приятель: «Всё великое начинается с малого».

Читать далее

Моя шпаргалка по pandas

Reading time8 min
Reach and readers919K
Один преподаватель как-то сказал мне, что если поискать аналог программиста в мире книг, то окажется, что программисты похожи не на учебники, а на оглавления учебников: они не помнят всего, но знают, как быстро найти то, что им нужно.

Возможность быстро находить описания функций позволяет программистам продуктивно работать, не теряя состояния потока. Поэтому я и создал представленную здесь шпаргалку по pandas и включил в неё то, чем пользуюсь каждый день, создавая веб-приложения и модели машинного обучения.



Нельзя сказать, что это — исчерпывающий список возможностей pandas, но сюда входят функции, которыми я пользуюсь чаще всего, примеры и мои пояснения по поводу ситуаций, в которых эти функции особенно полезны.
Читать дальше →

Повышение продуктивности при работе с Jupyter Notebook за 5 минут

Reading time2 min
Reach and readers55K

Для начала повторим основные горячие клавиши. Если вы их ещё не используете — начните обязательно. В долгосрочной перспективе время на изучение окупится многократно.


0. Основные горячие клавиши


  • Esc: Переключение между режимом выполнения и редактирования
  • A: Добавление пустой ячейки сверху
  • B: Добавление пустой ячейки снизу
  • DD: Удаления ячейки
  • C: Копирование ячеек
  • X: Вырезание ячеек
  • V: Вставка ячеек

1. Перезапуск блокнота


Для рестарта просто нажмите ESC + 00.


Читать дальше →

Нативное редактирование Jupyter Notebooks в VS Code

Reading time3 min
Reach and readers52K
С октябрьским релелизом расширения Python, мы рады объявить о поддержке нативного редактирования Jupyter Notebooks в Visual Studio Code! Теперь вы можете напрямую редактировать файлы .ipynb и получать интерактивность Jupyter Notebooks с полной мощью VS Code.

Вы можете управлять исходным кодом, открывать несколько файлов и использовать такие функции, как IntelliSense, интеграцию с Git и управление несколькими файлами. Все они предлагают совершенно новые способы для дата-сайнтистов и разработчиков эффективно экспериментировать и работать с данными. Вы можете попробовать все это уже сегодня, загрузив последнюю версию расширения Python и создав/открыв Jupyter Notebook внутри VS Code.



Начиная с первой публикации наших практик в области анализа данных в VS Code одной из главных функций, которую запрашивали пользователи, являлся макет, похожий на блокнот, для редактирования собственных блокнотов Jupyter в VS Code. В оставшейся части этого поста мы рассмотрим эти новые возможности VS Code.
Читать дальше →

Собеседования джуна аналитика данных: чего ждут и что спрашивают работодатели

Level of difficultyEasy
Reading time9 min
Reach and readers19K

Привет! Меня зовут Дарина Кухтина, я руководитель аналитики в компании, которая разрабатывает мобильные игры, и собеседую аналитиков уже 4 года, а ещё я наставник на курсе «Аналитик данных» в Практикуме. В статье я расскажу, о чём важно помнить, чтобы интервью проходили спокойнее и проще.

Читать далее

Как заинтересовать 120+ HR всего за месяц. Или как захантить к себе аналитика данных

Reading time7 min
Reach and readers17K

За месяц поиска работы собрал много полезной информации и хочу с вами ею поделиться.

В начале немного статистики по прохождению этапов отбора в компанию:

1 этап "Собеседование с HR-ом": 120+ HR-ов (рекрутеров) написало мне за месяц

2 этап "Собеседование с руководителем" (знакомство и/или "Техническое собеседование" или "Тестовое задание"): все 120+ рекрутеров позвали меня на собеседования с руководителями, но лишь 80 я смог осилить и принял приглашение (почему не всем я сказал да - расскажу дальше). 50 тех собесов было пройдено и 5 заданий было сделано

3 этап "Финальное собеседование" - знакомство с командой: 15 встреч было всего

С какими компаниями успел пообщаться за этот месяц: Яндекс.Облако, СберМаркет, СберЗвук, СберАвто, Ростелеком, Делимобиль, разные команды Х5 Ритейл групп, ВК, Авито, Delivery Club, Skyeng, Учи.ру, DoDo, Joom, YClients (куда я в итоге и пошел) и многие другие.Дальше я раскрою лайфхаки по каждому из этапов прохождения отбора - постараюсь быть полезным как тем, кто в поиске работы, так и нанимающим HR-ам.

В конце статьи поделился полезными материалами для продуктового аналитика и в целом по прохождению собеседований.

Читать далее

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 5: Поведенческое интервью + Бонусы

Level of difficultyMedium
Reading time7 min
Reach and readers4.7K

Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).

В предыдущей статье я поделился материалами для подготовки к дизайну систем машинного обучения.

В этой статье рассмотрим материалы, которые можно использовать для подготовки к поведенческому интервью, а также ресурсы, которые не подошли по тематике ни к одной из предыдущих статей.

Читать далее
1

Information

Rating
Does not participate
Registered
Activity

Specialization

Аналитик по данным, Продуктовый аналитик
Стажёр
From 80,000 ₽
Git
PostgreSQL
Python
SQL
Базы данных
Английский язык
C#
Tableau
Pandas
Математическая статистика