Обновить
1
Наталья Попова@ctg2aread⁠-⁠only

Пользователь

Отправить сообщение

Пакетная репликация данных в аналитическом ландшафте ХД

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели633

Наполнение данными хранилища или озера, как правило, является первым большим шагом к доступности аналитической среды для основного функционала и работы конечных пользователей. От эффективной реализации этой задачи зависят стоимость и длительность всего проекта по созданию хранилища данных и сроки предоставления отдельных data-сервисов.

В этой публикации я поделюсь опытом реализации пакетной загрузки больших данных в аналитические хранилища и расскажу, когда следует выбрать именно пакетную загрузку, а когда – онлайн-подход. Отдельно раскрою, как многолетний опыт решения подобных задач был воплощен в промышленном инструменте репликации данных.

Читать далее

Как я из специалиста по защите информации стал аналитиком данных. Моя история

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели2.9K

Привет, хабр! Меня зовут Алексей, я работаю аналитиком данных в компании "Мегапьютер", но я не сразу стал им. Чтобы понять, кем я действительно хочу работать, потребовалось время.

В 2017 я закончил ЧГУ (Чебоксарский Государственный Университет) по специальности защита информации, но и начал свой трудовой путь в телекоммуникационной компании специалистом по защите информации.

И пошло-поехало первое, что я делал, приходя на работу изо дня в день - проверял свой почтовый ящик на наличие уведомлений о событиях информационной безопасности (ИБ). Данные уведомления поступали из различных источников, включая системы обнаружения вторжений, брандмауэры и антивирусное программное обеспечение. Специалист по ИТ-безопасности, то есть я, должен знать эти предупреждения, чтобы определить, представляют ли они реальную угрозу или ложное срабатывание.

Читать далее

Как найти стажера — аналитика данных

Время на прочтение9 мин
Охват и читатели11K

Хочу поделиться опытом поиска стажеров - аналитиков данных. Статья может быть интересна тимлидам аналитики, а при некоторой адаптации — и для лидов других направлений. Кандидатам на стажерские позиции статья тоже может пригодиться, но все секреты не выдам :) Мой подход заключается в том, что оценивается не столько правильный ответ на прямой вопрос, сколько большое количество сопутствующих паттернов поведения.

Читать далее

Не доверять данным и уметь признавать ошибки: какие софтскилы нужны аналитику данных

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели4.4K

Привет! Меня зовут Дарина Кухтина, я работаю лидом маркетинговой аналитики в геймдев-компании и наставником на курсе «Аналитик данных» в Практикуме.

На основном месте работы я провела много интервью и со временем стала уделять софтскилам не меньше внимания, чем хардскилам. Если вторые хотя бы понятно, как прокачивать, то для развития «мягких навыков» нет чёткого рабочего алгоритма. И если закрыть глаза на нехватку софтскилов при найме, потом с сотрудником могут быть проблемы.

В этой подборке я расскажу, какие софтскилы, на мой взгляд, особенно важны для аналитиков данных, как специалисту найти свои слабые места и что поможет развить те или иные навыки.

Читать далее

Как аналитики данных и специалисты по Data Science находят работу после курсов: опыт Практикума

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели14K

Привет, Хабр! Меня зовут Ольга Матушевич, я наставница на курсе «Аналитик данных» в Яндекс Практикуме. Большая часть наших студентов в качестве цели обучения указывает успешное трудоустройство в новой профессии. Поэтому мы внимательно отслеживаем, у кого из выпускников получилось устроиться на желаемую должность, сколько времени это заняло и сколько усилий потребовало. На основе этих данных мы строим наши продуктовые обещания студентам.

В конце прошлого года у нас появилась идея выявить ключевые факторы, влияющие на трудоустройство студентов, и научиться давать более точные и дифференцированные обещания. Для этого мы провели исследование — делюсь результатами в материале.

Читать далее

Cобеседование на позицию стажера в Яндекс на аналитика данных

Время на прочтение6 мин
Охват и читатели73K

Всем привет! Целью данного поста является:

1) Поделится личным опытом.

2) Помочь другим кандидатам при подготовке к собеседованию.

Читать далее

Про что могут спросить аналитика данных о статистике на интервью: 3 темы

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели7.2K

Привет, Хабр!

Когда проходит собес на позицию аналитика данных, одна из важных проверок - это знания по статистике. Компании хотят убедиться, что вы понимаете статистику и умеете применять ее на практике для принятия решений на основе данных.

В статье рассмотрим кратко три темы по статистике, которые часто задают на собеседованиях.

Читать далее

Полный список вопросов с собеседований по Python для дата-сайентистов и инженеров

Время на прочтение14 мин
Охват и читатели154K
Snake and flowers 2 by pikaole

Бывает, что компания ищет дата-сайентиста, а на самом деле ей нужен Python-разработчик. Поэтому при подготовке к собеседованию есть смысл освежить в памяти информацию по Python, а не только штудировать алгоритмы.

Команда Mail.ru Cloud Solutions перевела статью разработчика, который не раз попадал в такую ситуацию и на основе своего опыта составил список из 53 вопросов и ответов для подготовки к собеседованию. Большинство исследователей данных пишут много кода, поэтому такой список пригодится и дата-сайентистам, и инженерам. Он будет полезен и для соискателей, и для тех, кто проводит собеседования, и для тех, кто просто изучает Python.

Вопросы идут в случайном порядке. Поехали.
Читать дальше →

Критерий Манна-Уитни — самый главный враг A/B-тестов

Время на прочтение17 мин
Охват и читатели81K

Всем привет! Меня зовут Дима Лунин, я аналитик в компании Авито. В этой статье я расскажу про критерий Манна-Уитни и проблемы при его использовании.

Если вы анализировали A/B-тест, где вас интересовал прирост или падение какой-то метрики, то наверняка использовали критерий Манна-Уитни. Я хочу рассказать про подводные камни этого критерия, и почему мы в компании его не используем. А в конце вы поймёте, откуда такой холиварный заголовок) 

Читать далее

Большой гайд по A/B-тестированию

Время на прочтение18 мин
Охват и читатели89K
В интернете масса информации об A/B-тестированиях, но многие до сих пор проводят их неправильно. Ошибиться действительно легко, поэтому подобные исследования требуют серьезной предварительной подготовки. В этой статье рассматриваются основные аспекты A/B-тестирования, которые необходимо учитывать для эффективного анализа веб-страниц.

Что такое A/B-тестирование?


A/B тестирование (сплит-тестирование) разделяет трафик в соотношении 50/50 между разными версиями страницы. По сути, этот метод — новое название для старой техники, известной как «контролируемый эксперимент».

Для проверки эффективности новых лекарств специалисты проводят сплит-тесты. Фактически, большинство исследовательских экспериментов можно назвать A/B-тестированием. Они включают в себя гипотезу, основной объект исследования, его вариацию и результат, представленный в виде статистических данных.

Вот и все. В качестве примера можно привести простое A/B-тестирование, при котором трафик в соотношении 50/50 делится между основной страницей и ее вариацией:


Читать дальше →

Titanic Survivors Data Research

Уровень сложностиСредний
Время на прочтение17 мин
Охват и читатели17K

15 апреля 1912 года произошло крушение парохода «Титаник», став одной из самых значимых катастроф в истории человечества. В данной статье исследованы данные пассажиров Титаника, сделаны и проверены предположения о влиянии определённых факторов на вероятность человека выжить в той катастрофе. Анализ данных сопровождается примерами кода на Python, с использованием пакета Pandas. Построена и обучена модель нейронной сети, предсказывающая вероятность человека выжить в катастрофе с точностью 0.78 на тестовых данных. Модель построена на базе фреймворка pyTorch.

Читать далее

Шпаргалка по SQL (postgres), которая выручает меня на собесах

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели274K

Привет, Хабр!

Я решил посвятить свою первую статью SQL. Вопросы, рассмотренные ниже мне задавали на собеседованиях на позицию python-разработчика. Естественно отвечать правильно получалось не всегда, а если точнее то чаще не правильно, однако проведя N часов в рефлексии я составил перечень ответов, которыми пользуюсь до сих пор.

Данная информация предполагает знание основ языка запросов и я надеюсь, она окажется полезной для разработчиков, которые сейчас активно ищут работу а также, что ты прочитаешь этот текст до конца и добавишь свой вопрос к перечню (ну или поправишь неточности в существующих)

Читать далее

Редактор кода Visual Studio Code. Самый подробный гайд по настройке и установке плагинов для начинающих

Время на прочтение23 мин
Охват и читатели1.1M
Бесплатный, мощный, очень популярный, с кучей дополнений, да что там говорить, сам Фейсбук выбрал его в качестве основного редактора!


Сегодня речь пойдет о редакторе кода Visual Studio Code или просто VS Code. Мы с тобой его установим, настроим, а также применим плагины, которые существенно упростят нам работу.
Читать дальше →

Лучшие Проекты Для Начинающих Python-Разработчиков

Время на прочтение8 мин
Охват и читатели337K

Чтобы научиться ходить – надо ходить, чтобы научиться подтягиваться – надо подтягиваться, чтобы научиться решать задачи по физике – надо решать задачи по физике. Так говорил преподаватель физики в моём университете, и эта аналогия применима и к программированию.

Можно сколько угодно упираться в сухую теорию, но без применения своих знаний на практике научиться программировать невозможно. В этой статье я подобрал несколько проектов для начинающих python-разработчиков. Эти проекты помогут закрепить теорию, применить полученные знания на практике и набить руку в написании кода. Некоторые из них даже можно добавить в будущее портфолио. Я объясню, чем хорош каждый проект, какие навыки и темы он позволяет проработать, а также сориентирую какие библиотеки и технологии можно использовать для его реализации.

Цель данного "топа" – это не создание самого оригинального портфолио и не перечисление уникальных проектов. Цель статьи разобраться в простых вещах, технологиях и темах, которые помогут развить практические навыки программирования. Поэтому не стоит ждать здесь сборку Оптимуса Прайма, программирование Звезды смерти и создание двигателя на китовом жире. Мы пройдёмся по простым, но в тоже время базовым вещам. Ведь как говорил один мой приятель: «Всё великое начинается с малого».

Читать далее

Моя шпаргалка по pandas

Время на прочтение8 мин
Охват и читатели919K
Один преподаватель как-то сказал мне, что если поискать аналог программиста в мире книг, то окажется, что программисты похожи не на учебники, а на оглавления учебников: они не помнят всего, но знают, как быстро найти то, что им нужно.

Возможность быстро находить описания функций позволяет программистам продуктивно работать, не теряя состояния потока. Поэтому я и создал представленную здесь шпаргалку по pandas и включил в неё то, чем пользуюсь каждый день, создавая веб-приложения и модели машинного обучения.



Нельзя сказать, что это — исчерпывающий список возможностей pandas, но сюда входят функции, которыми я пользуюсь чаще всего, примеры и мои пояснения по поводу ситуаций, в которых эти функции особенно полезны.
Читать дальше →

Повышение продуктивности при работе с Jupyter Notebook за 5 минут

Время на прочтение2 мин
Охват и читатели55K

Для начала повторим основные горячие клавиши. Если вы их ещё не используете — начните обязательно. В долгосрочной перспективе время на изучение окупится многократно.


0. Основные горячие клавиши


  • Esc: Переключение между режимом выполнения и редактирования
  • A: Добавление пустой ячейки сверху
  • B: Добавление пустой ячейки снизу
  • DD: Удаления ячейки
  • C: Копирование ячеек
  • X: Вырезание ячеек
  • V: Вставка ячеек

1. Перезапуск блокнота


Для рестарта просто нажмите ESC + 00.


Читать дальше →

Нативное редактирование Jupyter Notebooks в VS Code

Время на прочтение3 мин
Охват и читатели52K
С октябрьским релелизом расширения Python, мы рады объявить о поддержке нативного редактирования Jupyter Notebooks в Visual Studio Code! Теперь вы можете напрямую редактировать файлы .ipynb и получать интерактивность Jupyter Notebooks с полной мощью VS Code.

Вы можете управлять исходным кодом, открывать несколько файлов и использовать такие функции, как IntelliSense, интеграцию с Git и управление несколькими файлами. Все они предлагают совершенно новые способы для дата-сайнтистов и разработчиков эффективно экспериментировать и работать с данными. Вы можете попробовать все это уже сегодня, загрузив последнюю версию расширения Python и создав/открыв Jupyter Notebook внутри VS Code.



Начиная с первой публикации наших практик в области анализа данных в VS Code одной из главных функций, которую запрашивали пользователи, являлся макет, похожий на блокнот, для редактирования собственных блокнотов Jupyter в VS Code. В оставшейся части этого поста мы рассмотрим эти новые возможности VS Code.
Читать дальше →

Собеседования джуна аналитика данных: чего ждут и что спрашивают работодатели

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели19K

Привет! Меня зовут Дарина Кухтина, я руководитель аналитики в компании, которая разрабатывает мобильные игры, и собеседую аналитиков уже 4 года, а ещё я наставник на курсе «Аналитик данных» в Практикуме. В статье я расскажу, о чём важно помнить, чтобы интервью проходили спокойнее и проще.

Читать далее

Как заинтересовать 120+ HR всего за месяц. Или как захантить к себе аналитика данных

Время на прочтение7 мин
Охват и читатели17K

За месяц поиска работы собрал много полезной информации и хочу с вами ею поделиться.

В начале немного статистики по прохождению этапов отбора в компанию:

1 этап "Собеседование с HR-ом": 120+ HR-ов (рекрутеров) написало мне за месяц

2 этап "Собеседование с руководителем" (знакомство и/или "Техническое собеседование" или "Тестовое задание"): все 120+ рекрутеров позвали меня на собеседования с руководителями, но лишь 80 я смог осилить и принял приглашение (почему не всем я сказал да - расскажу дальше). 50 тех собесов было пройдено и 5 заданий было сделано

3 этап "Финальное собеседование" - знакомство с командой: 15 встреч было всего

С какими компаниями успел пообщаться за этот месяц: Яндекс.Облако, СберМаркет, СберЗвук, СберАвто, Ростелеком, Делимобиль, разные команды Х5 Ритейл групп, ВК, Авито, Delivery Club, Skyeng, Учи.ру, DoDo, Joom, YClients (куда я в итоге и пошел) и многие другие.Дальше я раскрою лайфхаки по каждому из этапов прохождения отбора - постараюсь быть полезным как тем, кто в поиске работы, так и нанимающим HR-ам.

В конце статьи поделился полезными материалами для продуктового аналитика и в целом по прохождению собеседований.

Читать далее

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 5: Поведенческое интервью + Бонусы

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели4.7K

Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).

В предыдущей статье я поделился материалами для подготовки к дизайну систем машинного обучения.

В этой статье рассмотрим материалы, которые можно использовать для подготовки к поведенческому интервью, а также ресурсы, которые не подошли по тематике ни к одной из предыдущих статей.

Читать далее
1

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Аналитик по данным, Продуктовый аналитик
Стажёр
От 80 000 ₽
Git
PostgreSQL
Python
SQL
Базы данных
Английский язык
C#
Tableau
Pandas
Математическая статистика