Как стать автором
Обновить
0
Анастасия Исакова @av-isakovaread⁠-⁠only

Пользователь

Отправить сообщение

Брось себе вызов ‒ сможешь ли стать системным аналитиком?

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров5.7K

Системный аналитик превращает хаос в красивые решения и наводит порядок. Эта роль ‒ связующее звено между заказчиком и программистом, аналитик переводит с бизнесового на технический язык. Профессия сложная, но интересная и перспективная, поэтому если хочешь перейти в ИТ, обратите внимание на эту профессию.

В школе оценивают ваши знания с помощью ЕГЭ или экзаменов для поступления в ВУЗ на конкретную специальность. Предлагаю проверить знания по системному анализу в тесте «Готов ли я стать системным аналитиком». После прохождения вы узнаете насколько велики ваши шансы стать системным аналитиком или нужно уделить внимание подготовке. Если тест покажет, что необходимо еще набраться знаний, то приходите на курс «Системный аналитик с нуля», чтобы сэкономить время на поиске материала в интернете  (прим. информация в статье и тестирование это мое личное мнение, которое может не совпадать с мнением читателя).

С помощью теста вы пройдете самопроверку перед собеседованием.

Хочу узнать результат
Всего голосов 13: ↑7 и ↓6+1
Комментарии2

Модели жизненного цикла программного обеспечения

Время на прочтение3 мин
Количество просмотров479K
Здравствуйте, уважаемые хабровчане! Думаю будет кому-то интересно вспомнить какие модели разработки, внедрения и использования программного обеспечения существовали ранее, какие модели в основном используются сейчас, зачем и что это собственно такое. В этом и будет заключаться моя небольшая тема.
Читать дальше →
Всего голосов 40: ↑27 и ↓13+14
Комментарии13

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 1: Live Coding

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров16K

Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).

В данной статье разберемся что такое live coding интервью и как к нему готовиться.

Материал в первую очередь будет полезен Data Scientist'ам и ML инженерам, при этом некоторые разделы, например, Алгоритмы и структуры данных подойдут всем IT специалистам, которым предстоит пройти секцию live coding.

Читать далее
Всего голосов 11: ↑9 и ↓2+7
Комментарии11

Введение в Data Vault

Время на прочтение6 мин
Количество просмотров120K


Большинство компаний сегодня накапливают различные данные, полученные в процессе работы. Часто данные приходят из различных источников — структурированные и не очень, иногда в режиме реального времени, а иногда они доступны в строго определенные периоды. Все это разнообразие нужно структурированно хранить, чтоб потом успешно анализировать, рисовать красивые отчеты и вовремя замечать аномалии. Для этих целей проектируется хранилище данных (Data Warehouse, DWH).

Существует несколько подходов к построению такого универсального хранилища, которые помогают архитектору избежать распространенных проблем, а самое главное обеспечить должный уровень гибкости и расширяемости DWH. Об одном из таких подходов я и хочу рассказать.

Кому будет интересна эта статья?


  • Ищете более функциональную альтернативу схеме «звезды» и Третьей Нормальной Форме?
  • У Вас уже есть хранилище данных, но его тяжело дорабатывать?
  • Нужна хорошая поддержка историчности, а текущая архитектура для этого не подходит?
  • Возникают проблемы при сборе данных из нескольких источников?

Если на какой-либо из этих вопросов Вы ответили утвердительно, и при этом не знакомы с Data Vault — прошу заглянуть под кат!
Читать дальше →
Всего голосов 9: ↑9 и ↓0+9
Комментарии2

Data Build Tool или что общего между Хранилищем Данных и Смузи

Время на прочтение10 мин
Количество просмотров23K

На каких принципах строится идеальное Хранилище Данных?

Фокус на бизнес-ценности и аналитике при отсутствии boilerplate code. Управление DWH как кодовой базой: версионирование, ревью, автоматическое тестирование и CI. Модульность, расширяемость, открытый исходный код и сообщество. Дружественная пользовательская документация и визуализация зависимостей (Data Lineage).

Обо всём этом подробнее и о роли DBT в экосистеме Big Data & Analytics — добро пожаловать под кат.
Читать дальше →
Всего голосов 12: ↑11 и ↓1+10
Комментарии2

Индексы и селективность (PostgreSQL)

Время на прочтение1 мин
Количество просмотров25K
Индекс по полю в БД потенциально может ускорить SELECT операцию с условием по данному полю, может ускорить запрос вида: ORDER BY поле LIMIT 20, но индекс существенно замедляет операции изменения таблицы и т.п.

Когда нужен индекс, когда он поможет и будет использован при SELECTах? Всё зависит от селективности индекса, т.е. от кол-ва строк, которые мы получим если зададим условие:
проиндексированное_поле = значение


Отличный кандидат для индексирования — селективность 1, т.е. уникальный индекс (например, id), когда по указанному значению мы найдем максимум одну запись.

Рассмотрим в качестве примера таблицу пользователей с полями информации о регионе: страна (country_id) и город (city_id). Хорошо, когда селективность составляет < 5% (например, поле city_id у пользователя). При этом PostgreSQL умён, он считает не селективность “вообще” по полю, а селективность в виде гистограммы по отдельным значениям поля. Т.е. если мы задаем условие вида

страна = Россия


то получим 10% записей из БД, а если условие

страна = Уругвай


то получим 2 записи, и это PostgreSQL понимает. (Конечно, здесь мы предлполагаем, что пользователей из Уругвая на нашем сервере гораздо меньше, чем пользователей из России).

Так вот, если селективность плохая (получаем много записей), PostgreSQL предпочтёт выполнить полное сканирование БД, не используя индекс. И такой индекс только мешает.

P.S. Кросс-пост из моего блога
Всего голосов 10: ↑6.5 и ↓3.5+3
Комментарии4

Горизонтальные связи и ролевая модель большой команды

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров5.6K

Когда коллега уходит в отпуск или увольняется — работа часто буксует или останавливается даже в большой команде. Происходит это, так как внезапно выясняется, что ушедший был «узким местом» или «критичным звеном».

Мне удалось снизить влияние этих «узких мест» и «критичных звеньев» за счёт налаживания горизонтальных связей, построения ролевой модели большой команды и ещё нескольких приёмов.

Меня зовут Татьяна Сеземина, я директор по управлению проектами Холдинга Т1.

Я вырастила команду с 40 до более чем 150 человек и не потеряла управляемости.

Сейчас расскажу, как мне удалось этого добиться.

Читать далее
Всего голосов 16: ↑14 и ↓2+12
Комментарии9

«Ох уж эти сказки! Ох уж эти сказочники!». Исполняемые процессы (по мотивам «Белки»). Часть 1

Время на прочтение5 мин
Количество просмотров4.7K

Использован кадр из мультфильма «Падал прошлогодний снег…». Шедевр! Между прочим, рейтинг на «Кинопоиске» почти 9!

Больше года назад я опубликовала на хабре статьи «Один день из жизни белки» или от моделирования процессов к проектированию автоматизированной системы учёта материальных ценностей «Белка-1.0» (часть 1 и часть 2) об использовании «сказочного» подхода при обучении нотации UML.

Попробуем «разложить» всё те же бессмертные строчки на исполняемые процессы BPMN.
Итак, автоматизируем процессы учёта материальных ценностей — проект «Белка-2.0.BPMN»
Напомню, чтобы не переключаться на хабре на предыдущую статью или не искать строчки в «Сказке о царе Салтане…» (хотя, если появилось желание перечитать что-то из произведений Александра Сергеевича, не сдерживайте себя! Пушкин – и правда – наше ВСЁ!)
Читать дальше →
Всего голосов 14: ↑12 и ↓2+10
Комментарии5

Bizagi. Описание. Пример

Время на прочтение9 мин
Количество просмотров96K
Эту статью я написал в продолжение статьи о BPM-системах. И здесь я хочу рассказать о принципах работы BPMS на примере конкретной системы — Bizagi. Я постараюсь пояснить, как происходит процесс моделирования, разработки и исполнения бизнес-процесса в этой системе на практическом примере.

Bizagi: Model. Build. Run

Читать дальше →
Всего голосов 8: ↑8 и ↓0+8
Комментарии3

Что я бы хотел знать про ML System Design раньше

Время на прочтение6 мин
Количество просмотров17K

Около года назад я начал проходить собеседования в разные компании на позицию Machine Learning Engineer. Одним из этапов в каждой компании было проектирование ML системы. В данной статье я делюсь опытом и ресурсами, которые помогли мне пройти собеседования. В том числе в команду MLE Ленты, в которой сейчас тружусь.

Читать далее
Всего голосов 10: ↑10 и ↓0+10
Комментарии8

Создаем аналитическое хранилище данных командой из 2-3 спецов

Время на прочтение9 мин
Количество просмотров19K
Всем привет!
Сделать хорошее аналитическое хранилище (DWH), когда в команде десяток-другой крутых специалистов и пара лет времени — не сложно. Проекты по созданию DWH, Data Lake и BI обычно очень ресурсоёмки и под силу только большим компаниям.
Мне интересно искать и применять практики, которые позволяют компаниям быстро создавать аналитические решения маленькой командой. Этими наработками хочу поделиться в данной статье.
Статья нацелена на:
  • Небольшие команды в начале пути.
  • Создание решений с быстрым возвратом инвестиций.

Коротко о моём DWH опыте (чтобы понимать ограничения моего мышления):
  • Реализовывал три похожих не очень больших проекта по созданию DWH: 5-15 терабайт, 100+ сущностей, в команде 2-4 специалиста, в качестве источника — одна основная база продукта (сервиса) и несколько дополнительных.
  • Участвовал в супер большом проекте DWH: 1+ Петабайт (прирост 1 терабайт в день), 2000+ сущностей, в команде 100+ специалистов. В этой компании жадно изучал Data Vault 2, исходники DWH движка, бизнес-процессы, которые масштабируются на сотни специалистов, правила описания DWH в вики и методы постановки задач.
  • В продакшн работал только с batch процессами, со stream знаком только по обучающим курсам и книгам.

Ценность для бизнеса


Цепочка создания ценности в процессе работы с данными (источник):


Читать дальше →
Всего голосов 15: ↑15 и ↓0+15
Комментарии13

7 ошибок ETL-разработчика

Время на прочтение11 мин
Количество просмотров60K
Проекты хранилищ данных уже давно являются частью IT-инфраструктуры большинства крупных предприятий. Процессы ETL являются частью этих проектов, однако разработчики иногда совершают одни и те же ошибки при проектировании и сопровождении этих процессов. Некоторые из этих ошибок описаны в этом посте.
Читать дальше →
Всего голосов 11: ↑10 и ↓1+9
Комментарии3

Хранители данных: как устроена работа с DWH в Lamoda

Время на прочтение7 мин
Количество просмотров25K

Всем привет! Меня зовут Юлия Скогорева, я системный аналитик в команде Center of excellence в Lamoda, которая входит в дирекцию данных и аналитики.

Если бизнесу нужны какие-то данные для принятия важных решений, то на помощь приходит наша команда. Мы тщательно изучаем множество микросервисов, чтобы определить, какие же данные нужны для решения бизнес-целей, формируем архитектуру хранилища, пишем скрипты запросов и витрин данных, строим юниверсы, делаем отчеты и дашборды. Большая часть работы не обходится без участия команды DWH-разработки.

В статье я расскажу, как устроено хранилище данных в Lamoda, что находится на каждом его слое, с помощью каких инструментов мы визуализируем данные, сколько у нас отчетов и зачем используем APEX.

Читать далее
Всего голосов 19: ↑16 и ↓3+13
Комментарии33

Моделирование данных: обзор

Время на прочтение5 мин
Количество просмотров84K

В работе мы с коллегами часто видим как компании сталкиваются с проблемой управления данными – когда таблиц и запросов становится сильно много и управлять всем этим очень сложно. В таких ситуациях мы рекомендуем моделировать данные. Чтобы разобраться, что это такое – я перевела статью-обзор про моделирование данных от Towards Data Science, в которой кроме основных терминов и понятий можно найти наглядный пример использования моделирования данных в ритейле. Вперед под кат!

Читать далее
Всего голосов 5: ↑4 и ↓1+3
Комментарии1

Основы правил проектирования базы данных

Время на прочтение11 мин
Количество просмотров229K

Введение


Как это часто бывает, архитектору БД нужно разработать базу данных под конкретное решение.
Однажды в пятницу вечером, возвращаясь на электричке домой с работы, я подумал о том, как бы я создал сервис по найму сотрудников в разные компании. Ведь ни один из существующих сервисов не позволяет быстро понять насколько подходит тебе кандидат. Нет возможности создать сложные фильтры, включающие или исключающие совокупность определенных навыков, проектов или позиций. Максимум, что обычно предлагают сервисы — фильтры по компаниям и частично по навыкам.

В данной статье я позволю себе немного разбавить строгое изложение материала, смешав техническую информацию с не техническими примерами из жизни.

Для начала, разберем создание базы данных в MS SQL Server для сервиса поиска соискателей на работу.

Этот материал можно перенести и на другую СУБД такую как MySQL или PostgreSQL.
Читать дальше →
Всего голосов 59: ↑49 и ↓10+39
Комментарии89

К чему может привести ослабление уровня изоляции транзакций в базах данных

Время на прочтение5 мин
Количество просмотров16K
Всем привет. На связи Владислав Родин. В настоящее время я являюсь руководителем курса «Архитектор высоких нагрузок» в OTUS, а также преподаю на курсах, посвященных архитектуре ПО.

Помимо преподавания, как вы могли заметить, я занимаюсь написанием авторского материала для блога OTUS на хабре и сегодняшнюю статью хочу приурочить к запуску курса «PostgreSQL», на который прямо сейчас открыт набор.




Введение


В прошлый раз мы с вами поговорили про то, что транзакции в базах данных служат для решения двух задач: обеспечения отказоустойчивости и доступа к данным в конкурентной среде. Для полноценного выполнения этих задач транзакция должна обладать свойствами ACID. Сегодня мы подробно поговорим про букву I (isolation) в данной аббревиатуре.
Читать дальше →
Всего голосов 25: ↑23 и ↓2+21
Комментарии11

Насколько много маркетинга в ACID?

Время на прочтение4 мин
Количество просмотров5K
Всем привет. На связи Владислав Родин. В настоящее время я являюсь руководителем курса «Архитектор высоких нагрузок» в OTUS, а также преподаю на курсах, посвященных архитектуре ПО.

Помимо преподавания, как вы могли заметить, я занимаюсь написанием авторского материала для блога OTUS на хабре и сегодняшнюю статью хочу приурочить к запуску курса «Базы данных», на который прямо сейчас открыт набор.




Предисловие


Транзакции появились в 70-ых годах и были представлены в качестве инструмента базы данных, позволяющего решить проблемы отказоустойчивости и доступа к данным в конкурентной среде. Затем был сформулирован ряд свойств, которыми должна обладать транзакция для того, чтобы выполнять поставленные перед ней задачи, а заглавные буквы этих свойств, поставленные в нужном порядке, составили красивую аббревиатуру ACID.

Период времени, в течении которого происходили данные события, характеризовался отсутствием высоких нагрузок, Интернета и проблем с производительностью, для решения которых можно было обойтись лишь методами вертикального масштабирования. Впоследствии, в начале 2000-ых возник тренд на NoSQL базы данных, появилась аббревиатура BASE, которая фактически противопоставлялась классическому ACID (ACID — кислота, BASE — щелочь). Сейчас возникает обратный тренд на ACID. Даже NoSQL-ая MongoDB стала поддерживать ACID.

Давайте разберемся с тем, что означает данная аббревиатура и насколько много маркетинга в ней.
Читать дальше →
Всего голосов 17: ↑10 и ↓7+3
Комментарии8

Как выбрать свое направление в аналитике?

Уровень сложностиПростой
Время на прочтение18 мин
Количество просмотров5.1K

Аналитика – это одно из самых важных и динамично развивающихся направлений во всем мире. Все, начиная от крупных корпораций и заканчивая небольшими стартапами, стремятся извлекать ценные знания из данных для принятия взвешенных решений. Аналитика дает нам возможность внедрения в мир бесконечной информации и данных, позволяя нам лучше понимать прошлое, анализировать настоящее и прогнозировать будущее.

Читать далее
Всего голосов 15: ↑11 и ↓4+7
Комментарии6

Форматы файлов в больших данных: краткий ликбез

Время на прочтение6 мин
Количество просмотров23K

Weather Deity by Remarin

Команда Mail.ru Cloud Solutions предлагает перевод статьи инженера Рахула Бхатии из компании Clairvoyant о том, какие есть форматы файлов в больших данных, какие самые распространенные функции форматов Hadoop и какой формат лучше использовать.
Читать дальше →
Всего голосов 37: ↑36 и ↓1+35
Комментарии3

Вливаемся в Data Science: подробный roadmap что и где изучать

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров64K

Привет, Хабр!

В этой статье рассмотрим план становления начинающим дата-сайнтистом. Рассмотрим, что и где изучать, чтобы преисполниться в своём познании. А там и до оффера недалеко

Читать далее
Всего голосов 40: ↑37 и ↓3+34
Комментарии14
1
23 ...

Информация

В рейтинге
Не участвует
Откуда
Москва и Московская обл., Россия
Дата рождения
Зарегистрирована
Активность