Статьи / Закладки / Профиль av-isakova / Хабр

Анастасия Исакова @av-isakova^{read⁠-⁠only}

Пользователь

Профиль Закладки 136

anna_ovzyak 22 окт 2022 в 23:51

Брось себе вызов ‒ сможешь ли стать системным аналитиком?

Простой

3 мин

5.7K

Я пиарюсь

Обзор

Системный аналитик превращает хаос в красивые решения и наводит порядок. Эта роль ‒ связующее звено между заказчиком и программистом, аналитик переводит с бизнесового на технический язык. Профессия сложная, но интересная и перспективная, поэтому если хочешь перейти в ИТ, обратите внимание на эту профессию.

В школе оценивают ваши знания с помощью ЕГЭ или экзаменов для поступления в ВУЗ на конкретную специальность. Предлагаю проверить знания по системному анализу в тесте «Готов ли я стать системным аналитиком». После прохождения вы узнаете насколько велики ваши шансы стать системным аналитиком или нужно уделить внимание подготовке. Если тест покажет, что необходимо еще набраться знаний, то приходите на курс «Системный аналитик с нуля», чтобы сэкономить время на поиске материала в интернете (прим. информация в статье и тестирование ‒ это мое личное мнение, которое может не совпадать с мнением читателя).

С помощью теста вы пройдете самопроверку перед собеседованием.

Хочу узнать результат

IgorMats 11 янв 2011 в 19:38

Модели жизненного цикла программного обеспечения

3 мин

479K

Веб-разработка*

Из песочницы

Здравствуйте, уважаемые хабровчане! Думаю будет кому-то интересно вспомнить какие модели разработки, внедрения и использования программного обеспечения существовали ранее, какие модели в основном используются сейчас, зачем и что это собственно такое. В этом и будет заключаться моя небольшая тема.

Читать дальше →

+14

Extremesarova 21 фев в 16:33

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 1: Live Coding

Средний

14 мин

16K

Python*SQL*Блог компании МегаФонАлгоритмы*Big Data*

Роадмэп

Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).

В данной статье разберемся что такое live coding интервью и как к нему готовиться.

Материал в первую очередь будет полезен Data Scientist'ам и ML инженерам, при этом некоторые разделы, например, Алгоритмы и структуры данных подойдут всем IT специалистам, которым предстоит пройти секцию live coding.

Comedian 21 фев 2018 в 01:44

Введение в Data Vault

6 мин

120K

Анализ и проектирование систем*Хранилища данных*

Большинство компаний сегодня накапливают различные данные, полученные в процессе работы. Часто данные приходят из различных источников — структурированные и не очень, иногда в режиме реального времени, а иногда они доступны в строго определенные периоды. Все это разнообразие нужно структурированно хранить, чтоб потом успешно анализировать, рисовать красивые отчеты и вовремя замечать аномалии. Для этих целей проектируется хранилище данных (Data Warehouse, DWH).

Существует несколько подходов к построению такого универсального хранилища, которые помогают архитектору избежать распространенных проблем, а самое главное обеспечить должный уровень гибкости и расширяемости DWH. Об одном из таких подходов я и хочу рассказать.

Кому будет интересна эта статья?

Ищете более функциональную альтернативу схеме «звезды» и Третьей Нормальной Форме?
У Вас уже есть хранилище данных, но его тяжело дорабатывать?
Нужна хорошая поддержка историчности, а текущая архитектура для этого не подходит?
Возникают проблемы при сборе данных из нескольких источников?

Если на какой-либо из этих вопросов Вы ответили утвердительно, и при этом не знакомы с Data Vault — прошу заглянуть под кат!

Читать дальше →

kzzzr 11 мая 2020 в 11:24

Data Build Tool или что общего между Хранилищем Данных и Смузи

10 мин

23K

SQL*Big Data*Блог компании OTUSData Engineering*

Технотекст 2020

Из песочницы

На каких принципах строится идеальное Хранилище Данных?

Фокус на бизнес-ценности и аналитике при отсутствии boilerplate code. Управление DWH как кодовой базой: версионирование, ревью, автоматическое тестирование и CI. Модульность, расширяемость, открытый исходный код и сообщество. Дружественная пользовательская документация и визуализация зависимостей (Data Lineage).

Обо всём этом подробнее и о роли DBT в экосистеме Big Data & Analytics — добро пожаловать под кат.

Читать дальше →

+10

smira 12 авг 2008 в 08:18

Индексы и селективность (PostgreSQL)

1 мин

25K

Чулан

Индекс по полю в БД потенциально может ускорить SELECT операцию с условием по данному полю, может ускорить запрос вида: ORDER BY поле LIMIT 20, но индекс существенно замедляет операции изменения таблицы и т.п.

Когда нужен индекс, когда он поможет и будет использован при SELECTах? Всё зависит от селективности индекса, т.е. от кол-ва строк, которые мы получим если зададим условие:

проиндексированное_поле = значение

Отличный кандидат для индексирования — селективность 1, т.е. уникальный индекс (например, id), когда по указанному значению мы найдем максимум одну запись.

Рассмотрим в качестве примера таблицу пользователей с полями информации о регионе: страна (country_id) и город (city_id). Хорошо, когда селективность составляет < 5% (например, поле city_id у пользователя). При этом PostgreSQL умён, он считает не селективность “вообще” по полю, а селективность в виде гистограммы по отдельным значениям поля. Т.е. если мы задаем условие вида

страна = Россия

то получим 10% записей из БД, а если условие

страна = Уругвай

то получим 2 записи, и это PostgreSQL понимает. (Конечно, здесь мы предлполагаем, что пользователей из Уругвая на нашем сервере гораздо меньше, чем пользователей из России).

Так вот, если селективность плохая (получаем много записей), PostgreSQL предпочтёт выполнить полное сканирование БД, не используя индекс. И такой индекс только мешает.

P.S. Кросс-пост из моего блога

TatianaSezemina 30 янв в 14:29

Горизонтальные связи и ролевая модель большой команды

Простой

12 мин

5.6K

Блог компании Конференции Олега Бунина (Онтико)Управление разработкой*Управление проектами*Agile*Блог компании Холдинг Т1

Туториал

Когда коллега уходит в отпуск или увольняется — работа часто буксует или останавливается даже в большой команде. Происходит это, так как внезапно выясняется, что ушедший был «узким местом» или «критичным звеном».

Мне удалось снизить влияние этих «узких мест» и «критичных звеньев» за счёт налаживания горизонтальных связей, построения ролевой модели большой команды и ещё нескольких приёмов.

Меня зовут Татьяна Сеземина, я директор по управлению проектами Холдинга Т1.

Я вырастила команду с 40 до более чем 150 человек и не потеряла управляемости.

Сейчас расскажу, как мне удалось этого добиться.

+12

krasni 30 окт 2020 в 02:41

«Ох уж эти сказки! Ох уж эти сказочники!». Исполняемые процессы (по мотивам «Белки»). Часть 1

5 мин

4.7K

Анализ и проектирование систем*Учебный процесс в ITВизуальное программирование*

Использован кадр из мультфильма «Падал прошлогодний снег…». Шедевр! Между прочим, рейтинг на «Кинопоиске» почти 9!

Больше года назад я опубликовала на хабре статьи «Один день из жизни белки» или от моделирования процессов к проектированию автоматизированной системы учёта материальных ценностей «Белка-1.0» (часть 1 и часть 2) об использовании «сказочного» подхода при обучении нотации UML.

Попробуем «разложить» всё те же бессмертные строчки на исполняемые процессы BPMN.
Итак, автоматизируем процессы учёта материальных ценностей — проект «Белка-2.0.BPMN»
Напомню, чтобы не переключаться на хабре на предыдущую статью или не искать строчки в «Сказке о царе Салтане…» (хотя, если появилось желание перечитать что-то из произведений Александра Сергеевича, не сдерживайте себя! Пушкин – и правда – наше ВСЁ!)

Читать дальше →

+10

ramil_trinion 14 дек 2015 в 03:08

Bizagi. Описание. Пример

9 мин

96K

Анализ и проектирование систем*IT-стандарты*Блог компании Тринион

Туториал

Эту статью я написал в продолжение статьи о BPM-системах. И здесь я хочу рассказать о принципах работы BPMS на примере конкретной системы — Bizagi. Я постараюсь пояснить, как происходит процесс моделирования, разработки и исполнения бизнес-процесса в этой системе на практическом примере.

Bizagi: Model. Build. Run

Читать дальше →

baltachev 20 ноя 2022 в 16:48

Что я бы хотел знать про ML System Design раньше

6 мин

17K

Машинное обучение*Карьера в IT-индустрииБлог компании Open Data Science

Около года назад я начал проходить собеседования в разные компании на позицию Machine Learning Engineer. Одним из этапов в каждой компании было проектирование ML системы. В данной статье я делюсь опытом и ресурсами, которые помогли мне пройти собеседования. В том числе в команду MLE Ленты, в которой сейчас тружусь.

+10

tomleto 7 дек 2021 в 10:33

Создаем аналитическое хранилище данных командой из 2-3 спецов

9 мин

19K

Big Data*Хранилища данных*Data Engineering*

Всем привет!
Сделать хорошее аналитическое хранилище (DWH), когда в команде десяток-другой крутых специалистов и пара лет времени — не сложно. Проекты по созданию DWH, Data Lake и BI обычно очень ресурсоёмки и под силу только большим компаниям.
Мне интересно искать и применять практики, которые позволяют компаниям быстро создавать аналитические решения маленькой командой. Этими наработками хочу поделиться в данной статье.
Статья нацелена на:

Небольшие команды в начале пути.
Создание решений с быстрым возвратом инвестиций.

Коротко о моём DWH опыте (чтобы понимать ограничения моего мышления):

Реализовывал три похожих не очень больших проекта по созданию DWH: 5-15 терабайт, 100+ сущностей, в команде 2-4 специалиста, в качестве источника — одна основная база продукта (сервиса) и несколько дополнительных.
Участвовал в супер большом проекте DWH: 1+ Петабайт (прирост 1 терабайт в день), 2000+ сущностей, в команде 100+ специалистов. В этой компании жадно изучал Data Vault 2, исходники DWH движка, бизнес-процессы, которые масштабируются на сотни специалистов, правила описания DWH в вики и методы постановки задач.
В продакшн работал только с batch процессами, со stream знаком только по обучающим курсам и книгам.

Ценность для бизнеса

Цепочка создания ценности в процессе работы с данными (источник):

Читать дальше →

+15

spaceproof 16 дек 2015 в 10:04

7 ошибок ETL-разработчика

11 мин

60K

Oracle*SQL*

Проекты хранилищ данных уже давно являются частью IT-инфраструктуры большинства крупных предприятий. Процессы ETL являются частью этих проектов, однако разработчики иногда совершают одни и те же ошибки при проектировании и сопровождении этих процессов. Некоторые из этих ошибок описаны в этом посте.

Читать дальше →

juliaskogoreva 10 янв 2022 в 12:36

Хранители данных: как устроена работа с DWH в Lamoda

7 мин

25K

Oracle*IT-инфраструктура*Хранение данных*Хранилища данных*Блог компании Lamoda Tech

Технотекст 2021

Всем привет! Меня зовут Юлия Скогорева, я системный аналитик в команде Center of excellence в Lamoda, которая входит в дирекцию данных и аналитики.

Если бизнесу нужны какие-то данные для принятия важных решений, то на помощь приходит наша команда. Мы тщательно изучаем множество микросервисов, чтобы определить, какие же данные нужны для решения бизнес-целей, формируем архитектуру хранилища, пишем скрипты запросов и витрин данных, строим юниверсы, делаем отчеты и дашборды. Большая часть работы не обходится без участия команды DWH-разработки.

В статье я расскажу, как устроено хранилище данных в Lamoda, что находится на каждом его слое, с помощью каких инструментов мы визуализируем данные, сколько у нас отчетов и зачем используем APEX.

+13

brgr 11 мая 2021 в 15:46

Моделирование данных: обзор

5 мин

84K

Веб-аналитика*Интернет-маркетинг*

Перевод

В работе мы с коллегами часто видим как компании сталкиваются с проблемой управления данными – когда таблиц и запросов становится сильно много и управлять всем этим очень сложно. В таких ситуациях мы рекомендуем моделировать данные. Чтобы разобраться, что это такое – я перевела статью-обзор про моделирование данных от Towards Data Science, в которой кроме основных терминов и понятий можно найти наглядный пример использования моделирования данных в ритейле. Вперед под кат!

jobgemws 16 авг 2020 в 11:19

Основы правил проектирования базы данных

11 мин

229K

Анализ и проектирование систем*SQL*Проектирование и рефакторинг*Microsoft SQL Server*Администрирование баз данных*

Туториал

Технотекст 2020

Введение

Как это часто бывает, архитектору БД нужно разработать базу данных под конкретное решение.
Однажды в пятницу вечером, возвращаясь на электричке домой с работы, я подумал о том, как бы я создал сервис по найму сотрудников в разные компании. Ведь ни один из существующих сервисов не позволяет быстро понять насколько подходит тебе кандидат. Нет возможности создать сложные фильтры, включающие или исключающие совокупность определенных навыков, проектов или позиций. Максимум, что обычно предлагают сервисы — фильтры по компаниям и частично по навыкам.

В данной статье я позволю себе немного разбавить строгое изложение материала, смешав техническую информацию с не техническими примерами из жизни.

Для начала, разберем создание базы данных в MS SQL Server для сервиса поиска соискателей на работу.

Этот материал можно перенести и на другую СУБД такую как MySQL или PostgreSQL.

Читать дальше →

+39

rodinvv 12 мая 2020 в 19:24

К чему может привести ослабление уровня изоляции транзакций в базах данных

5 мин

16K

Высокая производительность*Анализ и проектирование систем*Администрирование баз данных*Промышленное программирование*Блог компании OTUS

Всем привет. На связи Владислав Родин. В настоящее время я являюсь руководителем курса «Архитектор высоких нагрузок» в OTUS, а также преподаю на курсах, посвященных архитектуре ПО.

Помимо преподавания, как вы могли заметить, я занимаюсь написанием авторского материала для блога OTUS на хабре и сегодняшнюю статью хочу приурочить к запуску курса «PostgreSQL», на который прямо сейчас открыт набор.

Введение

В прошлый раз мы с вами поговорили про то, что транзакции в базах данных служат для решения двух задач: обеспечения отказоустойчивости и доступа к данным в конкурентной среде. Для полноценного выполнения этих задач транзакция должна обладать свойствами ACID. Сегодня мы подробно поговорим про букву I (isolation) в данной аббревиатуре.

Читать дальше →

+21

rodinvv 7 апр 2020 в 16:21

Насколько много маркетинга в ACID?

4 мин

Всем привет. На связи Владислав Родин. В настоящее время я являюсь руководителем курса «Архитектор высоких нагрузок» в OTUS, а также преподаю на курсах, посвященных архитектуре ПО.

Помимо преподавания, как вы могли заметить, я занимаюсь написанием авторского материала для блога OTUS на хабре и сегодняшнюю статью хочу приурочить к запуску курса «Базы данных», на который прямо сейчас открыт набор.

Предисловие

Транзакции появились в 70-ых годах и были представлены в качестве инструмента базы данных, позволяющего решить проблемы отказоустойчивости и доступа к данным в конкурентной среде. Затем был сформулирован ряд свойств, которыми должна обладать транзакция для того, чтобы выполнять поставленные перед ней задачи, а заглавные буквы этих свойств, поставленные в нужном порядке, составили красивую аббревиатуру ACID.

Период времени, в течении которого происходили данные события, характеризовался отсутствием высоких нагрузок, Интернета и проблем с производительностью, для решения которых можно было обойтись лишь методами вертикального масштабирования. Впоследствии, в начале 2000-ых возник тренд на NoSQL базы данных, появилась аббревиатура BASE, которая фактически противопоставлялась классическому ACID (ACID — кислота, BASE — щелочь). Сейчас возникает обратный тренд на ACID. Даже NoSQL-ая MongoDB стала поддерживать ACID.

Давайте разберемся с тем, что означает данная аббревиатура и насколько много маркетинга в ней.

Читать дальше →

MaxRokatansky 6 окт 2023 в 15:51

Как выбрать свое направление в аналитике?

Простой

18 мин

5.1K

Визуализация данных*Карьера в IT-индустрииБлог компании OTUS

Роадмэп

Аналитика – это одно из самых важных и динамично развивающихся направлений во всем мире. Все, начиная от крупных корпораций и заканчивая небольшими стартапами, стремятся извлекать ценные знания из данных для принятия взвешенных решений. Аналитика дает нам возможность внедрения в мир бесконечной информации и данных, позволяя нам лучше понимать прошлое, анализировать настоящее и прогнозировать будущее.

pxeno 5 июн 2020 в 11:03

Форматы файлов в больших данных: краткий ликбез

6 мин

23K

Блог компании VKАлгоритмы*Хранение данных*Hadoop*

Перевод

Weather Deity by Remarin

Команда Mail.ru Cloud Solutions предлагает перевод статьи инженера Рахула Бхатии из компании Clairvoyant о том, какие есть форматы файлов в больших данных, какие самые распространенные функции форматов Hadoop и какой формат лучше использовать.

Читать дальше →

+35

evaclick 8 янв в 20:44

Вливаемся в Data Science: подробный roadmap что и где изучать

Простой

10 мин

64K

Python*SQL*Математика*R*Визуализация данных*

Привет, Хабр!

В этой статье рассмотрим план становления начинающим дата-сайнтистом. Рассмотрим, что и где изучать, чтобы преисполниться в своём познании. А там и до оффера недалеко

+34

2 3 ...

6 7