Статьи / Закладки / Профиль andrey-de / Хабр

@andrey-de

Пользователь

Профиль Статьи Посты Новости Комментарии 4

kzzzr 11 мая 2020 в 11:24

Data Build Tool или что общего между Хранилищем Данных и Смузи

10 мин

29K

Блог компании OTUSBig Data*Data Engineering*SQL*

Технотекст 2020

Из песочницы

На каких принципах строится идеальное Хранилище Данных?

Фокус на бизнес-ценности и аналитике при отсутствии boilerplate code. Управление DWH как кодовой базой: версионирование, ревью, автоматическое тестирование и CI. Модульность, расширяемость, открытый исходный код и сообщество. Дружественная пользовательская документация и визуализация зависимостей (Data Lineage).

Обо всём этом подробнее и о роли DBT в экосистеме Big Data & Analytics — добро пожаловать под кат.

Читать дальше →

+10

Alexsaykov 13 сен 2024 в 10:15

Кто такой и чем занимается дата-инженер

Простой

8 мин

2.4K

Блог компании Яндекс ПрактикумАнализ и проектирование систем*Big Data*Карьера в IT-индустрииData Engineering*

Мнение

Хабр, привет! Меня зовут Саша Сайков, я дата-инженер в PepsiCo и старший ревьюер на курсах «Инженер данных» и «Инженер машинного обучения» в Яндекс Практикуме. Я хочу рассказать, чем занимаются дата-инженеры, в каких компаниях мы работаем и чем отличается наша работа от работы других специалистов по данным.

freetonik 20 сен 2016 в 11:37

Полное практическое руководство по Docker: с нуля до кластера на AWS

39 мин

1.7M

Веб-разработка*Amazon Web Services*

Перевод

Содержание

Вопросы и ответы
Введение
- Пре-реквизиты
- Настройка компьютера
1.0 Играем с Busybox
- 1.1 Docker Run
- 1.2 Терминология
2.0 Веб-приложения и Докер
3.0 Многоконтейнерные окружения
4.0 Заключение
- 4.1 Следующие шаги
- 4.2 Фидбек автору

Вопросы и ответы

Что такое Докер?

Определение Докера в Википедии звучит так:

программное обеспечение для автоматизации развёртывания и управления приложениями в среде виртуализации на уровне операционной системы; позволяет «упаковать» приложение со всем его окружением и зависимостями в контейнер, а также предоставляет среду по управлению контейнерами.

Ого! Как много информации.

Читать дальше →

+123

JetHabr 13 мар 2023 в 11:35

Делать Data Vault руками? НЕТ! Подходы к автоматической генерации при построении Data Vault

8 мин

4.5K

Блог компании Инфосистемы ДжетАнализ и проектирование систем*Big Data*Хранилища данных*Data Engineering*

✏️ Технотекст 2023

Привет, меня зовут Виктор Езерский, я работаю в центре управления данными «Инфосистемы Джет». Мы занимаемся построением хранилищ, Data Lake, платформ данных, ETL/EL-T и BI-систем. Последние 5–7 лет при построении хранилищ данных у наших заказчиков одна из часто встречаемых архитектур — Data Vault. Мы участвовали в доработке готовых хранилищ на базе Data Vault и делали Data Vault «с нуля».

Из опыта борьбы я вынес одно правило: Data Vault без фреймворка и автоматической генерации — большая беда. В этом посте расскажу, почему, а также поделюсь нашими подходами к созданию генератора. Сразу предупреждаю, что не дам готовых рецептов, но расскажу о наших основных подходах и что они нам дали.

Узнать всё!

+11

aspexcompany 7 фев 2022 в 09:56

Как мы делали сквозную аналитику из 1C в Power BI

7 мин

18K

1С*Microsoft Azure*PowerShell*Визуализация данных*

Из песочницы

В странах СНГ, принято создавать отчеты о деятельности компании в сводных таблицах Excel. Сказать, что это не юзабельно и не юзерфрендли для сложных отчётов – ничего не сказать.

Можно, конечно, попытаться как-то спасти положение различными графиками диаграмм, поэкспериментировать с VBA, попробовать с его помощью создать дашборд на стероидах, но надо быть готовым к тому, что графика будет начала нулевых, а сам отчёт скорее всего не будет интерактивным. Помимо этого, такие гибриды смотрятся некрасиво на мобильных устройствах и чаще всего оказываются совсем нечитабельными. Проблемой посерьёзнее является частота заполнения данных – раз в месяц, в лучшем случае. Это приводит к тому, что руководитель не может смотреть на положение бизнеса в режиме реального времени и предотвращать проблемы. Ему приходится мириться с положением дел в конце каждого месяца и решать всплывшие проблемы. Столько негатива, а ведь мы ещё даже не перешли на стадию автоматизации выгрузки данных в Excel, где и таятся все «черти» этого тихого омута.

В связи с этим, мы решили поделиться нашим опытом, чтобы помочь наибольшему количеству начинающих специалистов справиться с задачей подключения 1С к Power BI.

dmlogv 27 июл 2020 в 11:00

Apache Airflow: делаем ETL проще

25 мин

179K

Big Data*Data Engineering*Python*Хранение данных*

Туториал

Привет, я Дмитрий Логвиненко — Data Engineer отдела аналитики группы компаний «Везёт».

Я расскажу вам о замечательном инструменте для разработки ETL-процессов — Apache Airflow. Но Airflow настолько универсален и многогранен, что вам стоит присмотреться к нему даже если вы не занимаетесь потоками данных, а имеете потребность периодически запускать какие-либо процессы и следить за их выполнением.

И да, я буду не только рассказывать, но и показывать: в программе много кода, скриншотов и рекомендаций.

Что обычно видишь, когда гуглишь слово Airflow / Wikimedia Commons

Читать дальше →

+11

Ktator 1 окт 2020 в 11:32

Мой топ IT книг из прошлого века, актуальных до сих пор

5 мин

67K

Программирование*Совершенный код*Проектирование и рефакторинг*Алгоритмы*Читальный зал

В этой статье автор предложил написать свои книги, которые относятся к разряду неувядающей классики. Если в оригинальной статье был сделан упор на электронику, то у меня будет упор на разработку программ.

Disclaimer: это мой личный топ из тех книг, которые я лично прочитал, и у которых первое издание было в прошлом веке, даже если она переиздавалась недавно (при условии актуальности именно того издания, которое было в прошлом веке).

В данном топе книги не упорядочены по важности, они все очень хорошие, но есть одна книга, которая равнее других.

+67

vasenkovid 30 авг 2022 в 11:02

Что должен знать дата-инженер. Роадмап для джуниора

7 мин

42K

Блог компании Lamoda TechBig Data*Карьера в IT-индустрииHadoop*Data Engineering*

Технотекст 2022

Привет, username! Меня зовут Иван Васенков и я джуниор дата-инженер в дирекции данных и аналитики Lamoda. Но к этой профессии я пришел не сразу: окончив университет, я начал работать аналитиком данных, затем стал BI-разработчиком, а уже после этого — дата-инженером.

На моем пути были простые и сложные участки: где-то помогал опыт предыдущей работы, а где-то приходилось доучиваться практически на ходу. Именно поэтому я хочу поделиться советами из своего опыта, которые помогут начинающим специалистам быть максимально готовыми к вступлению в мир дата-инжиниринга.

+22

qlever 10 июл 2024 в 18:13

7 способов выгрузить данные из 1С для бизнес-аналитики

7 мин

14K

Big Data*Хранилища данных*1С*

При загрузке данных из 1С во внешнюю BI‑платформу обычно возникают трудности. 1C — закрытая проприетарная система, подключиться к которой напрямую и просто выгрузить данные без нарушения лицензионной политики нельзя.

Как решить эту проблему?

Рассматриваем 7 самых популярных способов извлечения данных из 1С для бизнес‑аналитики, их плюсы и минусы.

71rmn 24 авг 2017 в 13:26

Анализ работы MS SQL Server, для тех кто видит его впервые

7 мин

104K

Администрирование баз данных*

Из песочницы

Опубликовано продолжение: часть 2

Недавно столкнулся с проблемой — занедужил SVN на ubuntu server. Сам я программирую под windows и с linux “на Вы”… Погуглил по ошибке — безрезультатно. Ошибка оказалась самая типовая (сервер неожиданно закрыл соединение) и ни о чем конкретном не говорящая. Следовательно, надо погружаться глубже и анализировать логи/настройки/права/и т.п., а с этим, как раз, я “на Вы”.

В результате, конечно, разобрался и нашел всё что нужно, но время потрачено много. В очередной раз думая, как глобально (да-да, во всём мире или хотя бы на ⅙ части суши) уменьшить бесполезно потраченные часы — решил написать статью, которая поможет людям быстро сориентироваться в незнакомом программном обеспечении.

Писать я буду не про линукс — проблему хоть и решил, но профессионалом вряд ли стал. Напишу про более знакомый мне MS SQL. Благо, уже приходилось много раз отвечать на вопросы и список типовых уже готов.

Для кого пишу

Если вы админ в Сбере (или в Яндексе или <другая топ-100 компания>), вы можете сохранить статью в избранное. Да, пригодится! Когда к вам, в очередной раз, с одними и теми же вопросами придут новички — Вы дадите им ссылку на нее. Это сэкономит Ваше время.

Если без шуток, эта СУБД часто используется в небольших компаниях. Часто совместно с 1С либо другим ПО. Отдельного БД-админа таким компаниям держать затратно — надо будет выкручиваться обычному ИТ-шнику. Для таких и пишу.

Читать дальше →

+29

ExAnimo 29 фев 2024 в 16:00

Что я понял, изучив 50 книг про IT?

Простой

10 мин

36K

Блог компании Outlines TechПрофессиональная литература*Учебный процесс в IT

Мнение

✏️ Технотекст 2023

За прошедшие 3-4 года я прочитал в общей сложности более 25 000 страниц технической литературы и стал замечать, как сильно изменились подходы к выбору книг и их изучению. В этой заметке хочу поделиться наблюдениями и выводами, которые помогут читателю сэкономить время, сохранить мотивацию к чтению и выбрать действительно полезную книгу.

+29

Ingirov 26 мая 2024 в 07:25

Почему попытка принимать верные решения — это гарантированный способ разочароваться в себе и в мире

3 мин

12K

Лайфхаки для гиковМозг

Мнение

Есть очень простой и гарантированный способ разочароваться в мире. Мир начинает казаться гнусным местом, где все идет не так, усилия не вознаграждаются, ваш ум и талант никому не нужны, и вообще ничего нельзя добиться. Как получить такой эффект? Нужно всего лишь делать выбор и стараться принимать правильные решения. Звучит бредово? Но дело вот в чем.

+26

Jimiliani2 12 апр 2024 в 12:35

Топовые подходы к решению алгоритмических задач

11 мин

32K

Блог компании AvitoTechАлгоритмы*Python*

Привет! Меня зовут Дмитрий Королёв, я бэкенд-разработчик в Авито. В этой статье я расскажу про ключевые аспекты и концепции работы с наиболее популярными алгоритмами и структурами данных. Это поможет и в реальных проектах, и чтобы глубже понять алгоритмические принципы. Статья подойдёт специалистам, которые хотят углубить свои знания в программировании, и укрепить навыки нахождения оптимальных решений алгоритмических задач.

+16

Sber 14 фев 2024 в 10:00

Разговариваем с BI на естественном языке

Средний

13 мин

8.9K

Блог компании СберИскусственный интеллектМашинное обучение*SQL*

Кейс

Всем привет! Искусственный интеллект уже научился писать простые запросы к базам данных, но можно ли совсем избавиться от кода в работе аналитиков? Мы расскажем про наши нейросетевые эксперименты, в которых мы научили BI-систему слушать, понимать и отрабатывать запросы аналитиков на естественном языке.

В команде R&D SberData мы ищем и разрабатываем технологии обработки, хранения и анализа данных Сбера. Мы исследуем все перспективные технологии, которые появляются на рынке, разрабатываем новые продукты, которые использует Сбер и его партнёры. Одно из приоритетных направлений для нас — это анализ данных. В Сбере более 100 тысяч пользователей BI (Business Intelligence). Естественно, что у такого количества аналитиков самые разные потребности и требования к сервису и продукту. И возможность сделать их работу проще и удобнее — это большой вызов и интересная задача для нашей команды. В этот раз мы пробовали научить LLM-модель написать правильный SQL-код по запросу на естественном языке.

+23

avshkol 15 авг 2022 в 22:01

Все, что вам нужно знать об Airflow DAGs, ч.2 — Операторы и Датчики

15 мин

36K

Data Engineering*Хранилища данных*Apache*PostgreSQL*Python*

Туториал

Перевод

Операторы являются основными строительными блоками DAG Airflow. Это классы, которые содержат логику выполнения единичной работы.

Вы можете использовать операторы в Airflow, создав их экземпляры в задачах. Задача определяет работу, выполняемую оператором в контексте DAG.

Чтобы просмотреть и выполнить поиск по всем доступным операторам в Airflow, посетите Astronomer Registry. Ниже приведены примеры операторов, которые часто используются в проектах Airflow.

avshkol 15 авг 2022 в 01:06

Все, что вам нужно знать об Airflow DAGs, ч.1 — Основы и расписания

20 мин

93K

Python*PostgreSQL*Apache*Хранилища данных*Data Engineering*

Туториал

Перевод

Полное руководство по созданию DAG в Apache Airflow DAG, позволяющих создать конвейер данных из разных источников, запускаемый в определенные периоды времени с заданной логикой. Первая часть. Источник: DAGs: The Definitive Guide от astronomer.io

Добро пожаловать в полное руководство по Apache Airflow DAG, представленное командой Astronomer. Эта электронная книга охватывает все, что вам нужно знать для работы с DAG, от строительных блоков, из которых они состоят, до рекомендаций по их написанию, динамической генерации, тестированию, отладке и многому другому. Это руководство, написанное практикующими для практикующих.

dolovar 7 фев 2019 в 22:09

Прогулка по заводу желаний

36 мин

32K

GTD*Мозг

Откуда приходят и куда исчезают желания?

Иногда трудно заставить себя делать что-то нужное: мыть посуду, делать зарядку, работу работать… В интернете есть много статей с рецептами преодоления нежелания, и каждый день добавляются новые. Я вижу во многих статьях одну и ту же проблему.

Взять, например, дерево — почему оно не цветет? Или дождей давно не было, или тень от других деревьев закрыла свет, или соль в почву попала, или вредные насекомые завелись, или дерево слишком молодое, или зима наступила, или это нарисованное дерево — можно придумать много очень разных причин. От причины зависит выбор действия, которое поможет увидеть цветущее дерево.

Взять, например, не дерево, а танк — почему он не заводится? Или водитель плохо обучен, или механик пошутил, или диверсант слил горючее, или денег не хватает на ремонт, или генерал приказал ждать команды, или танк утонул, или еще не сошел со сборочного конвейера — причины могут быть очень разные. От причины зависит выбор действия, которое поможет завести танк.

Ближе к теме — почему иногда трудно заставить себя работать? Заглядываем в интернет, и сразу получаем решения — надо закрыть соцсети, разбить задачу на мелкие шаги и хвалить себя.

Или еще проще — проблемы нет, у вас воля слабая, отговорки ищете, возьми и сделай (just do it).

Позвольте усложнить.

Читать дальше →

+25

Anna_sila 21 ноя 2023 в 19:53

Эксперимент: сделать Telegram канал и зарабатывать на рекламе больше 500 тысяч в месяц

8 мин

141K

Интернет-маркетинг*Бизнес-модели*Социальные сети и сообщества

Из песочницы

Привет! Меня зовут Аня!
Хабр я читаю уже давно, решила что теперь и у меня есть интересный материал, чтобы с вами поделиться :)

В начале 2023 года начала заниматься Telegram каналами и за 10 месяцев я создала 6 каналов в Telegram, на которые подписано уже более 70 000 подписчиков.

До Telegram я занималась парсингом данных сайтов на VB, созданием сайтов (wordpress, tilda) и бизнес-презентациями. Был даже свой собственный интернет-магазин детских товаров 2 года (опыт был неудачным, тогда еще нельзя было продавать через маркетплейсы ))

Я расскажу вам о своем опыте создания и монетизации Telegram-каналов, об ошибках, которые я допустила в начале своего пути, и постараюсь сформулировать основные принципы и возможности заработка в этой сфере (кстати считаю, что IT -тематика одна из самых перспективных сегодня для создания телеграм-канала)

-71

onokonem 2 окт 2020 в 15:05

Коллеги, вы меня огорчаете

12 мин

191K

Блог компании Конференции Олега Бунина (Онтико)Go*Управление персоналом*

В июле и августе 2020 года я, с подачи Григория Петрова, проводил для компании Evrone технические интервью на позицию Senior Golang Backend developer. И, видимо, буду вынужден продолжать проводить, о чём ниже.

Задача формулировалась как «найти человека, который сможет задать и поддерживать высокий уровень профессионализма в применении языка Go». То есть, сформулирована она была по-человечески, перевод на канцелярит — мой. Под эту задачу я сформировал новый опросник вместо того, которым пользовался несколько лет — старый был с жестким закосом под DevOps. Методику, которой я пользуюсь для создания опросников и количественной оценки соответствия кандидатов, я излагал в своем докладе «Техническое интервью как инженерная задача» на конференции Saint TeamLead 2019.

И вот что я хочу сказать вам, коллеги: вы меня огорчаете.

Читать дальше →

+93

1153

Tzimie 26 мар 2023 в 19:45

Дефрагментация таблиц в высоко нагруженных базах данных (MSSQL)

Средний

6 мин

11K

Microsoft SQL Server*Серверная оптимизация*SQL*Высокая производительность*

Кейс

Хорошо, если у вас небольшие (сотни гигабайт) базы, а ночью или в выходные вы можете себе позволить иметь 'maintenance window' и дефрагментировать таблицы. А если нет? В любом случае дефрагментация многих терабайт может занять дни, так что существование maintenance window становится непринципиальным.

Case study: многие терабайты данных, деятельность связанная с процессингом карт (24/7, maintenance window нет в принципе), MSSQL. Разумеется, Enterprise Edition, разумеется AlwaysOn.

Миф: у нас SSD, поэтому дефрагментация нам не нужна. Еще как нужна! Часто в высоко нагруженных системах не делают дефрагментацию, потому что это сложно. В итоге процент фрагментации выходит на уровень почти 100%, и таблицы занимают в два раза больше страниц, чем нужно. В два раза больше места - это в два раза хуже Buffer Cache Hits Ratio. Это в два раза больше размер full backups. Это в два раза дольше full table scans. Это выше CPU (потому что страницы перемещаются с помощью процессора, а не сами по себе).

2 3 4 5