Articles / Bookmarks / Profile of ABIDB / Habr

Владимир @ABIDB

Создание и поддержка BI решений

ProfileArticles1PostsNewsComments7

alexgreendev Feb 28 at 07:09

Как пройти алгоритмическое собеседование: полный гид по алгоритмам, сложностям и стратегиям

31 min

43K

Programming*Algorithms*IT careerStudying in IT

Roadmap

✏️ Technotext 7

Не тратьте время на задачи – сначала разберитесь в основах. В статье:

1. Как проходят собеседования (ВАЖНО!)
2. Big O, оценка сложности алгоритмов
3. Популярные техники: два указателя, DFS, динамическое программирование и другие
4. Какие задачи решать, чтобы пройти в Яндекс

Читаем, практикуемся, получаем оффер!

+33

gen1lee Feb 26 at 10:35

ООП: худшее, что случалось с программированием

Hard

20 min

106K

Programming*Java*Website development*Perfect code*Development of mobile applications*

Opinion

Translation

В этой статье попробуем разобраться, почему ООП — худшее, что было придумано в программировании, как оно стало таким популярным, почему опытные программисты Java (C#, C++ и т.п.) в принципе не могут считаться крутыми инженерами, а код на Java - хорошим.

+56

1123

istarun Feb 21 at 05:59

Миллиарды векторов и немного магии: превращаем сырые данные с маркетплейсов в пригодные для анализа

Easy

9 min

5.6K

MPSTATS corporate blogBig Data*Machine learning*Artificial IntelligenceImage processing*

Case

Привет, Хабр! Я — Игорь Старун, BigData Lead в MPSTATS. Я уже 3 года занимаюсь анализом данных на маркетплейсах, штудируя гигантские объёмы информации и превращая их из непотребного и нечитаемого вида в удобоваримый и анализируемый. Моя задача — собрать и подготовить данные так, чтобы помочь продавцам на маркетплейсах разобраться, что происходит с их товарами, конкурентами и продажами, чтобы они не утонули в хаосе карточек, цен и остатков. В этой статье я расскажу, как мы перерабатываем эти объемы грязных данных и структурируем для дальнейшего анализа.

Данные о товарах – это основа всего. Каждую неделю мы обходим более 200 миллионов карточек с Wildberries и Ozon. Названия, описания, характеристики, фотографии — всё это мы аккуратно собираем и складываем в базы данных (для разных задач мы используем ClickHouse, Postgres, MySQL и MongoDB) и облачные хранилища. Зачем? Чтобы потом сделать с этим что-то умное и полезное.

+24

By-Lazarev Feb 12 at 16:16

Прежде чем выбирать язык программирования, необходимо изучить SQL

Easy

10 min

24K

Programming*SQL*

From sandbox

Если вы только выбираете язык программирования или уже программируете, но не уверены в своём выборе — эта статья для вас. Мы рассмотрим, какие бывают виды языков программирования, почему данные — это основа любой программы, как эти данные хранятся и как с ними работать. В конце статьи я приведу 5 бесплатных ресурсов, которые сам использовал для изучения SQL.

В этой статье отвечу на три вопроса: какие существуют виды языков программирования; почему нужно сначала изучить SQL; как учить SQL бесплатно.

-18

k0rsakov Jul 19 2024 at 05:00

Всё что нужно знать про DuckDB

Easy

11 min

19K

SQL*Big Data*Data storage*Data Engineering*

Tutorial

В статье рассказано, как вам может помочь утка при работе с данными, с OLAP-нагрузкой и как она может плавать в вашем Data Lake. Вы узнаете всё самое важное про DuckDB и сможете попрактиковаться в работе с DuckDB.

+17

activeplum Feb 7 at 10:15

Майнинг отопление загородного дома. Криптокотел. Опыт использования

Medium

7 min

29K

Business Models*Smart HouseCryptocurrenciesSystems engineering*

Case

Как я превратил майнинг в источник тепла: котел, который зарабатывает деньги

Все началось с обычного увлечения майнингом, но постепенно это хобби превратилось в настоящий образ жизни. Сначала были видеокарты, потом асики, масштабирование фермы и, наконец, идея построить дом, который будет не только куплен на доход от крипты, но и отапливаться ею.

Казалось бы, отопление за счет майнинга – звучит как фантастика. Но после долгих расчетов, тестов и внедрения системы криптоотопления я убедился, что это реально. Теперь асики не просто добывают биткоины, но и согревают мой дом, зарабатывая сотни тысяч рублей в год.

Как это работает? Какие были сложности? И главное – насколько выгодно такое решение? В этом материале я расскажу всю историю своего пути – от первых видеокарт до криптокотла, который греет мой дом и кошелек.

+11

evgenii111 Feb 8 at 12:30

Поднимаем потоковый сервис Kafka на Python

Medium

10 min

7.8K

DevOps*Python*Data Engineering*IT Infrastructure*Programming*

Tutorial

Recovery Mode

Всем привет, меня зовут Евгений Мунин. Я Senior ML Engineer в Ad Tech в платформе ставок для рекламы. В этой статье мы познакомимся с Apache Kafka. Мы напишем демо пример Kafka Consumer'а на Python и запустим его в облачном сервисе Confluent Cloud.

TatianaSezemina Jan 28 at 09:01

Дорожная карта миграции большого хранилища данных

Medium

11 min

2.5K

Холдинг Т1 corporate blogКонференции Олега Бунина (Онтико) corporate blogProject management*Data storage*

Tutorial

Недавно решали на работе задачу миграции хранилища данных. Оно у нас одно из крупнейших в отрасли, по крайней мере, в нашей стране. Оказалось, что даже на этапе планирования всё не так просто, как кажется. Делюсь проблемами, их решениями и получившейся дорожной картой.

Привет, Хабр! Меня зовут Татьяна Сеземина. Я — директор портфеля проектов Т1 ИИ и руковожу проектами разработки и миграции больших хранилищ данных, сейчас мои проекты касаются отраслей ритейла и логистики. Каждый проект миграции длится от года до нескольких лет. Одна из моих команд столкнулась с необходимостью детального планирования длительной многолетней миграции хранилища, вплоть до каждого объекта. Расскажу, почему так произошло и как такую проблему решать.

danolivo Jan 1 at 14:00

Оптимизация запросов SQL Server V/S PostgreSQL: есть куда расти?

Hard

15 min

Postgres Professional corporate blogPostgreSQL*

Case

Translation

Выбор SQL-запроса в реляционной СУБД в основном определяется пространством поиска возможных планов и техниками поиска плана в этом пространстве. У каждой СУБД оба этих фактора имеют свои особенности, что объясняет, почему иногда при миграции с одной СУБД на другую можно наблюдать как ускорения, так и провалы во времени выполнения отдельных запросов.

Здесь я привожу четыре случая, когда SQL Server позволяет строить планы запросов значительно более оптимальные, нежели это доступно PostgreSQL используя как более широкое пространство возможных планов, так и более совершенные методы оценок эффективности планов. Эти примеры: использование тредов, расширенная статистика, кэширование промежуточных результатов запроса и внутренняя параметризация. Примеры независимы и все кроме первого содержат скрипт воспроизведения - можно сразу листать на ту часть, которая выглядит интереснее.

Полагаю, знание о таких кейсах может быть полезным. Как минимум уменьшит количество стресса при миграции на PostgreSQL и возможно заинтересует кого-то настолько, чтобы начать свой проект в open-source сообществе разработчиков СУБД.

+36

HireHack Jul 18 2024 at 13:15

«Меня увольняют» или манипуляции HR и менеджеров, чтобы вынудить вас уволиться одним днём. На примере Рольфа

Easy

7 min

41K

Personnel Management*Legislation in ITIT career

Opinion

Вкратце, для тех, кто ещё не слышал о новом скандале на IT рынке: Крупнейший автомобильный дилер «‎Рольф» увольняет айтишников без компенсаций.

В профсоюз обратились несколько сотрудников из компании и описали происходящее: +- 50 человек решили уволить потому что для них нет работы. Сотрудников по одному вызывали в кабинет где сидели 4 коллеги и рассказывали им о жизни, понятиях и отношениях: «ну мы же как семья». Всё ради того, чтобы получить подпись в соглашении о расторжения трудового договора одним днём. Без каких либо выплат. Спойлер — почти все сотрудники повелись на манипуляции и их уже уволили.

И что там дальше?

+195

199

AlexTheOwl Aug 20 2020 at 10:23

Обзор гибких методологий проектирования DWH

15 min

79K

GlowByte corporate blogData storage*

Разработка хранилища — дело долгое и серьезное.

Многое в жизни проекта зависит от того, насколько хорошо продумана объектная модель и структура базы на старте.

Общепринятым подходом были и остаются различные варианты сочетания схемы “звезда” с третьей нормальной формой. Как правило, по принципу: исходные данные — 3NF, витрины — звезда. Этот подход, проверенный временем и подкрепленный большим количеством исследований — первое (а иногда и единственное), что приходит в голову опытному DWH-шнику при мысли о том, как должно выглядеть аналитическое хранилище.

С другой стороны — бизнесу в целом и требованиям заказчика в частности свойственно быстро меняться, а данным — расти как “вглубь”, так и “вширь”. И вот тут проявляется основной недостаток звезды — ограниченная гибкость.

И если в вашей тихой и уютной жизни DWH-разработчика внезапно:

возникла задача “сделать быстро хоть что-то, а потом посмотрим”;
появился бурно развивающийся проект, с подключением новых источников и переделкой бизнес-модели минимум раз в неделю;
появился заказчик, который не представляет как система должна выглядеть и какие функции выполнять в конечном итоге, но готов к экспериментам и последовательному уточнению желаемого результата с последовательным же приближением к нему;
заглянул менеджер проектов с радостной вестью: “А теперь у нас аджайл!”.

Или если вам просто интересно узнать как еще можно строить хранилища — вэлкам под кат!

Читать дальше →

+17

Ejhi Oct 11 2021 at 18:42

ETL-пайплайны на Airflow: Хороший, Плохой, Злой

8 min

18K

Open source*Python*Data Engineering*Data storage*

Translation

Airflow это популярная опенсорсная платформа управления задачами. В частности его используют для построения ETL-пайплайнов. Например, мне доводилось переливать данные между базами данных, хранилищами и озерами данных с его помощью. А также я использовал его для препроцессинга данных для моделей машинного обучения. Но так ли подходит Airflow для ETL на сегодняшний день?

В этой статье мы рассмотрим как с помощью Airflow ETL операторов выгрузить данные из Postgres в BigQuery в парадигмах ETL и ELT. Далее разберем сложности, с которыми вы можете столкнуться при реализации инкрементальной загрузки данных в DAG (DAG - directed acyclic graph, ориентированный ацикличный граф - цепочка связанных задач). Наконец, мы обсудим почему Airflow ETL операторы не смогут покрыть все ваши потребности в интеграциях в дальней перспективе.

VladimirVerstov Jun 23 2021 at 10:06

Разработка платформы управления данными. Доклад Яндекса

25 min

11K

Яндекс corporate blogPython*Database Administration*Data storage*

Яндекс Go разрабатывает платформу управления данными (DMP) как сервис для офлайн- и near real-time-обработки данных. Я постарался рассказать, какая мотивация нужна для создания собственного ETL-инструмента, как ETL и Data Warehouse превратить в DMP, какие проблемы возникают в процессе разработки и как мы их решаем.

— Меня зовут Владимир Верстов, я руковожу разработкой DMP в Яндекс Go — той частью, которая относится к платформе. Не контентной частью, а универсальными инструментами, которые мы переиспользуем, чтобы удобным образом выстроить внутри Такси, Еды и Лавки потоки данных и другие процессы, связанные с дата-инжинирингом. Чтобы сделать сущность, позволяющую дата-инженерам, аналитикам и разработчикам бэкенда коммуницировать на уровне данных и процессов.

Начать рассказ проще всего с вопроса, что вообще такое DMP, потому что каждый под этим может понимать что-то свое: нет устоявшихся паттернов. Расскажу, как мы вообще пришли к текущему состоянию, покажу несколько примеров использования нашей платформы для Greenplum, для Spark, и постараюсь успеть подвести итоги.

Читать дальше →

iJKos May 26 2021 at 08:47

Как мы внедрили свою модель хранения данных — highly Normalized hybrid Model. Доклад Яндекса

27 min

38K

Яндекс corporate blogDatabase Administration*Data storage*

Общепринятый и проверенный временем подход к построению Data Warehouse (DWH) — это схема «Звезда» или «Снежинка». Такой подход каноничен, фундаментален, вотрфоллен и совсем не отвечает той гибкости, к которой призывает Agile. Чтобы сделать структуру DWH гибкой, существуют современные подходы к проектированию: Data Vault и Anchor modeling — похожие и разные одновременно. Задавшись вопросом, какую из двух методологий выбрать, мы в Яндекс Go пришли к неожиданному ответу: выбирать надо не между подходами, а лучшее из двух подходов.

Темы доклада, который вместе со мной прочитал Николай Гребенщиков:
— DV и AM: в чем разница и где точки соприкосновения
— Гибридный подход к построению хранилища
— Сильные и слабые стороны этого подхода
— Примеры кода
— Дальнейший вектор развития hNhM

— Меня зовут Евгений Ермаков, я руководитель Data Warehouse в Яндекс Go.

Читать дальше →

+25

vladislav_shevchenko Apr 17 2024 at 13:57

SPARK для «малышей»

Easy

14 min

19K

Альфа-Банк corporate blogHadoop*Data Engineering*

Tutorial

Примеры кода на Python для работы с Apache Spark для «самых маленьких» (и немного «картинок»).

Данная статья представляет собой обзор основных функций Apache Spark и рассматривает способы их применения в реальных задачах обработки данных. Apache Spark — это мощная и гибкая система для обработки больших объёмов данных, предлагающая широкий спектр возможностей для аналитики и машинного обучения. В нашем обзоре мы сфокусируемся на ключевых функциях чтения, обработки и сохранения данных, демонстрируя примеры кода, которые помогут новичкам быстро включиться в работу и начать использовать эти возможности в своих проектах.

+26

val6789 Apr 15 2024 at 06:12

Spark. План запросов на примерах

Medium

7 min

7.8K

SQL*Apache*Big Data*Data storage*Data Engineering*

FAQ

Всем привет!

В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды планов друг от друга, что в них изменяется от запроса к запросу и разберем каждую строчку на примере партиционированной и непартиционированной таблицы.

SGarik Apr 6 2024 at 15:18

Автоматизированная торговля акциями с использованием глубокого обучения с подкреплением

Medium

7 min

15K

OTUS corporate blogMachine learning*Finance in IT

Tutorial

В этой статье мы начинаем рассматривать практическое применение библиотеки FinRL для построения торгового агента. В предыдущей статье мы вкратце рассмотрели библиотеку FinRL, предоставляемые ей возможности моделирования рынка и обучения торговых агентов на основании алгоритмов обучения с подкреплением.

Это вторая статья нашего обучающего цикла и в ней мы построим примитивного агента, который анализирует поступающие данные о стоимости позиции на рынке и пытается предсказать будущую цену. Вполне очевидно, что результат такого примитивного агента будет весьма далек от приемлемого уровня, но этот шаг поможет нам создать модель рынка с помощью библиотеки FinRL, обучить агента и быть готовыми к построению более сложных и осмысленных моделей.

+18

valexv Sep 17 2021 at 22:29

Apache Spark: оптимизация производительности на реальных примерах

13 min

30K

Neoflex corporate blogApache*Big Data*Data Engineering*Data storage*

From sandbox

Apache Spark – фреймворк для обработки больших данных, который давно уже стал одним из самых популярных и часто встречаемых во всевозможных проектах, связанных с Big Data. Он удачно сочетает в себе скорость работы и простоту выражения своих мыслей разработчиком.

Разработчик работает с данными на достаточно высоком уровне и, кажется, что нет ничего сложного в том, чтобы, например, соединить два набора данных, написав всего одну строку кода. Но только задумайтесь: что происходит в кластере при соединении двух наборов данных, которые могут и не находится целиком на каком-либо из узлов кластера? Обычно Spark со всем справляется быстро, но иногда, а особенно, если данных действительно много, необходимо все-таки понимать – что происходит уровнем ниже и использовать это знание, чтобы помочь Spark работать в полную силу.

+18

MaxRokatansky Apr 26 2023 at 16:05

Полезные методы работы с данными в Pandas. Часть 3

Medium

6 min

16K

OTUS corporate blogPython*

Review

В наше время объемы информации растут неимоверными темпами. С каждым днем, все больше и больше данных генерируется и хранится в компьютерах, смартфонах, облачных сервисах и т.д.

Рост объемов хранения данных в последние годы привел к развитию и использованию более сложных и гибких структур для их хранения. Одной из таких структур является JSON (JavaScript Object Notation), который быстро стал популярным и широко используется благодаря своей легкости в чтении и гибкости. JSON позволяет организовывать данные в виде вложенных ключ- значение пар, что позволяет эффективно хранить и передавать структурированные данные.

Вложенные структуры данных в формате JSON встречаются в самых разных областях. Например, они используются в API для обмена информацией между клиентами и серверами, в NoSQL базах данных для хранения и обработки больших объемов полуструктурированных данных, а также в различных приложениях и сервисах, где требуется гибкость и эффективность в работе с данными. Все это делает важным умение обрабатывать и анализировать сложные структуры данных, такие как JSON, и интегрировать их в процессы обработки и анализа данных с использованием инструментов, таких как Pandas.

В этой статье мы рассмотрим различные подходы к работе со вложенными структурами данных в Pandas, а также обсудим процесс нормализации JSON- структур. На примерах мы продемонстрируем, как можно эффективно извлекать и обрабатывать вложенные данные, преобразовывая их в удобный для анализа формат.

m1rko Oct 5 2018 at 18:04

Двадцать задачек (по безумной, восхитительной геометрии)

6 min

141K

Entertaining tasksMathematics*

Translation

Предупреждение врача. Остерегайтесь этих головоломок. Побочные эффекты могут включать потерянное послеобеденное время, скомканные волосы и восклицания «А-а-а-х, вот как это делается» настолько громкие, что могут треснуть оконные стёкла.

Несколько месяцев назад я наткнулся в твиттере на математические головоломки Катрионы Ширер. Они сразу меня увлекли: каждая головоломка такая осязаемая, ручной работы, словно просит её решить. И на каждую вы можете легко потратить час времени, а то и больше.

Катриона разрешила мне подвесить вас на эти задачки — и поделилась 20 своими любимыми головоломками. Она даже удовлетворила моё любопытство и восхищение, дав интервью (см. в конце статьи).

Наслаждайтесь. И не говорите, что врач не предупреждал.

Читать дальше →

+50