Как стать автором
Обновить
2
0
Yuriy Gavrilov @yuriygavrilov

Love, peace and happiness

Отправить сообщение

Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями

Время на прочтение14 мин
Количество просмотров18K

Эпоха современных хранилищ данных началась с появления реляционных баз данных (далее БД). С появлением бизнес‑аналитики следствием развития БД стала концепция Data Warehouse (корпоративное хранилище данных, DWH).

Дальнейший рост объемов данных, введение термина «большие данные» и разнообразие требований к обработке привели к эволюции архитектур данных.

Рассмотрим этапы эволюции архитектуры данных: чем отличаются концепции, какие у них преимущества и недостатки, для каких задач в работе с данными подходят.

Читать далее

Как мы ускорили Trino, научив оптимизатор удалять ненужные Join

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров2.3K

Как мы ускорили запросы в Trino, научив оптимизатор удалять из плана лишние операторы Join.

Обсудим, почему в аналитических запросах часто возникают избыточные Join, почему это плохо для SQL-движков, какие эквивалентные преобразования позволяют избавиться от ненужных Join, и с какими проблемами мы столкнулись при интеграции данного функционала в наш форк Trino.

Читать далее

13 грехов продакт-менеджера

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров7.3K

Чтобы качественно решать проблемы пользователей, продакт-менеджер должен обладать широким набором компетенций: исследования, аналитика, критическое мышление, управление проектами, коммуникации и так далее.

Ошибки в работе неизбежны. Но ошибаться не страшно. Страшно не признавать свои ошибки и не делать выводов. В статье хочу поделиться своими ошибками и выводами, которые сделал. Статья будет полезна junior и middle продакт-менеджерам, которые хотят расти профессионально и карьерно.

Читать далее

Тестируем отечественную систему виртуализации: Альт

Время на прочтение11 мин
Количество просмотров26K

Привет, Хабр!

Я продолжаю свой цикл тестирования российских систем виртуализации. Сегодня речь пойдет о популярном решении под названием «Альт Виртуализация». Посмотрим, для каких сценариев подходит этот продукт, какие функции представлены в актуальной версии решения и кому я бы мог его рекомендовать.

В конце статьи я обязательно скажу, что понравилось и не понравилось лично мне, а вы сможете сделать собственные выводы и обсудить сабж в комментариях.

Читать далее

Как устроен massively parallel processing (MPP) в Trino

Время на прочтение10 мин
Количество просмотров5.5K

Из нашей повседневной практики доподлинно известно, что массивно(массово?)-параллельные вычисления это круто. Но что именно означает этот термин, и как "массивность" и "параллельность" реализованы в конкретной системе? В данной статье мы ответим на оба вопроса, проанализировав внутреннюю архитектуру популярного MPP-движка для больших данных Trino.

Читать далее

Хочется лучше жить? Просто начни просить

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров64K

Когда я был юн и наивен, то с большим презрением относился к блату и связям, а просьбы презирал. Мне казалось, что люди, которые используют помощь других людей, чтобы достигать своих целей, играют нечестно. Как же я ошибался, и почему вы упускаете огромные возможности, если игнорируете силу человеческих взаимоотношений.

Читать далее

Data Mesh: руководство по созданию сети (учимся создавать Data Mesh)

Время на прочтение11 мин
Количество просмотров6.2K

Концепция data mesh, как распределенной архитектуры для управления данными уже достаточно подробно представлена в нашем интернете. Еще лучше разобраться в этой теме нам поможет создание прототипа сети, демонстрирующего принципы работы data mesh.

Читать далее

Data Fabric — основы концепций и ключевые различия с Data Mesh и Data Lake

Время на прочтение3 мин
Количество просмотров10K

Добрался тут изучить ряд статей на тему Data Fabric, последнее время довольно много публикуется материала на эту тему: как про Data Fabric в целом, так и сравнения этого подхода с такими модными понятиями как Data Lake и Data Mesh. Собственно говоря, целью этого материла является кристаллизация основной составляющей концепции DF, в которой хочется оставить только саму суть.

Итак, что такое Data Fabric?

Это архитектура, подход, который говорит - не надо централизовать данные, надо навести в них порядок там, где они есть изначально и сделать над ними слой виртуализации данных, через ĸоторый потребители будут получать ĸ этим данным доступ. Data Fabric не требует замены существующей инфраструĸтуры, а вместо этого добавляет дополнительный технологичесĸий уровень поверх существующей инфраструĸтуры, ĸоторый занимается управлением метаданными и доступом ĸ данным.

Ну или чуть более длинно: “A data fabric is a modern, distributed data architecture that includes shared data assets and optimized data management and integration processes that you can use to address today’s data challenges in a unified way.” - тут и переводить не надо и таĸ все ĸрасиво написано :)

Каĸую проблему решает этот подход? Он борется с вариативностью данных. Когда у вас много источниĸов, много потребителей и все источниĸи довольно разнородны не тольĸо в плане того, что ĸаждый источниĸ - данные в разной струĸтуре, но и в плане того, что ĸаждый источниĸ - данные разных типов и разных лоĸализаций (облачные сервисы,собственные базы данных и т.п). В этом случае подходы централизации данных перестают быть эффеĸтивными, требуют много ресурсов на реализацию и поддержĸу.

Читать далее

Как мы сделали для разработчиков универсальную шину событий, не требующую знаний Kafka и прочих брокеров

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров4.5K

Привет!

Меня зовут Петр Коробейников, я техлид команды DBaaS for Redis в #CloudMTS.
Некоторое время назад я озадачился созданием общего набора инструментов для наших команд разработки. Цель была проста: разработчик не тратит время на погружение в логику работы конкретного инструмента, берет готовую инструкцию и просто делает свое дело — пишет код. Типовое окружение поможет переходить ребятам из команды в команду и быстро адаптироваться, а новичку — проще приступить к работе.

Сегодня я хочу рассказать про один из элементов такого типового окружения, который позволяет быстро начать работу с брокерами сообщений. Даже если разработчик Kafka и прочие брокеры до этого в глаза не видел. Речь пойдет о шине данных или событий (EventBus) и про то, как мы настроили ее кодогенерацию.

Читать далее

Как Discord хранит триллионы сообщений

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров28K

В 2017 году мы написали пост о том, как храним миллиарды сообщений [перевод на Хабре]. В нём мы рассказали о том, как начали с использования MongoDB, но потом выполнили миграцию данных в Cassandra, потому что искали надёжную, устойчивую к сбоям базу данных, имеющую относительно низкую стоимость обслуживания. Мы знали, что будем расти, так и произошло!

Нам нужна была база данных, способная расти вместе с нами, но чтобы стоимость обслуживания не росла вместе с объёмом хранимых данных. К сожалению, оказалось, что это не так — кластер Cassandra демонстрировал серьёзные проблемы с производительностью, поэтому нам требовалось всё больше усилий, чтобы просто поддерживать его, не говоря уже о совершенствовании.

Спустя почти шесть лет мы многое изменили; изменился и способ хранения сообщений.
Читать дальше →

Не захлебнитесь слюной, или экскурсия в логово ретро-гика

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров6.2K

Ностальгирующие по 80-м наверняка отдали бы правую руку за возможность оказаться в таком месте. Нет, это не музей. Это логово Брайана Грина, старшего системного инженера в Арканзасе, а ещё страстного коллекционера ретро-компьютеров. Самое классное, что все его древние Apple, Atari и Commodore прекрасно работают!

Как появилось такое хобби, где Брайан взял свои компьютеры и как он объединил целое сообщество ретро-гиков, читайте далее. Много фото прилагается.

Читать далее

Десять самых распространённых проблем с качеством данных и способы их устранения

Время на прочтение5 мин
Количество просмотров4.1K

Введение


Данные стали основой всех бизнесов мира. В процессе принятия решений организации сильно полагаются на свои ресурсы данных, но, к сожалению, «на 100% чистых и точных данных» не существует. На данные влияют различные факторы, снижающие их качество. По словам специалистов, лучшим способом борьбы с проблемами данных является выявление их первопричин и внедрение новых процессов для повышения их качества. В этой статье рассказывается о распространённых проблемах с качеством данных и об оптимальных способах их устранения. Но сначала давайте разберёмся, почему важно знание этих проблем и как они могут влиять на ведение бизнеса.
Читать дальше →

Приём платежей в криптовалюте: криптопроцессинги в 2023 году

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров15K

Когда Сатоши Накамото опубликовал в 2008 году свой манифест Биткоина, с которого началась эпоха криптовалют, он думал, что это изобретение изменит рынок цифровой коммерции и освободит предпринимателей от кабалы банковского процессинга. Однако он не учёл того, что бизнесы сотрудничают с банками не только потому, что у них нет другой технологической альтернативы, но ещё и потому, что, как юридические лица, они работают в правовом поле и не могут просто так получать платежи в произвольной форме без вопросов о потенциальном отмывании денег или финансировании терроризма.

Поэтому, несмотря на появление технологической возможности, реализация видения Сатоши задержалась до появления у крипты государственного признания. Легализация этого виртуального актива шла постепенно с разным успехом. В России закон о Цифровых финансовых активах (ЦФА), вписавший криптовалюты в правовом поле Российской Федерации, был принят только в 2020 году. Но даже после этого компании не бросились подключать возможности криптоплатежей на своих сайтах, и вопрос о приёме оплаты криптовалютой до последнего времени не рассматривался бизнесами всерьёз.

Читать далее

Jira и Trello уходят из России – чем их заменить?

Время на прочтение8 мин
Количество просмотров37K

Вопрос о том, какое средство управления проектами и постановкой задач выбрать, становится актуальным для российского бизнеса. Любая организация, от небольшой команды и до крупной корпорации, предъявляет массу требований — как общих, так и специфических. Поэтому универсального ответа не существует.

Еще год назад большинство компаний остановило бы свой выбор на продуктах компании Atlassian. Но ситуация изменилась — теперь возможности их использования в России сильно ограничены. И это повод еще раз посмотреть на альтернативы.

Спойлер: описать все невозможно, поэтому отметим только некоторые, со своей изюминкой.

Читать далее

К чему стремиться, на что учиться и кого слушать в 2023 году?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров7.2K

Привет! С началом весеннего сезона оживает и общение в ИТ-сообществе. Законы природы здесь тоже отлично работают. Народ хочет новых зрелищ, знаний и продуктивного нетворкинга. Собрал небольшой календарь главных ИТ-конференций весны 2023, чтобы вы ничего не упустили. Смотрите, регистрируйтесь, не благодарите.

Если знаете о крутых событиях с огненными спикерами, которых нет в нашем списке, напишите в комментах. Поможете и другим, и своей карме.

Читать далее

Сервер VPN IKEv2 с логином и паролем на MikroTik

Время на прочтение7 мин
Количество просмотров84K

Эта статья том, как перестать мучиться с сертификатами для IKEv2 и их установкой.

В Интернете есть множество статей и видео по настройке аутентификации IKEv2 с использованием сертификатов. Главная проблема такой конфигурации — необходимость генерации множества сертификатов, доставки и установки их на каждое клиентское устройство. Довольно замороченный процесс, согласитесь?

Читать далее

Весна идёт — весне дорогу! Итоги сезона Kubernetes

Время на прочтение9 мин
Количество просмотров20K

С 29 декабря по 24 февраля на Хабре прошёл сезон Kuberbetes. Вместе с партнёром, #CloudMTS, мы вдохновляли хабраавторов публиковать статьи по k8s и контейнерам в соответствующем хабе — глубокие, полезные, с техническими подробностями. 

Пришло время подвести итоги и узнать, кто получит новенький MacBook и грант в 30 000 рублей на то, чтобы написать ещё одну классную статью. Награждаем не только победителя: участники конкурса получат в подарок от #CloudMTS гранты на использование сервисов компании. Под катом итоги сезона, победитель, впечатления авторов и прочая милота. 

Читать далее

Приручение черного дракона. Этичный хакинг с Kali Linux. Часть 8. Методы и средства внешней разведки

Время на прочтение7 мин
Количество просмотров22K

Приветствую тебя, дорогой читатель, в восьмой части серии статей «Приручение черного дракона. Этичный хакинг с Kali Linux».

В одной из прошлых частей мы затронули первую фазу любой атаки, именуемую футпринтингом (footprinting) и разобрали несколько простых примеров сбора информации об объекте расположенном в локальной сети. Однако, мы так и не рассмотрели подробно методы и средства для проведения внешней разведки, и сбора информации. Самое время это исправлять! Поэтому данная статья будет полностью посвящена именно этой теме.

Думаю, что тебе часто попадалась на глаза аббревиатура OSINT (open-source intelligence), являющая собой миру отдельное направление, посвященное сбору информации из открытых источников. В рамках данной статьи я попытаюсь наглядно продемонстрировать каким образом злоумышленник проводит первичный сбор информации из открытых источников о цели и какие инструменты в составе Kali нам в этом помогут. В качестве примера я буду проводить сбор информации о коммерческом Банке с которым у меня заключен договор.

Читать далее

Как повысить эффективность обработки данных в сфере авиации. Кейс Xiamen Airlines

Время на прочтение16 мин
Количество просмотров1.6K

Привет, друзья! Сегодня команда Business Intelligence GlowByte поделится материалом от китайских партнеров из FanRuan – кейсом внедрения FineBI в авиации. Статья объемная (и “визуальная”), состоит из двух частей. В первой рассказывается о компании и проблемах, с которыми она столкнулась в работе с большими данными, во второй рассматриваются сценарии использования BI-инструментов в авиации.  

Читать далее

VS Code, python, контейнеры — как обуздать эту триаду и разрабатывать внутри контейнера

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров44K

Как пользоваться VS Code в полную силу


image


Это небольшой туториал о настройке VS Code для работы с python. Здесь вы не увидите каких-то божественных откровений — тут будет просто мой опыт о том, как сделать свою работу/хобби немного комфортнее и почему я пришел именно к такой конфигурации.

Читать дальше →
1

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность

Специализация

Product Manager, Data Engineer
Linux
Bash
Docker
SQL
Python
Git
Database
Data Analysis
Product management
Big data