Как стать автором
Обновить
36.84

Хранилища данных *

Публикации, рассказывающие о хранилищах данных

Сначала показывать
Порог рейтинга
Уровень сложности

Защита серверов и данных: Zero Trust и 20 фич для вашей кибербезопасности

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров2.8K

Серверы — штука надёжная. Особенно в опытных руках. На аппаратном уровне многие системы и комплектующие продублированы, частичное обслуживание возможно на ходу без остановки работы, а при виртуализации и кластеризации даже полное обслуживание с живой миграцией виртуалок и полной остановкой отдельных узлов. Резервируют и сетевые каналы на магистральном уровне, а иногда и целые кластеры, реализуя «heartbeat» — регулярные сигналы между системами в разных дата-центрах, чтобы убедиться, что они работают и синхронизированы.

Но потом на ваш прекрасный отказоустойчивый сервер приходит обновление от CrowdStrike (инструмент защиты от кибератак), которая вроде как должна бороться со всем плохим, а не примыкать к нему. И ещё 8,500,000 серверов и ПК по всему миру присоединяются к вечеринке, после которой банки, аэропорты (да и авиация в целом), больницы, службы безопасности и другие блага цивилизации отсыпаются где-то в ванной.

Миллиардные убытки, колоссальный репутационный ущерб. И даже кибератак не было по официальным данным — сами себе в ногу стрельнули.

В этой статье я расскажу о полезных практиках, которые защитят ваши серверы и данные — от своих и чужих. А в конце уже по классике опрос. И помните, лучший способ стать просветлённым — указать на ошибки автора и вступить в спор с случайным комментатором на Хабре :)

Читать далее
Всего голосов 2: ↑2 и ↓0+4
Комментарии3

Новости

Как DWH и BI-аналитика может помочь устранить до 80% ошибок при планировании отгрузок на маркетплейсы

Время на прочтение8 мин
Количество просмотров2K

Для проведения многомерного анализа продаж и разработки дальнейшей стратегии, необходимо учитывать не только розничные и онлайн-продажи, но и проводить анализ результатов торговли и результатов конкурентов на маркетплейсах: объем заказов, выкупа и возвратов, остатки на складах, затраты на логистику, сравнение с конкурентами и т. д.

Получить единый доступ к данным из Wildberries, Ozon, Яндекс Маркет и платформ аналитики маркетплейсов (Маяк, SellerFox, Moneyplace, MPStats) помогут корпоративное хранилище данных и аналитические приложения на базе современной BI-платформы.

В статье на примере дашбордов, разработанных для крупного производителя детской одежды с более 70 магазинами в России и странах СНГ, рассказываем, как DWH и BI могут помочь:

• Разрабатывать новые стратегии маркетинга и продаж на маркетплейсах
• Проводить ABC-XYZ анализ товаров
• Планировать отгрузки продукции на склады

Читать далее
Всего голосов 4: ↑2 и ↓2+2
Комментарии2

Ролевая модель в СХД АЭРОДИСК ENGINE

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров510

Хабровчане, привет! 

Сегодня будем играть в ролевую игру. Разберём новый функционал СХД АЭРОДИСК — ролевую модель управления доступом. 

Узнать еще больше о ролевой модели вы сможете на нашем вебинаре, который состоится 27 августа в 15:00 (Мск). Регистрация обязательна.

Читать далее
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

О чём узнают дата-инженеры на SmartData 2024: инструменты, БД, DataOps и немножко космоса

Время на прочтение18 мин
Количество просмотров872

Какими инструментами пользуются российские дата-инженеры в 2024-м? Как в реальности сравнить производительность Postgres и распределённых баз данных? Как строить RAG-системы, дающие нейросетям доступ к данным, которых не было в обучающей выборке? И как развивается сейчас космическая индустрия?

В сентябре мы проведём конференцию по дата-инжинирингу SmartData 2024. Сейчас её программа уже составлена полностью, и представляем её Хабру.

Читать далее
Всего голосов 10: ↑8 и ↓2+8
Комментарии0

Истории

Как мы перенесли архив данных из Teradata в GreenPlum с помощью Hadoop и PXF

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.2K

Привет, Хабр! Мы продолжаем серию статей о проведённой миграции аналитического хранилища данных с платформы Teradata на GreenPlum. В предыдущей статье мы рассказали о нашем опыте и результатах автоматизированного переписывания SQL-скриптов из диалекта Teradata в диалект GreenPlum с помощью реализованного сервиса миграции кода. В этой статье мы расскажем вам о полученном нами опыте и результатах переноса архива данных объёмом более 400 Тб из Teradata в GreenPlum, а также о трудностях и решениях, связанных с этим процессом.

Читать далее
Всего голосов 6: ↑6 и ↓0+8
Комментарии6

Инфраструктура для data engineer Kafka

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.1K

В этой статье я хочу показать как можно использовать Kafka в дата-инженерии и как её "пощупать".

Рекомендуется всем кто не знает что такое Kafka.

Читать далее
Всего голосов 9: ↑5 и ↓4+1
Комментарии0

MinIo и Boto3: маленький гайд по созданию скрипта для объектного хранилища на python

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.7K

MinIo, как система объектного хранилища данных, заслуженно пользуется любовью разработчиков: инструмент приятный и, довольно, простой в использовании и освоении. Вот и для одного из наших крупных проектов на работе недавно возникла потребность в использовании S3 хранилища, мы, однако, по корпоративным соображениям выбрали для применения в продакшене другой инструмент, а именно - IONOS (компания у нас немецкая и на ионосе много еще чего завязано), но для тестов и для локального запуска скриптов ничего лучше MinIo в голову нам не пришло. Подобное сочетание при этом вызвало необходимость в использовании такой Python библиотеки, которая могла бы работать и "на наших, и на ваших", а в нашем случае и на MinIo, и на IONOS (поменял параметры в конфиге и тот же самый код, что работал локально, начинает работать и с продакшеном) и этой библиотекой стал Boto3 (стандартный пакет minio для этих целей не подходил). Именно об этой констелляции - Python, MinIo и Boto3 - дальше мне и хотелось бы рассказать, ну а если вместо MinIo вы захотите использовать что-то другое, то "поменял параметры в конфиге и тот же самый код, что работал локально, начинает работать и с продакшеном".

Читать далее
Всего голосов 7: ↑6 и ↓1+7
Комментарии3

Что на неделе: в России разрабатывают аналог Android и iOS, Miro уходит из страны, а IT-специалистам не хватает эмпатии

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров3.1K

Привет! Продолжаю держать руку на пульсе: это очередная подборка самых громких новостей последней недели. Начнем с очередного твиста в эпопее вокруг YouTube, судьба которого по-прежнему неизвестна. Затем посмотрим, что у нас по импортозамещению (что-то странное), а в конце определим, какие языки нужно учить IT-специалистам в 2024 году, чтобы быть на коне. Спойлер: НЕ АНГЛИЙСКИЙ.

Читать далее
Всего голосов 20: ↑9 и ↓11+2
Комментарии4

Как практика выросла в теорию: книга об эксплуатации ЦОД

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2.5K

Мы сделали это. Годы работы, тематические статьи, преподавание, выступления, аудиты и подготовка к ним – все это отныне упаковано в удобный формат книги «Эксплуатация ЦОД: практическое руководство» коллектива авторов компании Linx. Обзор и хайлайты – в нашем материале.

Читать далее
Всего голосов 5: ↑3 и ↓2+3
Комментарии6

Spider — всё! Новый движок Polars: прорыв в скорости работы FineBI 6.1

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров992

Всем привет! На связи Business Intelligence GlowByte. Сегодня хотим поговорить о производительности системы бизнес-аналитики FineBI. Пару месяцев назад в нашем регулярном мероприятии FineTalks участвовали коллеги из ID360 и смотрели “под капот” FineBI 6.1. Хотим поделиться их инсайтами. Возможно, после сегодняшнего небольшого  “разбора” движка платформы вам тоже она понадобится. 🙂 Обращайтесь!

Читать далее
Всего голосов 5: ↑5 и ↓0+7
Комментарии0

Как избежать проблем с производительностью S3 в своём приложении

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров3.3K

За время работы с объектными хранилищами я встречал немало «подводных рифов» на пути к быстрому и эффективному хранению.

В этой статье я покажу, где чаще всего проседает производительность при работе с S3-совместимым хранилищем, — на примерах из реальных кейсов технической поддержки.

Читать далее
Всего голосов 11: ↑10 и ↓1+10
Комментарии2

Как правильно использовать большие данные: строим хранилища на MPP-СУБД

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2K

Немного контекста.

·       Данные нужны везде — для понимания трендов и рисков, для улучшения клиентского опыта, для технической аналитики. 

·       Вместе с цифровизацией и экспоненциальным ростом объема и разнообразия данных растет потребность в надежных, масштабируемых, производительных хранилищах.

·       Чтобы самостоятельно извлекать ценность из данных и оперативно использовать их в работе, нужно построить и поддерживать соответствующую инфраструктуру. Это трудозатратный подход.

Сегодня поделимся нашим опытом, как снизить капиталовложения в оборудование с большим объемом памяти, добиться производительности и высокой отказоустойчивости при создании DataLake и Data Warehouse.

Читать далее
Всего голосов 12: ↑9 и ↓3+10
Комментарии7

Хранимые процедуры рудимент или еще актуальны?

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров11K

В этой статье я не намерен обидеть DBA-разработчиков, но хочу рассмотреть корректность использования хранимых процедур с точки зрения .NET Backend-разработчика. При работе с ними часто возникает невообразимая боль. Причина этого в том, что в какой-то момент казалось отличной идеей поместить всю бизнес-логику нашего приложения в хранимые процедуры и вызывать их из различных сервисов. Однако с течением времени это решение стало неподдерживаемым и проблемным.

Читать далее
Всего голосов 30: ↑11 и ↓19-4
Комментарии208

Ближайшие события

19 сентября
CDI Conf 2024
Москва
24 сентября
Конференция Fin.Bot 2024
МоскваОнлайн
30 сентября – 1 октября
Конференция фронтенд-разработчиков FrontendConf 2024
МоскваОнлайн

Дискеты в наше время: Япония победила их в 2024, метро Сан-Франциско будет использовать до 2030

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.5K

В эпоху облачных хранилищ и многотерабайтных жестких дисков использование дискет кажется анахронизмом. Однако несмотря на ограниченную емкость и уязвимость к воздействию внешних факторов, они все еще находят применение. 

Например, мы привыкли видеть Японию технологическим лидером во многих отношениях. Так и есть, но это не помогло им избежать проблемы хранения данных на флоппи-дисках. Анастасия Босина, ML-инженер, разобралась, почему Страна восходящего солнца начала борьбу с дискетами и победила, почему по тому же пути не пошел американский Сан-Франциско, и чем это грозит.

Читать далее
Всего голосов 9: ↑5 и ↓4+6
Комментарии12

Они управляют большими данными в финтехе. Как мы находим топовых специалистов по DWH

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров3.6K

Примета времени – бизнес быстро обрастает огромным количеством данных. Если есть big data, то нужна команда, которая с ними разберется. Я Ольга, рекрутер в Clevertec. Наши специалисты развивают корпоративные хранилища данных. На своем опыте расскажу, как мы их находим.

Читать далее
Всего голосов 13: ↑9 и ↓4+7
Комментарии6

Greenplum: эффективное хранение данных с Hybrid Storage

Время на прочтение16 мин
Количество просмотров1.4K

В 2021 году мы запустили Greenplum в нашем облаке. И очень скоро столкнулись с тем, что эластичность систем расчёта и хранения — это must have в облачных аналитических БД. А Greenplum — совсем не такой.

Чтобы поменять ситуацию, мы научились отгружать часть данных в S3 и назвали получившееся решение Hybrid Storage. В этой статье расскажу о нём подробнее.

Читать далее
Всего голосов 8: ↑8 и ↓0+10
Комментарии3

Книга: «Data mesh в действии»

Время на прочтение17 мин
Количество просмотров3.7K
image Привет, Хаброжители!

Потребность эффективно хранить большие объемы данных и обращаться к ним стала одной из ключевых потребностей любого бизнеса. Сетка данных (data mesh) — это новый способ децентрализовать управление данными, радикально повышая их безопасность и доступность. Хорошо спроектированная сетка данных позволяет потреблять данные в режиме самообслуживания и помогает избавляться от узких мест, которые свойственны монолитным архитектурам данных.

Пора разобраться с тем, как на практике децентрализовать данные и организовать их в эффективную сетку. Сперва вы создадите простейший жизнеспособный продукт данных, а потом, продвигаясь от главы к главе, преобразуете его в самообслуживаемую платформу данных. Вам наверняка понравятся предложенные в книге «ползунки», с помощью которых можно будет настроить сетку под ваши потребности.

Книга предназначена для профессионалов в области данных и не привязана к конкретным программным стекам или платформам данных.
Читать дальше →
Всего голосов 7: ↑5 и ↓2+9
Комментарии0

Cloud Native vs Cloud Agnostic в Data Engineering'е: выбираем подход

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров529

Сейчас развертывание дата платформ и решений для аналитки в облаке - явление повсеместное. Кажется, что так было (и будет?) всегда. При этом существует постоянное (но не всегда очевидное) противостояние между подходами Cloud Native и Cloud Agnostic. Cloud Native поддерживает использование специфических сервисов конкретного облачного провайдера, в то время как Cloud Agnostic нацелен на создание приложений, которые могут работать на различных облачных платформах без изменений.

Важно осознавать различия между этими подходами и принимать обоснованные решения при выборе одного из них для своего проекта. Этот выбор может существенно повлиять на архитектуру, масштабируемость вашей дата платформы и стоимость разработки и поддержки.

Однако важно помнить, что не следует впадать в крайности и быть абсолютно приверженным только одному из подходов (вспомним акисому Эскобара). Иногда оптимальным решением может быть комбинация обоих подходов, чтобы достичь оптимального баланса между гибкостью и эффективностью.

В данной статье я попытаюсь описать подход, который в итоге я внедрил в своей команде для построения дата-инфраструктуры.

Читать далее
Всего голосов 2: ↑2 и ↓0+6
Комментарии0

Цикл статей о Greenplum. Часть 2. Оптимальный DDL

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.3K

Всем привет!

В прошлой статье мы с вами разобрались, как устроена MPP-архитектура Greenplum. Сегодня мы в сотрудничестве с @imzorin углубимся и разберемся, что представляет из себя DDL в этом хранилище. Также постараемся выделить основные моменты, на которые стоит обращать внимание при выборе типа таблиц, дистрибуции и прочего.

Читать далее
Всего голосов 5: ↑5 и ↓0+7
Комментарии2

Активоцентричность и хранение данных [Оголяемся технологически. MaxPatrol SIEM]

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров1.2K

Привет! Меня зовут Иван Прохоров, я руководитель продукта MaxPatrol SIEM. Мы продолжаем наше технологическое погружение в наш SIEM и сегодня расскажем об активоцентричности и хранении данных. А помогать мне в этом будет мой коллега, архитектор продукта MaхPatrol SIEM, Роман Сергеев.

В прошлой статье мы рассказали, как устроен MaхPatrol SIEM, взглянули на его пайплайн и поговорили про нормализацию и обогащение данных об инцидентах. Тогда же мы вскользь затронули тему активов и сегодня обсудим ее более детально. Разберемся, что такое цифровые активы, зачем они нужны, как их используют и защищают.

И вновь под капот!
Всего голосов 7: ↑6 и ↓1+7
Комментарии0
1
23 ...

Вклад авторов