Как стать автором
Обновить
29.29

Хранилища данных *

Публикации, рассказывающие о хранилищах данных

Сначала показывать
Порог рейтинга
Уровень сложности

Использование API в FineBI

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров200

Привет, Хабр! На связи Business Intelligence GlowByte. 

В данной статье разберем основы интеграции FineBI c внешними системами. С помощью публичных методов API можно использовать интерфейс, управлять системой удаленно и автоматизировать бизнес-процессы. Существует несколько способов интеграции публичных API в FineBI, и в зависимости от поставленных задач разработчики должны выбрать, какой способ им более подходит, или комбинировать их между собой. Далее рассмотрим доступные варианты, разберем их отличия и особенности и протестируем некоторые методы в http-клиенте Postman.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Новости

Сайзинг многоуровневого КХД (ч.2 Как сайзим)

Уровень сложностиСредний
Время на прочтение2 мин
Количество просмотров188

Продолжение разбора задачи сайзинга многоуровневого КХД.
Первая часть: "ч.1 Что сайзим"

ШАГ 0. Перед началом сайзинга специалистами IT выполняется анализ текущих систем (баз данных) и оцениваются отправные критерии сайзинга (годовой объем данных, прирост, объем исторических данных)

ШАГ 1. Общий объем исторических (начальных) данных

Читать далее
Всего голосов 1: ↑0 и ↓1-1
Комментарии5

Сайзинг многоуровневого КХД (ч.1 Что сайзим)

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров300

Приветствую, ищущий методики и подхода, Гость!

Мой многолетний опыт работы в части проектирования и реализации КХД с использованием продуктов иностранных Вендоров, всегда был сопряжен с использованием их обширной инфраструктуры и наработок обеспечивающих и помогающих выполнять вспомогательные задачи быстро и условно качественно. Одной из таких задач всегда являлось выполнение сайзинга разрабатываемого КХД. Вы можете задаться вопросом: "Почему "условно качественно"? - ответ тут прозаичен и банален: "Инструменты сайзинга не могут однозначно ответить на вопрос, какие характеристики заложить и как посчитать сайзинг КХД до того, как полностью сформировано ТЗ и не расставлены все точки над Ё...", ну и конечно, никакой инструмент не в силах справиться с изменениями требований по ходу проекта, криворукостью разработчиков и применением не оптимальных решений. Как оказалось, после ухода поставщиков программного обеспечения с рынка и массового перехода на OpenSource решения, вместе с софтом "ушли" и прикладные решения для выполнения сайзинга КХД.

Методика, которая рассматривается ниже, основывается на следующих послулатах

Читать далее
Всего голосов 4: ↑2 и ↓20
Комментарии0

Вредные советы по работе с данными. Если вы сломать решили всю отчетность у коллег

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2.2K

Привет, Хабр! Меня зовут Леонид Калядин, я Cluster Data lead в МТС Диджитал, занимаюсь развитием практики Data Governance и Data Quality в 25+ продукта кластера. Мне довелось долго работать в консалтинге и разбираться с проблемами в других системах. Вот смотришь со стороны на ИТ-продукт: все классно и продумано, должно работать как часы. А потом спускаешься на уровень данных и хватаешься за голову: как же допустили такую ошибку? Ее можно было избежать, если задать пару вопросов на стадии проектирования. Зато теперь переделывать все чуть ли не с нуля и ждать возможности вписать изменения в какой-нибудь релиз. Красота!

В этом посте я на основе своего и чужого опыта собрал несколько вредных советов, как не надо хранить историю, объединять данные из разных источников и отслеживать их качество.

В общем,
Если вы сломать решили всю отчетность у коллег,
Обязательно зайдите в этой записи под кат!

Читать далее
Всего голосов 7: ↑4 и ↓3+2
Комментарии1

Истории

Один за всех или каждый занят своим делом? Разбираемся в устройстве команд корпоративных хранилищ данных

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1K

Какой будет команда КХД, решает бизнес. Определяющими факторами могут быть объем хранилища и количество средств, которые готовы вкладывать в его развитие. Взвешиваем за и против и составляем оптимальную команду и схему постановки задач.

Читать далее
Всего голосов 8: ↑6 и ↓2+8
Комментарии0

Streaming 101 (Основы потоковой обработки)

Уровень сложностиСредний
Время на прочтение32 мин
Количество просмотров2.6K

Обработка потоковых данных стала крайне важна в настоящее время. И на это есть веские причины, такие как:

Компании жаждут получать данный как можно быстрее, и переход на потоковую обработку будет хорошим способом уменьшить задержки.

Объемные неограниченные наборы данных, все чаще встречающиеся в современных бизнес процессах, могут быть легче обузданы применением систем, специально спроектированных для таких объемов информации

Обработка данных по мере их поступления распределяет нагрузку более равномерно по времени, приводя с стабильному и предсказуемому потреблению вычислительных ресурсов.

Несмотря на существенный интерес к потоковой обработке данных со стороны бизнеса, львиная доля таких систем оставалась относительно незрелой по сравнению с аналогичными системами, ориентированными на пакетную обработку данных, так что это привело к недавнему всплеску вдохновляющих разработок в этой сфере.

Как тот, кто работал над крупно‑масштабной системой потоковой обработки в Google на протяжении последний пяти с лишним лет (MillWheel, Cloud Dataflow), я, мягко говоря, в восторге от сложившихся тенденций. Я все также заинтересован в том, чтобы люди понимали, что именно системы потоковой обработки в состоянии выполнять, и как их использовать наилучшим образом, в частности, закрыв нехватку знаний, оставшуюся между существующими системами пакетной обработки и потоковыми. С этой целью замечательные ребята из O»Reilly пригласили меня предоставить письменную версию моего доклада «Say Goodbye to Batch» с конференции Strata + Hadoop World London 2015.

Читать далее
Всего голосов 6: ↑5 и ↓1+6
Комментарии1

Как мы искали альтернативу иностранному ПО

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров4.3K

Привет, друзья! Я — Василь Фатихов, работаю в ИТ подразделении ВТБ. Одной из моих повседневных задач является загрузка данных в корпоративное хранилище. Именно с этими данными работают потом «колдуны — аналитики», извлекая из них новые возможности для бизнеса.

Сейчас многие сталкиваются с проблемами, связанными с переходом на альтернативное программное обеспечение. Именно по этой причине мы с коллегами решили написать эту статью, чтобы показать возможные варианты решений и предупредить о трудностях.

Читать далее
Всего голосов 16: ↑14 и ↓2+14
Комментарии6

Жизнь после SAP: импортозамещение платформы данных

Время на прочтение7 мин
Количество просмотров6K

Последние пару лет не перестает сходить с первого плана вопрос импортозамещения софта ушедших вендоров. Мы занимаемся данными, поэтому и делимся опытом импортозамещения платформ данных у наших enterprise заказчиков.

Если попробовать классифицировать причины импортозамещения, то это могут быть снижение вендорских рисков, требования Минцифры, сложность и стоимость закупки сертифицированного «железа» под импортные платформы и так далее.

Кстати, далеко не на последнем месте запрос команд разработки и поддержки на реализацию проектов на российском и open source технологическом стеке. Российский рынок вакансий на западном проприетарном вендорском ПО постепенно сужается, так как сейчас спрос российских компаний на такой софт стремится к нулю и такие системы постепенно превращаются в Legacy.

Так или иначе, российский крупный бизнес постепенно приходит к задаче импортозамещения и вместе с этим к целому спектру сложных задач, начиная от выбора подходящих целевых систем и технологий и их «допиливания», разработки,внедрения, до удовлетворения ожиданий не всегда простых бизнес-пользователей.

Разделим проблему на две части – подходящий апробированный технологический стек с формированием команды и сатисфакция бизнес-пользователей.

Читать далее
Всего голосов 11: ↑9 и ↓2+9
Комментарии3

Наводим порядок с базами данных. Переносим файлы в S3, мигрируем в единый кластер

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров5.1K

«Что там с базами, не пора ли добавлять ресурсов?» — казалось бы, звучит как дежурная реплика менеджера, и классический ответ на неё: «всё ок, до конца недели должно хватить!». 

На деле этот безобидный на первый взгляд вопрос может быть сигналом о целом ворохе проблем. Важно разобраться, почему его задают (можно ведь посмотреть алерты и мониторинг), о чём именно речь (у нас точно всё ок с архитектурой?), как часто вопрос возникает (сколько денег мы тратим на содержание баз?).

Однажды на вопрос «что там с базами?» мы в команде решили ответить несколько иначе. Вместо «до конца недели должно хватить» — сказали: «давайте мигрируем базы в единый кластер, а тяжёлые файлы перенесём в S3».

О том, что из этого вышло, читайте под катом.

Читать далее
Всего голосов 19: ↑19 и ↓0+21
Комментарии10

Защита серверов и данных: Zero Trust и 20 фич для вашей кибербезопасности

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров4.4K

Серверы — штука надёжная. Особенно в опытных руках. На аппаратном уровне многие системы и комплектующие продублированы, частичное обслуживание возможно на ходу без остановки работы, а при виртуализации и кластеризации даже полное обслуживание с живой миграцией виртуалок и полной остановкой отдельных узлов. Резервируют и сетевые каналы на магистральном уровне, а иногда и целые кластеры, реализуя «heartbeat» — регулярные сигналы между системами в разных дата-центрах, чтобы убедиться, что они работают и синхронизированы.

Но потом на ваш прекрасный отказоустойчивый сервер приходит обновление от CrowdStrike (инструмент защиты от кибератак), которая вроде как должна бороться со всем плохим, а не примыкать к нему. И ещё 8,500,000 серверов и ПК по всему миру присоединяются к вечеринке, после которой банки, аэропорты (да и авиация в целом), больницы, службы безопасности и другие блага цивилизации отсыпаются где-то в ванной.

Миллиардные убытки, колоссальный репутационный ущерб. И даже кибератак не было по официальным данным — сами себе в ногу стрельнули.

В этой статье я расскажу о полезных практиках, которые защитят ваши серверы и данные — от своих и чужих. А в конце уже по классике опрос. И помните, лучший способ стать просветлённым — указать на ошибки автора и вступить в спор с случайным комментатором на Хабре :)

Читать далее
Всего голосов 3: ↑3 и ↓0+5
Комментарии3

Как DWH и BI-аналитика может помочь устранить до 80% ошибок при планировании отгрузок на маркетплейсы

Время на прочтение8 мин
Количество просмотров2.7K

Для проведения многомерного анализа продаж и разработки дальнейшей стратегии, необходимо учитывать не только розничные и онлайн-продажи, но и проводить анализ результатов торговли и результатов конкурентов на маркетплейсах: объем заказов, выкупа и возвратов, остатки на складах, затраты на логистику, сравнение с конкурентами и т. д.

Получить единый доступ к данным из Wildberries, Ozon, Яндекс Маркет и платформ аналитики маркетплейсов (Маяк, SellerFox, Moneyplace, MPStats) помогут корпоративное хранилище данных и аналитические приложения на базе современной BI-платформы.

В статье на примере дашбордов, разработанных для крупного производителя детской одежды с более 70 магазинами в России и странах СНГ, рассказываем, как DWH и BI могут помочь:

• Разрабатывать новые стратегии маркетинга и продаж на маркетплейсах
• Проводить ABC-XYZ анализ товаров
• Планировать отгрузки продукции на склады

Читать далее
Всего голосов 4: ↑2 и ↓2+2
Комментарии2

Ролевая модель в СХД АЭРОДИСК ENGINE

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров628

Хабровчане, привет! 

Сегодня будем играть в ролевую игру. Разберём новый функционал СХД АЭРОДИСК — ролевую модель управления доступом. 

Узнать еще больше о ролевой модели вы сможете на нашем вебинаре, который состоится 27 августа в 15:00 (Мск). Регистрация обязательна.

Читать далее
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

О чём узнают дата-инженеры на SmartData 2024: инструменты, БД, DataOps и немножко космоса

Время на прочтение18 мин
Количество просмотров1.1K

Какими инструментами пользуются российские дата-инженеры в 2024-м? Как в реальности сравнить производительность Postgres и распределённых баз данных? Как строить RAG-системы, дающие нейросетям доступ к данным, которых не было в обучающей выборке? И как развивается сейчас космическая индустрия?

В сентябре мы проведём конференцию по дата-инжинирингу SmartData 2024. Сейчас её программа уже составлена полностью, и представляем её Хабру.

Читать далее
Всего голосов 10: ↑8 и ↓2+8
Комментарии0

Ближайшие события

27 августа – 7 октября
Премия digital-кейсов «Проксима»
МоскваОнлайн
14 сентября
Конференция Practical ML Conf
МоскваОнлайн
19 сентября
CDI Conf 2024
Москва
20 – 22 сентября
BCI Hack Moscow
Москва
24 сентября
Конференция Fin.Bot 2024
МоскваОнлайн
25 сентября
Конференция Yandex Scale 2024
МоскваОнлайн
28 – 29 сентября
Конференция E-CODE
МоскваОнлайн
28 сентября – 5 октября
О! Хакатон
Онлайн
30 сентября – 1 октября
Конференция фронтенд-разработчиков FrontendConf 2024
МоскваОнлайн
3 – 18 октября
Kokoc Hackathon 2024
Онлайн

Как мы перенесли архив данных из Teradata в GreenPlum с помощью Hadoop и PXF

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.6K

Привет, Хабр! Мы продолжаем серию статей о проведённой миграции аналитического хранилища данных с платформы Teradata на GreenPlum. В предыдущей статье мы рассказали о нашем опыте и результатах автоматизированного переписывания SQL-скриптов из диалекта Teradata в диалект GreenPlum с помощью реализованного сервиса миграции кода. В этой статье мы расскажем вам о полученном нами опыте и результатах переноса архива данных объёмом более 400 Тб из Teradata в GreenPlum, а также о трудностях и решениях, связанных с этим процессом.

Читать далее
Всего голосов 8: ↑8 и ↓0+14
Комментарии6

Инфраструктура для data engineer Kafka

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.6K

В этой статье я хочу показать как можно использовать Kafka в дата-инженерии и как её "пощупать".

Рекомендуется всем кто не знает что такое Kafka.

Читать далее
Всего голосов 9: ↑5 и ↓4+1
Комментарии0

MinIo и Boto3: маленький гайд по созданию скрипта для объектного хранилища на python

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.2K

MinIo, как система объектного хранилища данных, заслуженно пользуется любовью разработчиков: инструмент приятный и, довольно, простой в использовании и освоении. Вот и для одного из наших крупных проектов на работе недавно возникла потребность в использовании S3 хранилища, мы, однако, по корпоративным соображениям выбрали для применения в продакшене другой инструмент, а именно - IONOS (компания у нас немецкая и на ионосе много еще чего завязано), но для тестов и для локального запуска скриптов ничего лучше MinIo в голову нам не пришло. Подобное сочетание при этом вызвало необходимость в использовании такой Python библиотеки, которая могла бы работать и "на наших, и на ваших", а в нашем случае и на MinIo, и на IONOS (поменял параметры в конфиге и тот же самый код, что работал локально, начинает работать и с продакшеном) и этой библиотекой стал Boto3 (стандартный пакет minio для этих целей не подходил). Именно об этой констелляции - Python, MinIo и Boto3 - дальше мне и хотелось бы рассказать, ну а если вместо MinIo вы захотите использовать что-то другое, то "поменял параметры в конфиге и тот же самый код, что работал локально, начинает работать и с продакшеном".

Читать далее
Всего голосов 7: ↑6 и ↓1+7
Комментарии3

Что на неделе: в России разрабатывают аналог Android и iOS, Miro уходит из страны, а IT-специалистам не хватает эмпатии

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров3.3K

Привет! Продолжаю держать руку на пульсе: это очередная подборка самых громких новостей последней недели. Начнем с очередного твиста в эпопее вокруг YouTube, судьба которого по-прежнему неизвестна. Затем посмотрим, что у нас по импортозамещению (что-то странное), а в конце определим, какие языки нужно учить IT-специалистам в 2024 году, чтобы быть на коне. Спойлер: НЕ АНГЛИЙСКИЙ.

Читать далее
Всего голосов 20: ↑9 и ↓11+2
Комментарии4

Как практика выросла в теорию: книга об эксплуатации ЦОД

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2.8K

Мы сделали это. Годы работы, тематические статьи, преподавание, выступления, аудиты и подготовка к ним – все это отныне упаковано в удобный формат книги «Эксплуатация ЦОД: практическое руководство» коллектива авторов компании Linx. Обзор и хайлайты – в нашем материале.

Читать далее
Всего голосов 5: ↑3 и ↓2+3
Комментарии6

Spider — всё! Новый движок Polars: прорыв в скорости работы FineBI 6.1

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.2K

Всем привет! На связи Business Intelligence GlowByte. Сегодня хотим поговорить о производительности системы бизнес-аналитики FineBI. Пару месяцев назад в нашем регулярном мероприятии FineTalks участвовали коллеги из ID360 и смотрели “под капот” FineBI 6.1. Хотим поделиться их инсайтами. Возможно, после сегодняшнего небольшого  “разбора” движка платформы вам тоже она понадобится. 🙂 Обращайтесь!

Читать далее
Всего голосов 5: ↑5 и ↓0+7
Комментарии0

Как избежать проблем с производительностью S3 в своём приложении

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров3.6K

За время работы с объектными хранилищами я встречал немало «подводных рифов» на пути к быстрому и эффективному хранению.

В этой статье я покажу, где чаще всего проседает производительность при работе с S3-совместимым хранилищем, — на примерах из реальных кейсов технической поддержки.

Читать далее
Всего голосов 12: ↑11 и ↓1+11
Комментарии2
1
23 ...

Вклад авторов