Как стать автором
Обновить
75.79

Хранилища данных *

Публикации, рассказывающие о хранилищах данных

Сначала показывать
Порог рейтинга
Уровень сложности

Интеграция Kafka с Manticore Search: пошаговое руководство по обработке данных в реальном времени

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров783

Kafka — это популярный брокер сообщений, который используется в самых разных проектах: от обработки логов и управления очередями задач до персонализации контента и аналитики в реальном времени. Например, его можно использовать для индексирования изменений в Википедии или поиска товаров в интернет-магазинах. Manticore Search, в свою очередь, поддерживает интеграцию с Kafka, что позволяет автоматически импортировать данные и использовать их для полнотекстового поиска, аналитики, векторного поиска и многого другого.

При импорте данных в Manticore вы можете гибко их обрабатывать:

Читать далее

Новости

Отвечает ли CRM за сохранность ПД и как не нарушить закон при хранении ПД в обычной таблице

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров1.6K

Сегодня утром вы открыли глаза и четко осознали: бизнесу нужно развиваться!  Отлично, используйте все легальные доступные инструменты.

Только, пожалуйста, не развивайте свое дело, пренебрегая обязательными пунктами ведения бизнеса, которые установило законодательство. Я о работе с персональными данными. Не устаю напоминать, потому что это действительно важно.

Сегодня разбираю законность хранения ПД в обычных таблицах и CRM-системах. Вам нужно это знать, даже если в вашей компании работает три человека

Узнать про хранение ПД в таблицах и CRM

Варианты усиления фальшпола для ЦОД

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров613

Современные потребности в Центрах Обработки Данных достигли невероятных масштабов, превратив их проектирование и строительство в практически рутинный процесс. Каждый заказчик стремится получить больше, чем просто стандартное решение: им нужны ЦОД, которые соответствуют принципу «Больше, выше сильнее». Больше машзалов, выше потолки, мощнее охлаждение. Иногда эти запросы доходят до экзотических решений, таких как размещение ЦОД в регионах с холодным климатом, например, в Скандинавии, где естественная вечная мерзлота используется для охлаждения серверов, или даже подводные дата-центры, которые погружаются на дно океана для снижения затрат на охлаждение.

Однако, несмотря на такие необычные подходы, большинство проектов ЦОД остаются довольно типичными. Тем не менее, каждый из них имеет свои уникальные особенности и нюансы, которые возникают из-за классической дилеммы: «Быстрее, лучше, дешевле — выбери только два». При разработке проекта часто приходится выбирать между тем или иным решением, обосновывая свою позицию экономией средств или большей надежностью. Эта проблема становится ключевой при разработке любого проекта, заставляя инженеров и архитекторов постоянно искать компромиссы. Например, приходится выбирать между более дорогим, но надежным оборудованием и бюджетными решениями, которые могут сэкономить средства, но потребуют дополнительных усилий для обеспечения стабильной работы. Каждый выбор требует тщательного обоснования, будь то экономия ресурсов или повышение надежности инфраструктуры.

Читать далее

Зачем Switch построила ЦОД в пустыне, а IBM — в бывшей рудной шахте: 10 необычных локаций дата-центров

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.7K


Спрос на услуги дата-центров растёт. По прогнозам, к 2030 году мировой рынок ЦОДов достигнет $409,1 млрд. Это обусловлено тем, что всё больше компаний переводят операции в облаках, работают с ИИ, большими данными и требуют от инфраструктуры скорости, надёжности и энергоэффективности.

Именно поэтому дата-центры появляются не только в привычных индустриальных зонах, но и в самых неожиданных местах — от подземных шахт до дна океана. Рассмотрим необычные локации и попытаемся выяснить, почему компании выбрали такие базы для серверов.
Читать дальше →

Аналитика по скидке: когда клиенты готовы платить только впечатлениями

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров814

Аналитика по скидке: когда клиенты готовы платить только впечатлениями

Если данные новая нефть, то почему за нее не готовы платить?

Как измерить ценность внедрения аналитики?

Читать далее

Делиться знаниями — значит расти. 6 шагов к построению базы знаний на основе Data Warehouse (DWH)

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.7K

Этот текст — эссенция практического опыта креативного специалиста, который помогает бизнесу находить технические решения в области построения базы знаний. Решил поделиться своими заметками об архитектуре хранилища данных (DWH) и написать, почему важно хранить корпоративные данные в едином хранилище, как преодолеть внутренние барьеры (вроде страха критики и синдрома самозванца) для начала обмена знаниями и какими техническими и организационными решениями можно сделать этот процесс удобным и полезным. В статье — живой опыт, конкретные советы и немного вдохновения для тех, кто только начинает делиться знаниями внутри команды.

Читать далее

Что такое Ansible и как применяется в DWH-проектах? Сравнение Ansible с Puppet, Chef, SaltStack

Время на прочтение11 мин
Количество просмотров4.1K

В статье рассказываем, что такое Ansible и как инструмент может применяться в проектах DWH: от автоматического развертывания и настройки компонентов до восстановления после сбоев и централизованного управления параметрами.

Сравниваем Ansible с другими инструментами для автоматизации управления инфраструктурой: Puppet, Chef, SaltStack.

Читать далее

Асинхронно копируем объекты между регионами S3 с помощью Python

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4K

Привет, Хабр! Я Александр Гришин, отвечаю за развитие облачных баз данных и объектного хранилища в Selectel. В своей практике часто сталкиваюсь с разными задачами клиентов. Среди них, например: реализовать репликацию данных между удаленными друг от друга регионами, отработать домен отказа «Регион» и повысить уровень отказоустойчивости своих сервисов, убрав привязку к одному городу и инфраструктуре. Сегодня я расскажу, как легко реализовать асинхронную репликацию данных в инфраструктуре Selectel, используя Python и boto3. Погнали!
Читать дальше →

NVRAM из EEPROM

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.6K

Дана функция чтения и записи EEPROM dword.

Запись и стирание возможно только по выровненному адресу и пословно.

Надо поверх EEPROM API сделать функцию чтения, записи и стирания для произвольных массивов байт, по произвольному адресу (NVRAM).

Простыми словами надо состыковать Dword API с Byte API.

В этом тексте я представил простой наивный алгоритм решения данной задачи.

Читать далее

Погружение в ClickHouse: делаем первые и успешные шаги

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров9.9K

Привет! Меня зовут Андрей Дорожкин, и я руковожу командой администрации баз данных в Hybrid. В этом материале я поделюсь опытом работы с ClickHouse — колоночной БД, разработанной специально для аналитических запросов, которая позволяет получать результаты в разы быстрее традиционных решений. Также я подсвечу, как устроен этот продукт, чем он отличается от реляционных баз данных, и в каких сценариях его использование может дать бизнесу реальное преимущество.

Пара слов о компании Hybrid. Мы — независимая AdTech-экосистема с собственным стеком технологий и решений для любых рекламных целей. Развиваем собственные технологии благодаря in-house отделу разработки, который каждый день работает над их улучшением. ClickHouse — инструмент, который мы выбираем для хранения данных за высокую скорость обработки запросов, эффективное сжатие данных и масштабируемость.

Читать далее

DWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 2

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.9K

Выбор облачного хранилища данных — задача не из простых: десятки решений, каждая со своими плюсами и подводными камнями. В этой статье — результаты масштабного практического исследования, в ходе которого команда Agritask сравнила производительность, масштабируемость, стоимость и совместимость SQL ведущих платформ: от ClickHouse и BigQuery до Druid и Firebolt. Без маркетинговых обещаний — только реальные тесты, живые выводы и нюансы, которые неочевидны до момента внедрения.

Читать далее

Миф о дешевом железе: полный расчет стоимости КХД для облака и локальных решений

Время на прочтение13 мин
Количество просмотров4.4K

Корпоративное хранилище данных (КХД) — один из ключевых компонентов любой ИТ-системы, который необходим для безопасного хранения и использования всех данных компании. Но построение КХД нередко превращается в «задачу со звездочкой» еще на этапе выбора платформы для развертывания: многим компаниям сложно определить, какой из вариантов будет не только надежнее, но и дешевле. 

В этой статье попробуем в деталях и на примерах разобрать, какой вариант развертывания экономически рентабельнее и что стоит учитывать при выборе платформы для построения КХД.

Материал подготовлен директором центра бизнес-решений VK Tech Константином Дудниковым и директором по развитию облачного бизнеса Группы Arenadata Антоном Близгаревым @beton55.

Читать далее

DWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 1

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров3.6K

Выбор облачного хранилища данных — задача не из тривиальных, особенно когда речь идёт о миллиардах полуструктурированных записей, геоаналитике и требованиях к отклику в доли секунды. В Agritask мы провели масштабное исследование: протестировали популярные DWH-платформы на реальных кейсах, сравнили производительность, параллелизм и затраты. В первой части делимся подходом к оценке, техническими требованиями и тем, почему PostgreSQL и Snowflake перестали справляться с нашими задачами.

Читать далее

Ближайшие события

Как мы сделали одну большую песочницу для всех аналитиков

Время на прочтение7 мин
Количество просмотров6.1K

В мире данных и аналитики, где каждый день генерируются огромные объемы информации, создание единой платформы для работы с данными становится неотъемлемой частью успешной стратегии бизнеса. Мы команда РСХБ.Цифра, в которой я, Кристина Проскурина, руковожу управлением бизнес-анализа данных,  а Алексей Кошевой, руководитель отдела развития витрин данных «РСХБ-Интех», руководит разработкой аналитической отчетности и платформы по исследованию данных. В этой статье мы расскажем, как наша команда разработала единую песочницу для аналитиков, которая объединила все инструменты и ресурсы в одном месте, обеспечивая эффективность, удобство и возможность совместной работы.

К песочнице

Более 4 000 ГБ за 11 минут: тестируем три сценария резервного копирования с Кибер Бэкап и TATLIN.BACKUP

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров3.2K

В формуле идеального решения для резервного копирования данных enterprise-класса много переменных. Одна из ключевых — производительность решения, включая скорость копирования, нагрузку на сеть и потребление вычислительных ресурсов хранилища и источника данных. 

Инженеры компаний YADRO и Киберпротект протестировали совместную работу системы резервного копирования Кибер Бэкап и системы хранения данных TATLIN.BACKUP в трех сценариях сохранения резервных копий виртуальных машин: с inline-дедупликацией, по протоколу NFS и агентом Tboost на узле хранения. Поделимся результатами тестирования совместимого решения, а заодно предметно поговорим об организации правильной архитектуры с учетом особенностей конкретной инфраструктуры. 

Читать далее

Data Governance и Бизнес: как найти общий язык

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров288

«Data Governance — это дополнительная надстройка, которая увеличивает сложность и длительность процессов. Это тормозит бизнес!»

«Нам нужны качественные данные, а вы все про свои процессы!»

«Data Governance – это IT-шная история, пусть они и занимаются. Причем здесь бизнес?!»

Эти фразы часто звучат, когда речь заходит о внедрении Data Governance. Бизнес и Data \ IT могут по-разному смотреть на роль DG: для команды управления данными это фундамент прозрачности и управления, а для бизнеса — дополнительные шаги, которые могут замедлять процессы.

Но ведь цель Data Governance (DG) — не процесс ради процесса, а создание ценности для бизнеса за счёт качественных, управляемых данных. Почему же возникают разногласия? Из моего опыта можно выделить несколько ключевых факторов, которые влияют на восприятие DG в бизнесе:

1.Неочевидная связь между DG и бизнес-результатами. Если Data Governance не подкреплён показателями, влияющими на прибыль (P&L, снижение затрат, ускорение процессов), для бизнеса его сложно воспринимать как приоритетную задачу.

2.Бизнес хочет скорость, а не контроль. Как правило новые процессы и роли означают изменение привычных моделей работы, а это что требует времени и затраты энергии на адаптацию. Поэтому новые процессы начинают казаться бизнесу фактором, замедляющим их работу.

3.Долгий цикл внедрения. Когда DG запускается с прицелом на долгосрочную выгоду, интерес к DG снижается, так как  бизнесу нужны быстрые результаты, бизнесу нужно решать задачи уже сегодня.

Как же выстроить эффективный диалог между DG и бизнесом?

Читать далее

S3: возможности протокола и паттерны использования

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров6.3K

Привет, Хабр! На связи Игорь Шишкин, я руковожу командой R&D в облачном направлении Рег.ру и являюсь архитектором наших сервисов. В статье расскажу, как в целом работать с S3-совместимыми хранилищами, зачем их использовать, какие бывают базовые паттерны и что с этим делать. Поехали!

Читать далее

Отказоустойчивость в MinIO

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров5.3K

Simple Storage Service или S3 — сервис (и одновременно протокол) для хранения данных большого объёма. Для работы использует API поверх HTTP, который позволяет загружать или получать объекты из хранилища.

В проектах с приватной инфраструктурой часто возникает потребность в организации on-premise S3-хранилища. Популярное решение в таком случае это MinIO — удобная и довольно простая в использовании реализация сервиса S3.  Когда нам в RUTUBE потребовалось S3, мы не стали долго думать и взяли MinIO, потому что он стильный, модный, молодежный хорошо себя зарекомендовал на рынке, хорошо документирован и прост в первоначальной настройке и эксплуатации. 

В этой статье поделюсь своим опытом использования MinIO, сделав акцент на отказоустойчивости и сохранности данных в случае инцидентов разной степени — от выпадения диска до пожара в цоде.

Читать далее

Мультирегиональность в Selectel S3: работаем с регионами SPB и MSK из Python

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.9K

Катастрофоустойчивое хранение данных — одна из актуальных задач при построении IT-инфраструктуры. Но ее решение может завести в тупик. Как оптимальнее организовать хранение данных, исключив домены отказа? Как разместить определенные данные ближе к целевой нагрузке или части аудитории? Как организовать асинхронную репликацию данных между Москвой и Санкт-Петербургом?

Всем привет! Меня зовут Гришин Александр, я продакт-менеджер в Selectel и отвечаю за развитие объектного хранилища и облачных баз данных. Под катом я расскажу, как с помощью мультирегиональности взаимодействовать с разными регионами S3 через Python и библиотеку boto3. Это поможет хранить и обрабатывать данные в Москве и Санкт-Петербурге, используя единую авторизацию и простой интерфейс. К тому же — улучшить катастрофоустойчивость и доступность данных, а еще снизить задержки при работе с объектами, когда инфраструктура распределена между городами.
Читать дальше →

S3-совместимые хранилища: как собрать свой конструктор

Время на прочтение11 мин
Количество просмотров6K

В одном из больших кластеров S3 в Точке хранится 110 терабайт полезных данных. Это не много по объёму, но он распределён среди 600+ миллионов файлов. Стоимость работы системы оценивается более чем в миллион рублей в месяц — это с учётом фактора репликации, бэкапов, основной системы хранения и резерва ресурсов. Это пятое место по стоимости среди всех сервисов.

Мы выбрали SeaweedFS, потому что это удобный конструктор, который позволяет загружать файлы любого размера, легко масштабироваться без деградации скорости доступа и надёжно защищать данные от потерь. В статье рассказываю, каким должно быть идеальное S3-хранилище для миллионов файлов, и почему нам не подошли Ceph и Minio.

Читать далее
1
23 ...