Как стать автором
Обновить
187.6

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга
Уровень сложности

Конструктор шины PCIe

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.4K

Приводится решение для снятия ограничений на количество дисков и контроллеров шины PCIe, подключаемых к материнской плате. В качестве примера взят компактный компьютер, у которого для подключения дополнительных дисков доступен только один M.2

Читать далее

Новости

Qsan: репликация средствами СХД

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров323

Важным аспектом при построении IT-инфраструктуры любой сложности является ее устойчивость к различным инцидентам. К сожалению, полностью исключить ошибки, вызванные аппаратной или программной неисправностью, а также человеческими действиями (случайными или преднамеренными), увы, невозможно. Поэтому всегда необходимо иметь четко отработанный план по восстановлению. Раз мы ведем речь в контексте использования СХД, то наиболее уязвимыми здесь являются как раз хранимые на ней данные.

Читать далее

Развёртывание отказоустойчивого Nextcloud Enterprise: пошаговое руководство

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров1.5K

Привет! Сегодня поговорим о Nextcloud. Вы наверняка слышали об этом мощном решении для хранения, совместной работы и обмена файлами. В статье разберём, как развернуть Nextcloud в высокодоступной конфигурации с балансировщиком нагрузки, реплицируемой базой данных, отказоустойчивым хранилищем и полнотекстовым поиском.

Читать далее

«Облачные хранилища: как выбрать идеальное решение для бизнеса» (1 часть)

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.4K

В июле 2023 года Gartner представил отчет «Hype Cycle for Storage and Data Protection Technologies», предсказывая, что к 2026 году объем неструктурированных данных в локальных, периферийных и публичных облаках крупных предприятий вырастет в три раза!

Читать далее

Подробная инструкция, что нужно сделать, чтобы РКН вас не оштрафовал

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.4K

Для тех, кто в танке, и еще не озаботился вопросом о правильном хранении и сборе Персональных данных, делюсь подробной инструкцией и документами, которые снимут у вас основную головную боль. Мы провели обсуждения с несколькими юристами, коллегами, получили платные консультацию. 

Делюсь с вами этим бесплатно. Просто пойдите и сделайте как написано.

Читать далее

Сериализация в Unity: известные атрибуты и их проблемы

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров1.4K

Любой Unity-разработчик знаком с атрибутом [SerializeField], который позволяет сериализовывать непубличные члены класса и, соответственно, отображать их в инспекторе. Но, в силу его ограниченности, позже начали появляться и другие способы сериализации.

Попробую кратко рассказать, какие альтернативы используются, зачем все они нужны, как работают и, о чём не любят писать в кликбейтных постах, какие подводные камни могут скрывать.

Читать далее

Путь к современному MDM на примере клиентского домена данных

Время на прочтение6 мин
Количество просмотров782

Путь к современному MDM на примере клиентского домена данных

Привет, Хабр! На связи команда российского вендора Data Sapience. Наши специалисты в течение многих лет занимались внедрением и адаптацией различных ИТ-решений, в том числе MDM-систем: как российских, так и зарубежных. Объединив накопленные знания, мы выпустили собственный высокопроизводительный мультидоменный продукт Data Ocean Governance MDM

Data Sapience стремилась сделать Data Ocean Governance MDM гибким, комфортным и производительным решением, поэтому внимательно изучала рынок и его потребности. Сегодня хотим поделиться с вами результатами анализа и порассуждать, зачем MDM-решения нужны современному бизнесу, какую роль они выполняют и какие задачи закрывают на примере клиентского домена данных.

Читать далее

Книга: «Kafka Streams в действии. Приложения и микросервисы, управляемые событиями. 2-е изд.»

Время на прочтение20 мин
Количество просмотров2.5K
Привет, Хаброжители!

Сейчас, когда данные генерируются непрерывно и в огромных объемах, умение эффективно обрабатывать события в реальном времени становится критически важным навыком для разработчиков. Книга от Билла Беджека — это подробное руководство по созданию мощных приложений на основе Apache Kafka, одной из самых надежных и популярных платформ для потоковой обработки данных.

Автор, опытный инженер и участник проекта Apache Kafka, предлагает читателям практический подход к освоению Kafka Streams и других компонентов экосистемы Kafka. В книге рассматриваются не только основы, но и продвинутые техники, включая интеграцию с Kafka Connect, управление схемами через Schema Registry, работу с ksqlDB и тестирование потоковых приложений.
Читать дальше →

Атаки на контейнерные системы и композиция данных для их обнаружения

Время на прочтение9 мин
Количество просмотров742

Введение

В последние годы контейнеризация и контейнерные системы стали конкурентной альтернативой виртуализации и виртуальным операционным системам, поскольку контейнерные системы предлагают более рациональный подход к использованию вычислительных ресурсов. Это достигается за счёт упаковки в образ контейнера только необходимых программных компонентов, что позволяет запустить контейнер с минимальным набором библиотек и утилит. Но при использовании контейнерных систем одно неправильное движение может привести к катастрофическим последствиям. В статье расскажу о некоторых видах атак на контейнеры и способах их обнаружения.

Читать далее

Как мы учились управлять миллионами учётных записей и их секретами

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров2.6K

Всем привет. Название статьи говорит за себя, добавлю лишь, что расскажу об объединении IGA, PAM и Vault. Статья будет интересна DevSecOps-инженеров, специалистов по безопасности и администраторов инфраструктуры.

Читать далее

Что такое CDN и как она работает: объяснение на примере доставки котиков

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров9.6K

Представьте, что вы построили идеальный сайт. Всё оптимизировано, но стоит тысяче пользователей из разных концов света одновременно захотеть посмотреть, как пушистик прыгает в коробку — и ваш сервер падает. Чтобы этого не случилось, в игру вступает CDN (Content delivery network). О том, как она работает, объясню на примере доставки котиков. 

Читать далее

QR коды. Как сделать QR тату правильно?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2.1K

Что кодируют в QR тату?

Медицинскую информацию
Экстренные контакты
Профили в социальных сетях, сайты
Просто контакты
Различные даты(рождения детей и т.д.)
Различные приколы

Читать далее

Хоронить HDD рано: Seagate выпустила самый вместительный жесткий диск в истории — 40 ТБ

Время на прочтение4 мин
Количество просмотров14K
image

Жесткие диски (HDD) все еще живы и даже не думают исчезать. Seagate, одна из крупнейших компаний-производителей HDD, представила первые в истории серийные накопители емкостью 40 ТБ. Это не просто рекорд, а серьезный технологический скачок. Он показал, что старый добрый жесткий диск всё ещё способен удивлять. Давайте разберёмся, что это за зверь, как он устроен и зачем вообще нужны такие объёмы.
Читать дальше →

Ближайшие события

Разработка своего компактного TerraMaster на основе Twin Lake-N и PCIe Switch

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров4.2K

В последнее появилось много компактных NAS с основным хранилищем на SSD носителях и с десяти гигабитным Ethernet. Высокая скорость работы твердотельных дисков в связке с высокой скоростью обмена по сети, прекрасно раскрывают возможности новой техники, а самое главное оправдывают ожидания их владельцев от новых технологий.

Насколько сложно самостоятельно собрать подобный NAS, используя доступные комплектующие и готовые компьютерные платформы? Как оказалось всё не так сложно, если найти подходящую платформу и немного её прокачать. Вот о такой доработке и пойдет речь.

Читать далее

Я сделал поисковик хуже Elasticsearch

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров5.8K

В этой статье я хочу поделиться своим стыдом, вызванным попыткой создания библиотеки поиска. В этом стыде и вы можете прочувствовать смирение и осознание того, что реальный качественный поисковый движок, а не создаваемый как хобби-проект, должен делаться для того, чтобы лексический поиск был быстрым.

BEIR — это бенчмарки поиска информации, ориентированные на сценарии использования в формате «вопрос-ответ».

Мой хобби-проект SearchArray добавляет в Pandas полнотекстовый поиск. Поэтому естественно, чтобы ощутить трепет от моих потрясающих навыков разработчика, я решил использовать BEIR для сравнения SearchArray с Elasticsearch (с тем же запросом + токенизацией). Поэтому я потратил субботу на интеграцию SearchArray в BEIR и измерение релевантности и производительности с корпусом MSMarco Passage Retrieval (8 миллионов документов).

Барабанная дробь...

Читать далее

Смотрим под капот объектному хранилищу VK Cloud: что скрывает архитектура Object Storage

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2K

Современные компании оперируют терабайтами или даже петабайтами данных. Но часто эти данные имеют разный формат, степень структурированности и не нужны в «горячем» доступе, поэтому зачастую хранить весь массив в традиционных БД не только невозможно, но и нерационально. Как результат, бизнес все чаще использует объектные S3-хранилища.

Меня зовут Андрей Капустин. Я менеджер продукта Tarantool в компании VK Tech. В этой статье я расскажу об объектном хранилище VK Cloud, его архитектуре и месте Tarantool в ней. 

Читать далее

Влияние маленьких файлов на Big Data: HDFS vs S3

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров2.6K

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API.

Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse. Сравним производительность HDFS и объектных хранилищ с S3 API. На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC).

Тесты, графики, инсайды

Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS

Время на прочтение12 мин
Количество просмотров4.3K

Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе? 

Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в Big Data — с 2016. Сейчас работаю в Яндексе в DWH поиска и рекламы.

Мы работаем с ОЧЕНЬ большими данными. Каждый день миллионы пользователей видят рекламу Яндекса, а наши системы обрабатывают огромные объёмы данных. Чтобы реклама работала эффективно, нам нужно в каждый момент времени иметь максимально полную информацию об истории жизни рекламного объявления, а значит нужно каким-то образом передавать данные от одного события к другому внутри рекламной воронки. Расскажу, как мы решали эту проблему.

Читать далее

Как мы снизили время создания бэкапов Git с 48 часов до 41 минуты

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров6.4K

В этой статье мы расскажем о том, как GitLab выявил и устранил «бутылочное горлышко» производительности в 15-летней функции Git, что повысило эффективность, обеспечив возможность применения более надёжных стратегий резервного копирования и снижения рисков.

Резервные копии репозиториев — важнейший компонент надёжной любой стратегии восстановления после сбоев. Однако с увеличением размеров репозиториев процесс создания надёжных бэкапов становится всё сложнее. Для резервного копирования нашего собственного репозитория Rails нам требовалось 48 часов. Это заставило нас искать невозможные компромиссы между частотой резервного копирования и производительностью системы. Мы хотели найти собственное внутреннее решение для наших клиентов и пользователей.

В конечном итоге, мы нашли источник проблемы в 15-летней функции Git со сложностью O(N²) и устранили его, внеся изменения в алгоритм, что экспоненциально уменьшило время резервного копирования. В результате мы обеспечили снижение затрат, уменьшение рисков и возможность создания стратегий резервного копирования, которые хорошо масштабируются месте с нашей кодовой базой.

Оказалось, что это проблема масштабируемости Git, влияла на всех его пользователей с крупными репозиториями. Ниже мы расскажем историю о том, как выявили и устранили проблему.

Читать далее

Рекомендации Oracle по выбору между ArrayList и LinkedList

Уровень сложностиПростой
Время на прочтение19 мин
Количество просмотров5.5K

В Java существует две реализации интерфейса List: ArrayList и LinkedList. Какая из них лучше? Как выбрать подходящую для вашего приложения? В данной статье мы сравним их различия, производительность и потребление памяти, чтобы помочь вам определиться с выбором.

Читать далее
1
23 ...