Хранение данных *

Что имеем, то храним

СтатьиПостыНовостиАвторыКомпании

SrvTrantor 17 июн в 13:01

Что такое CDN и как она работает: объяснение на примере доставки котиков

Простой

8 мин

14K

Блог компании RUVDS.comХостингСетевые технологии * Научно-популярноеХранение данных *

Мнение

Представьте, что вы построили идеальный сайт. Всё оптимизировано, но стоит тысяче пользователей из разных концов света одновременно захотеть посмотреть, как пушистик прыгает в коробку — и ваш сервер падает. Чтобы этого не случилось, в игру вступает CDN (Content delivery network). О том, как она работает, объясню на примере доставки котиков.

+76

Seleditor 14 июн в 07:55

Хоронить HDD рано: Seagate выпустила самый вместительный жесткий диск в истории — 40 ТБ

4 мин

16K

Блог компании SelectelКомпьютерное железоНакопителиХранение данных *

Жесткие диски (HDD) все еще живы и даже не думают исчезать. Seagate, одна из крупнейших компаний-производителей HDD, представила первые в истории серийные накопители емкостью 40 ТБ. Это не просто рекорд, а серьезный технологический скачок. Он показал, что старый добрый жесткий диск всё ещё способен удивлять. Давайте разберёмся, что это за зверь, как он устроен и зачем вообще нужны такие объёмы.

Читать дальше →

+76

sdy 13 июн в 20:09

Разработка своего компактного TerraMaster на основе Twin Lake-N и PCIe Switch

Простой

11 мин

4.9K

Блог компании Third ManХранение данных * Производство и разработка электроники * Сетевые технологии *

Кейс

В последнее появилось много компактных NAS с основным хранилищем на SSD носителях и с десяти гигабитным Ethernet. Высокая скорость работы твердотельных дисков в связке с высокой скоростью обмена по сети, прекрасно раскрывают возможности новой техники, а самое главное оправдывают ожидания их владельцев от новых технологий.

Насколько сложно самостоятельно собрать подобный NAS, используя доступные комплектующие и готовые компьютерные платформы? Как оказалось всё не так сложно, если найти подходящую платформу и немного её прокачать. Вот о такой доработке и пойдет речь.

+21

PatientZero 11 июн в 12:11

Я сделал поисковик хуже Elasticsearch

Простой

8 мин

6.1K

Поисковые технологии * Поисковая оптимизация * Программирование * Python * Хранение данных *

Обзор

Перевод

В этой статье я хочу поделиться своим стыдом, вызванным попыткой создания библиотеки поиска. В этом стыде и вы можете прочувствовать смирение и осознание того, что реальный качественный поисковый движок, а не создаваемый как хобби-проект, должен делаться для того, чтобы лексический поиск был быстрым.

BEIR — это бенчмарки поиска информации, ориентированные на сценарии использования в формате «вопрос-ответ».

Мой хобби-проект SearchArray добавляет в Pandas полнотекстовый поиск. Поэтому естественно, чтобы ощутить трепет от моих потрясающих навыков разработчика, я решил использовать BEIR для сравнения SearchArray с Elasticsearch (с тем же запросом + токенизацией). Поэтому я потратил субботу на интеграцию SearchArray в BEIR и измерение релевантности и производительности с корпусом MSMarco Passage Retrieval (8 миллионов документов).

Барабанная дробь...

+17

KAPANDR 11 июн в 09:56

Смотрим под капот объектному хранилищу VK Cloud: что скрывает архитектура Object Storage

Средний

10 мин

3.1K

Блог компании VKБлог компании VK TechХранение данных * Tarantool *

Обзор

Современные компании оперируют терабайтами или даже петабайтами данных. Но часто эти данные имеют разный формат, степень структурированности и не нужны в «горячем» доступе, поэтому зачастую хранить весь массив в традиционных БД не только невозможно, но и нерационально. Как результат, бизнес все чаще использует объектные S3-хранилища.

Меня зовут Андрей Капустин. Я менеджер продукта Tarantool в компании VK Tech. В этой статье я расскажу об объектном хранилище VK Cloud, его архитектуре и месте Tarantool в ней.

+44

StanislavRG 11 июн в 09:50

Влияние маленьких файлов на Big Data: HDFS vs S3

Средний

13 мин

Блог компании ArenadataБазы данных * Big Data * Data Engineering * Хранение данных *

Обзор

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API.

Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse. Сравним производительность HDFS и объектных хранилищ с S3 API. На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC).

Тесты, графики, инсайды

Arhimagic 10 июн в 09:07

Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS

12 мин

4.8K

Блог компании Конференции Олега Бунина (Онтико)Высоконагруженные системы * Big Data * Data Engineering * Хранение данных *

Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе?

Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в Big Data — с 2016. Сейчас работаю в Яндексе в DWH поиска и рекламы.

Мы работаем с ОЧЕНЬ большими данными. Каждый день миллионы пользователей видят рекламу Яндекса, а наши системы обрабатывают огромные объёмы данных. Чтобы реклама работала эффективно, нам нужно в каждый момент времени иметь максимально полную информацию об истории жизни рекламного объявления, а значит нужно каким-то образом передавать данные от одного события к другому внутри рекламной воронки. Расскажу, как мы решали эту проблему.

+28

PatientZero 10 июн в 07:15

Как мы снизили время создания бэкапов Git с 48 часов до 41 минуты

Простой

6 мин

6.7K

Git * Системы управления версиями * Резервное копирование * Хранение данных *

Перевод

В этой статье мы расскажем о том, как GitLab выявил и устранил «бутылочное горлышко» производительности в 15-летней функции Git, что повысило эффективность, обеспечив возможность применения более надёжных стратегий резервного копирования и снижения рисков.

Резервные копии репозиториев — важнейший компонент надёжной любой стратегии восстановления после сбоев. Однако с увеличением размеров репозиториев процесс создания надёжных бэкапов становится всё сложнее. Для резервного копирования нашего собственного репозитория Rails нам требовалось 48 часов. Это заставило нас искать невозможные компромиссы между частотой резервного копирования и производительностью системы. Мы хотели найти собственное внутреннее решение для наших клиентов и пользователей.

В конечном итоге, мы нашли источник проблемы в 15-летней функции Git со сложностью O(N²) и устранили его, внеся изменения в алгоритм, что экспоненциально уменьшило время резервного копирования. В результате мы обеспечили снижение затрат, уменьшение рисков и возможность создания стратегий резервного копирования, которые хорошо масштабируются месте с нашей кодовой базой.

Оказалось, что это проблема масштабируемости Git, влияла на всех его пользователей с крупными репозиториями. Ниже мы расскажем историю о том, как выявили и устранили проблему.

+14

ch1max 9 июн в 13:36

Резервуарное сэмплирование и собачки

Простой

8 мин

3.4K

Блог компании RUVDS.comАлгоритмы * Математика * Хранение данных *

Туториал

Перевод

Резервуарное сэмплирование — это методика выбора справедливого случайного образца, когда неизвестен размер множества, из которого выполняется выборка. К концу этой статьи вы будете знать:

• Когда может потребоваться резервуарное сэмплирование.

• Математика его работы на основании лишь базовых операций: вычитания, умножения, умножения и деления. Никаких сложных математических формул, обещаю.

• Простой способ реализации резервуарного сэмплирования на случай, если вам оно понадобится.

+58

ph_piter 9 июн в 12:45

Книга: «Масштабируемые данные. Высоконагруженные архитектуры, Data Mesh и Data Fabric. 2-е изд.»

5 мин

3.8K

Блог компании Издательский дом «Питер»Профессиональная литература * Хранение данных *

Привет, Хаброжители!

Издательство Sprint book представляет второе издание книги Питхейна Стренгхольта «Масштабируемые данные» — фундаментальное руководство по построению современных архитектур данных в эпоху цифровой трансформации.

Время централизованного хранения информации, например, в хранилищах данных (data warehouse) уходит в прошлое. Сегодня компании сталкиваются с необходимостью обрабатывать огромные объемы информации в реальном времени, обеспечивая при этом гибкость, безопасность и согласованность данных. Датафикация происходит повсюду: в смартфонах, телевизорах, электронных книгах, промышленных машинах, автомобилях с автопилотами, роботах и т. д. Она стремительно меняет нашу жизнь. А темы, заложенные в книге Стренгхольта, становятся новым стандартом для организаций, стремящихся построить гибкую, безопасную и ориентированную на бизнес-ценности инфраструктуру данных.

Читать дальше →

Vasi1y 6 июн в 10:50

Приоткрываем завесу: о принципах работы дисковых хранилищ VK Cloud

8 мин

3.1K

Блог компании VKБлог компании VK TechIT-инфраструктура * Хранение данных *

Инфраструктурный слой большинства облачных платформ — та часть айсберга, которая остается глубоко под водой и никогда не видна простым обывателям. Вместе с тем именно IaaS-сервисы в целом и дисковые хранилища в частности являются основой для построения пользователями своих инфраструктур в облаке.

Привет, Хабр. Меня зовут Василий Степанов. Я руководитель команды разработки Storage в VK Cloud. В этой статье я расскажу о том, как устроено наше дисковое хранилище: какие диски используются в VK Cloud и как мы с ними работаем.

+45

Rubackup_AG 5 июн в 14:14

Как с помощью RuBackup сделать резервное копирование систем виртуализации oVirt, ROSA, zVirt, РЕД Виртуализация, HOSTVM

13 мин

2.8K

Блог компании Группа АстраРезервное копирование * Восстановление данных * IT-инфраструктура * Хранение данных *

Обзор

Привет всем, кто заботится о сохранности данных виртуальных машин (ВМ) и не хочет их потерять. Сегодня мы рассмотрим тему бэкапа ВМ на платформе виртуализации oVirt и oVirt-подобных: ROSA; zVirt, РЕД Виртуализация и HOSTVM. Далее в статье, когда будет идти речь о oVirt, подразумевается, что речь будет идти обо всех этих платформах.

Для этого будем использовать систему резервного копирования (СРК) RuBackup.

GromovBI 5 июн в 11:02

Пятый, юбилейный выпуск исследования «BI-круг Громова»

11 мин

2.6K

Big Data * Визуализация данных * Хранение данных *

Пятый, юбилейный выпуск нашего исследования «Круги Громова» выходит в момент, когда рынок отечественных BI-платформ переживает волну бурного роста и трансформации. За два года, прошедшие с публикации предыдущего отчёта, импортозамещение перестало быть формальностью и стало стратегической необходимостью: доля внедрений российских BI-систем выросла почти в восемь раз, а зарубежных — упала до 23 %[1]. На этом фоне особенно важны объективные ориентиры, позволяющие ИТ-директорам и бизнес-пользователям выбрать платформу, которая останется актуальной на ближайшие несколько лет. Именно такую навигационную карту мы и предлагаем.

-7

breakmirrors 5 июн в 10:24

Данные на продажу: что происходит с информацией после утечек

7 мин

8.1K

Блог компании БастионКиберпанкЧитальный залХранение данных * Информационная безопасность *

Обзор

Новости о крупных утечках данных больше никого не удивляют. Компании вкладывают миллионы в безопасность, проводят аудиты, но число таких инцидентов продолжает расти. Только в 2024 году Роскомнадзор зафиксировал 135 утечек — это более 710 миллионов записей о россиянах в базах данных. Но что происходит с данными после взлома? Куда они утекают? Кто и как их покупает?

Большинство новостей на тему утечек ограничиваются банальным «взломали, утекло, делайте выводы». Но утечка данных — это не конец истории, а только ее начало. После взлома данные начинают жить своей жизнью: их разбивают на части, объединяют с другими базами, разыгрывают на аукционах. Теневой рынок, построенный вокруг сбыта таких данных, напоминает отдельную экосистему, которая до сих пор слабо изучена даже среди ИБ-специалистов.

В этой статье разберем, как на практике выглядит жизненный цикл украденных данных. Представьте: вы — опытный специалист по киберразведке, помогающий компаниям справляться с последствиями утечек. Ранним июньским утром вас будит внезапный телефонный звонок. На другом конце провода — гендиректор ООО «Нас никогда не взломают». Судя по голосу, он явно встревожен...

+25

Femtech_Force 5 июн в 06:04

Это личное! Как femtech-приложения защищают наши данные

Простой

13 мин

3.7K

Блог компании Femtech ForceХранение данных * Разработка мобильных приложений * Информационная безопасность * Здоровье

Обзор

Привет! Я Ангелина Сулерова, работаю аналитиком и с недавнего времени пишу тексты для FemTech Force . Это моя первая статья на Хабре, которая затронет одну из важных тем в сфере фемтех — безопасность данных.

Правда ли, что женские данные нужно хранить надёжнее, чем мужские? Что будет, если этого не делать? Какие фемтех-приложения уделяют особое внимание вопросам обеспечения безопасности? Обо всём этом расскажу в своем личном исследовании.

Неважно, новичок вы в этой области, просто интересующийся или активная пользовательница фемтех-продуктов — добро пожаловать под кат!

Кстати, рассказывать буду не только я. Специально для статьи взяла комментарий у Кати Меркуловой — основательницы крупнейшего российского трекера цикла Clatch. Так что забегайте за инсайдерской информацией.

+26

PatientZero 4 июн в 13:39

Прогрессивный JSON

Простой

10 мин

19K

Хранение данных * Алгоритмы * БраузерыПрограммирование *

Обзор

Перевод

Вы знаете, что такое прогрессивный JPEG? Можете почитать хорошее объяснение. Идея заключается в том, что вместо загрузки изображения сверху вниз оно сначала грузится размытым, а потом постепенно становится чётче.

Что, если мы применим тот же принцип к передаче JSON?

+52

vonirug 4 июн в 08:02

Data Mesh: ожидания vs реальность

Средний

10 мин

3.2K

Блог компании Лемана ТехData Engineering * Big Data * Data Mining * Хранение данных *

Представьте: ваш бизнес растет, а вместе с ним и количество данных. Но вместо ценной аналитики — хаос: отчеты готовятся месяцами, данные разбросаны по Excel-файлам, а команда DWH не успевает закрывать запросы. Знакомо? Мы прошли через это и решили внедрить Data Mesh. Ожидания были амбициозные, но что получилось на самом деле?

Simonov_Alex 3 июн в 10:01

MVP по «умному» поиску данных

Средний

11 мин

Блог компании Альфа-БанкPython * Машинное обучение * Искусственный интеллектХранение данных *

Туториал

Всем привет, меня зовут Александр, я аналитик в Альфа-Банке. Совместно с командой мы разрабатываем и развиваем платформу для дата-инженеров (DE) и дата-саентистов (DS), именуемую Feature Store. Она даёт возможность коллегам работать с большими данными и упрощает бюрократию жизненного цикла создания ETL и ввода моделей в промышленную эксплуатацию.

Но хотелось бы улучшить процесс по поиску данных в ней, так как объёмы информации стремительно растут.

Классический поиск выдаёт результаты по точному совпадению, и это не самый удобный вариант, когда данных много. Поэтому нужную информацию, если ты точно не знаешь как найти, невозможно отыскать. Озадачившись этой проблемой, я решил сделать MVP «умного» поиска, который позволяет искать данные/фичи/поля не по точному совпадению, а с учётом смысла.

Надеюсь, данная статья поможет показать и пролить свет на вопрос — «А как же ещё бывает?»

+10

GlobalSign_admin 1 июн в 18:31

Атака через заброшенные бакеты

4 мин

3.8K

Блог компании GlobalSignХранение данных * Облачные сервисы * Open source * Информационная безопасность *

Пример ссылки на удалённый бакет termis с государственного сайта, источник

В связи с развитием технологий каждый год появляются принципиально новые способы атаки, которые раньше никому в голову не приходили и/или не были возможны технически. Например, в 2025 году впервые в истории исследователи провели атаку через заброшенные бакеты S3. Это разновидность атаки на цепочку поставок, как пресловутый случай SolarWinds. Такие действия злоумышленников практически невозможно детектировать стандартными инструментами безопасности, поэтому те могут незаметно работать годами.

Взлом доверенных бакетов означает автоматический доступ к тысячам компаний и организаций, которые скачивают оттуда софт: обновления, исходный код, опенсорсные библиотеки и т. д.

Читать дальше →

1 2 ...

9 10

12 13 ...

165 166

Хранение данных *

Что такое CDN и как она работает: объяснение на примере доставки котиков

Хоронить HDD рано: Seagate выпустила самый вместительный жесткий диск в истории — 40 ТБ

Разработка своего компактного TerraMaster на основе Twin Lake-N и PCIe Switch

Я сделал поисковик хуже Elasticsearch

Смотрим под капот объектному хранилищу VK Cloud: что скрывает архитектура Object Storage

Влияние маленьких файлов на Big Data: HDFS vs S3

Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS

Как мы снизили время создания бэкапов Git с 48 часов до 41 минуты

Рекомендации Oracle по выбору между ArrayList и LinkedList

Резервуарное сэмплирование и собачки

Книга: «Масштабируемые данные. Высоконагруженные архитектуры, Data Mesh и Data Fabric. 2-е изд.»

Приоткрываем завесу: о принципах работы дисковых хранилищ VK Cloud

Как с помощью RuBackup сделать резервное копирование систем виртуализации oVirt, ROSA, zVirt, РЕД Виртуализация, HOSTVM

Ближайшие события

Пятый, юбилейный выпуск исследования «BI-круг Громова»

Данные на продажу: что происходит с информацией после утечек

Это личное! Как femtech-приложения защищают наши данные

Прогрессивный JSON

Data Mesh: ожидания vs реальность

MVP по «умному» поиску данных

Атака через заброшенные бакеты

Вклад авторов