Хранение данных *

Что имеем, то храним

СтатьиПостыНовостиАвторыКомпании

k0rsakov 15 ноя 2024 в 06:00

Инфраструктура для Data-Engineer BI-tools

Простой

7 мин

2.7K

IT-инфраструктура * Big Data * Хранение данных * Data Engineering *

Туториал

BI (Business Intelligence) – это инструмент или несколько инструментов, которые помогают собрать данные в нужный вид и посмотреть на бизнес со стороны данных.

Чаще всего BI-инструментами пользуются аналитики. Они строят дашборды (витрины), выполняют Ad hoc задачи и в целом проводят анализ данных в этих инструментах.

В этой статье я хотел бы показать куда уходят данные и что с ними происходит, когда пайплайны дата-инженеров заканчивают работу.

YO_N 14 ноя 2024 в 14:01

Data catalog: от истории до сравнения решений

11 мин

5.5K

Блог компании VKBig Data * Хранение данных *

Прийти и по запросу быстро найти нужные данные — идеальный сценарий. Но он практически невозможен при условии использования множества баз данных и хранилищ. В реальных условиях без «надстройки» над всеми БД и «единой точки входа» команды вынуждены тратить время на исследование разных хранилищ, их каталогов и подкаталогов в поиске нужных файлов без какой-либо гарантии успешного результата. Такой «надстройкой» являются каталоги данных.

Меня зовут Юрий Орлов, я тимлид команды ML Platform. В этой статье я подробно разберу, что такое каталоги данных и какие они бывают, а также расскажу о нашем выборе инструмента для построения каталога под запросы аналитиков данных.

+27

alzotov 14 ноя 2024 в 11:06

Путешествие внутрь YADRO. Часть 1: распаковка и тест-драйв TATLIN.FLEX.ONE

10 мин

5.6K

Блог компании К2ТехСистемное администрирование * Хранение данных * IT-инфраструктура * Тестирование IT-систем *

Обзор

Хабр, привет! На связи Алексей Зотов из К2Тех. Не так давно в нашу лабораторию приехало оборудование от российского вендора YADRO: TATLIN.FLEX.ONE и TATLIN.BACKUP. Наша команда протестировала это железо, и теперь я хочу поделиться с вами полученными результатами и впечатлениями об этих продуктах.

Сегодня будет часть 1, в которой мы поговорим о российской системе хранения данных начального уровня — TATLIN.FLEX.ONE. В этой статье я детально разберу ее характеристики, особенности конфигурации и администрирования. По итогам серии тестов производительности рассмотрю возможности системы в различных сценариях использования, а также нюансы работы с веб-интерфейсом и CLI, которые могут быть полезны системным администраторам.

Готовы погрузиться в мир отечественных систем хранения данных? Тогда поехали!

+32

Darya_Frolova 14 ноя 2024 в 09:45

Как Прага стала центром инноваций в хранении данных: самая большая вертикальная картотека 30-х годов XX века

4 мин

3.7K

Блог компании МТСИстория ITХранение данных *

Привет, Хабр! Это Дарья Фролова из команды спецпроектов МТС Диджитал. Сегодня поговорим о самой большой в мире вертикальной картотеке XX века. Она располагалась в Чехословакии, в организации под названием «Центральное социальное управление» (Ústřední sociální úřad). Как было устроено хранение документов и что помогало сотрудникам ориентироваться в гигантском хранилище, расскажу дальше.

+37

badcasedaily1 13 ноя 2024 в 14:18

Dask для анализа временных рядов

Простой

3 мин

2.2K

Блог компании OTUSХранение данных *

Обзор

Привет, Хабр!

Сегодня расскажем, как с помощью Dask можно анализировать временные ряды. С временными рядами всегда заморочек много: большие данные, сложные расчеты. Но Dask отлично с этим справляется.

savrus_pub 13 ноя 2024 в 07:00

Новые динтаблицы: вторичные индексы, web assembly и ещё много улучшений к версии YTsaurus 24.1.0

17 мин

2.7K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureBig Data * Open source * Хранение данных *

Динамические таблицы — это распределённая база данных, key‑value‑пары которой объединяются в привычные пользователям реляционных СУБД таблицы. В YTsaurus в них можно хранить огромные массивы данных, при этом их можно быстро читать — поэтому YTsaurus используют почти все сервисы Яндекса: Реклама, Маркет, Такси, даже Поиск при построении поисковой базы, и другие.

Я руковожу службой разработки динамических таблиц в Yandex Infrastructure и раньше уже рассказывал, как мы оптимизировали чтение, улучшали выборку строк в SQL‑запросах и защищались от перегрузок. Сегодня вышла новая версия YTsaurus 24.1.0, в которой динамические таблицы получили ещё несколько долгожданных доработок. В статье расскажу про них подробнее.

+32

kevtushx 11 ноя 2024 в 11:07

Как мы работу блочного pNFS исправляли: продолжение остросюжетного детектива с Linux в главной роли

15 мин

2.4K

Блог компании Cloud.ruIT-инфраструктура * Программирование * Хранение данных * Настройка Linux *

Туториал

Привет, это Константин Евтушенко и Артём Хакимов, разработчики R&D-команды в Cloud.ru. В предыдущей серии Санта-Барбары про pNFS наш коллега Сергей Баширов @sbashiro описал, как настроить стенд pNFS. Рассказ про эти «страдания» вам так понравился, что мы с коллегами просто не можем оставить публику без продолжения. Без доработки у нас ничего не завелось, поэтому сегодня расскажем, как мы настроили окружение для отладки: Wireshark, gdb, trace-cmd ядра Linux, а также разберем трудности, с которыми столкнулись. В качестве подопытного у нас будет все тот же стенд на Ubuntu 22.04.

Поехали!

+22

PatientZero 11 ноя 2024 в 10:23

Оптимизируем использование памяти для поиска IP-адресов

Средний

9 мин

3.1K

Серверная оптимизация * Серверное администрирование * DNS * Хранение данных * SQLite *

Обзор

Перевод

Около трёх лет у меня возникали проблемы с моим обучающим сайтом Mess With DNS: периодически у него заканчивалась память и он перезагружался по OOM.

Это не имело особого приоритета для меня: сервер уходил офлайн лишь на несколько минут при перезапуске, и случалось это максимум раз в день, поэтому я закрывала глаза. Но на прошлой неделе это превратилось в реальную проблему, поэтому я решила изучить вопрос.

Путь был сложным, и в процессе я многому научилась.

CentariumV 11 ноя 2024 в 05:15

Уровни изоляции транзакций в PostgreSQL, MySQL, MSQL, Oracle с примерами на Go

Средний

33 мин

19K

Хранение данных * Базы данных * PostgreSQL * MySQL * Программирование *

Из песочницы

В данной статье обсудим проблемы, возникающие при конкурентной работе с данными, а также инструменты для их решения – атомарные инструкции, явные и неявные блокировки и уровни изолированности транзакций, реализованные в OLTP СУБД PostgreSQL, MySQL, SQL Server, Oracle с примерами на Go. Поговорим о деталях их реализации в указанных СУБД. На примере PostgreSQL проведем benchmark-тестирование производительности уровней изоляции с использованием инструмента pgbench

+24

Basheyev 9 ноя 2024 в 05:23

Boson — разработка СУБД «с нуля» (итог)

Средний

11 мин

5.4K

Хранение данных * Алгоритмы * Системное программирование * C++ *

Цель проекта Boson — это разработка встроенного движка базы данных документов JSON, написанный на C++. Основные возможности: стандартное хранилище JSON-документов в формате ключ/значениями с постоянным хранением на диске. Размер документов до 4Gb. Быстрый поиск документов по ID с использованием индекса B+ дерева. Поддержка курсоров для линейного обхода записей. База данных в одном файле, без временных файлов. Простое, чистое и легкое в использовании API. Самодостаточный и не требующий настройки.

В предыдущих двух статьях мы прошли шаги от кэширования файлового ввода/вода (часть I) до построенного на его базе хранилища записей произвольной длины (часть II) с проверкой целостности, возможностью получения записей списком и повторным использованием свободного места. Теперь мы переходим к завершающей части и "сердцу" СУБД - индексу.

Зачем нужен индекс: предположим, что в базе есть 1 млрд не отсортированных записей документов, тогда поиск конкретного документа по ID потребует O(n) операций, то есть до 1 млрд операций в худшем случае. Однако, если бы документы в базе были бы отсортированы по ID, то поиск в сортированной базе, тем же бинарным поиском занял бы O(log n) занял бы 30 операций. Что, теоретически, на базе в 1 млрд записей будет в 33.3 млн раз быстрее.

+21

MaFrance351 8 ноя 2024 в 08:05

Ленточные накопители в домашнем ПК

Простой

11 мин

32K

Блог компании Timeweb CloudКомпьютерное железоНакопителиСтарое железоХранение данных *

Обзор

Приветствую всех!
Однажды перед каждым из нас встаёт вопрос: где хранить сотни гигабайт столь важной информации? Кто-то продлевает подписку в облаке, кто-то покупает ещё один винт, кто-то собирает NAS, а кто-то, как и я, присматривается к чуть более экзотическим решениям.
Вдохновившись постом двухгодичной давности про серверное железо в обычном ПК, я решил, что самое время рассказать про ещё один атрибут подобных систем — стримеры.

Если в прошлый раз я рассказывал про древний аппарат, то в сегодняшней статье поговорим про более современные экземпляры, а главное — про использование таких девайсов в самых обычных компьютерах. Заодно разберёмся, стоит ли пытаться так делать, как заставить всё это работать, какой экземпляр лучше, а на какие не стоит даже смотреть.

Читать дальше →

+115

199

LysanovSergey 7 ноя 2024 в 11:29

Как мы сделали собственный Software-Defined Storage для публичного облака Cloud.ru Evolution

Сложный

24 мин

5.7K

Блог компании Cloud.ruХранение данных * IT-инфраструктура * Программирование * Высоконагруженные системы *

Обзор

Хабр, приветствую! Я Сергей Лысанов — технический лидер и руководитель разработки систем хранения данных. Наша команда начала создавать собственное хранилище с нуля в 2021 году и через три года мы вышли в продакшн вместе с публичным облаком Cloud.ru Evolution. В этой статье я подробно расскажу, как устроено наше хранилище и поделюсь интересными техническими решениями. Welcome!

+15

PatientZero 7 ноя 2024 в 11:24

Когда есть разница регистров, но это не верхний и не нижний регистры?

Простой

2 мин

7.1K

Хранение данных * Текстовые редакторы и IDE * Программирование *

Обзор

Перевод

Если вы начнёте изучать стандарт Unicode, то, к своему удивлению, можете обнаружить некоторые символы, имеющие различия в регистре, при этом они сами по себе ни в верхнем, ни в нижнем регистре.

У-у-у-у, загадочно и пугающе.

Иными словами, это символ c, обладающий следующими свойствами:

toUpper(c) ≠ toLower(c), однако

c ≠ toUpper(c) и c ≠ toLower(c).

Поздравляю, вы обнаружили таинственный третий регистр: Title case.

+59

vanadium23 7 ноя 2024 в 09:00

Как в базе поставщиков найти лучшие по цене предложения, чтобы показать их пользователю

15 мин

1.3K

Блог компании Конференции Олега Бунина (Онтико)Блог компании Островок!Высоконагруженные системы * Хранение данных *

Туториал

Управление поиском цен на отели в сервисе бронирования — это как ремонт работающего двигателя. Работа с запросами происходит в реальном времени, и простого варианта «отель N на майские» недостаточно, чтобы получить то, что нужно. Скрейпинг, массовые запросы, настройка баланса просмотров и бронирований при работе с самописными базами поставщиков и их ограниченными серверными мощностями — задача почти невыполнимая. Почти…

Привет, Хабр! Меня зовут Иван Чернов. Я 12 лет в IT, 6 из них работаю в «Островок!». В этой статье расскажу, как справиться с нагрузкой и поддерживать бесперебойную работу системы. Рассмотрим масштабирование Redis, использование Aerospike, фильтр Блума и решим задачку со звёздочкой. Поговорим о маленьком кусочке схемы, который непосредственно работает с поставщиками в поиске. Это самая нагруженная часть, где возникают наибольшие проблемы с highload. Но именно она нужна, чтобы пользователи получили лучшие цены.

Qusi 6 ноя 2024 в 11:20

Обзор российских VPS-серверов в Нидерландах

Простой

8 мин

29K

Облачные сервисы * Хранение данных * ХостингСерверное администрирование *

Обзор

Недавно увидел рекламу от FirstVDS, что у них появились серверы в Нидерландах — стало интересно и захотелось протестировать предложение. Но чтобы было проще ориентироваться на местности, я также решил протестировать серверы нескольких других хостеров, которые также предоставляют свои услуги в Нидерландах. А их оказалось немало: это и привычные RUVDS с Timeweb, и не бывавшие ранее в моих тестах VPS1 и VDSKA. Под катом — несколько тестов на производительность и сравнение предложений между собой.

+42

BiktorSergeev 6 ноя 2024 в 07:12

Квантовые дефекты и возрождение CD и DVD: революция в оптических носителях данных?

4 мин

5.3K

Блог компании МТСХранение данных * НакопителиНаучно-популярноеБудущее здесь

Объем информации, генерируемой ежегодно, растет: так, сейчас человечество создает около 147 зеттабайт данных в год, а к 2025 году этот показатель может вырастет до 181 зеттабайта. Необходимость новых решений в хранении информации становится все острее, поэтому производители накопителей данных постоянно разрабатывают более емкие системы.

Но, возможно, стоит не только искать новые технологии, но и совершенствовать уже существующие. Новые исследования Чикагского университета и Аргоннской национальной лаборатории показали, что давно забытые CD и DVD могут обрести вторую жизнь. Использование квантовых дефектов и редкоземельных элементов позволяет многократно увеличивать плотность данных на оптических носителях. Возможно, что они смогут конкурировать с современными технологиями хранения. Справедливости ради стоит сказать, что вопросов к этой работе больше, чем ответов. Подробности — под катом.

+14

Xcom-shop 5 ноя 2024 в 08:57

Можно ли нарастить хранилище в MacBook на Apple Silicon? Судя по всему, да

Простой

3 мин

7.5K

Блог компании Группа компаний X-ComНакопителиНоутбукиХранение данных *

Мнение

Еще десять лет назад модернизация хранилища в компьютерах Apple не была хоть сколько-то актуальной темой. Компания почти этому не препятствовала, и пользователи могли без проблем нарастить хранилище своих Mac. Но с 2016 года заменить накопитель стало фактически невозможно. Apple стала не просто мешать этому, а просто возвела эту процедуру в статус абсолютного зла. Однако недавнее открытие может в корне изменить сложившуюся ситуацию, поскольку решение для расширения накопителя в современных MacBook все-таки есть.

SergeyProkhorenko 3 ноя 2024 в 21:05

Смещение значения таймстемпа UUIDv7

Средний

2 мин

2.9K

Высоконагруженные системы * Анализ и проектирование систем * IT-стандарты * Big Data * Хранение данных *

Аналитика

UUIDv7 – это удобный и безопасный 128-битный уникальный идентификатор, который призван заменить целочисленные суррогатные ключи формата bigint в качестве первичного ключа в высоконагруженных базах данных и распределенных системах.

SLY_G 3 ноя 2024 в 14:53

Фотография на 4,6 терабита: техника фотографии XIX века, использованная в новом методе хранения данных

Простой

10 мин

8.5K

НакопителиНаучно-популярноеХранение данных * Физика

Перевод

Кларк Джонсон говорит, что хотел стать учёным с трёх лет. В 8 лет ему наскучил полученный в подарок набор для создания телеграфа, и он переделал его в телефон. К 12 годам он решил изучать физику, потому что хотел понять, как работают вещи на самом базовом уровне.

«В то время я ошибочно полагал, что физики настроены на левое ухо Бога», — говорит Джонсон.

Окончив в 1950 году в возрасте 19 лет Университет Миннесоты Twin Cities со степенью бакалавра по физике, он собирался поступать в аспирантуру, когда ему позвонил руководитель физического отдела научно-исследовательской лаборатории компании 3M и предложил работу. Соблазнившись перспективой делать всякое своими собственными руками, Джонсон согласился на должность физика на предприятии компании в Сент-Поле, штат Миннесота. Так началась его более чем семидесятилетняя карьера инженера-электрика, изобретателя и предпринимателя, которая продолжается и по сей день.

+20

SergSV86 2 ноя 2024 в 13:12

Как мы научились эффективно управлять ростом данных с переходом на BW/4HANA

Средний

9 мин

1.9K

Блог компании Lenta techВысоконагруженные системы * IT-инфраструктура * Хранение данных *

Обзор

Всем привет! Меня зовут Сергей Вяльцев. Я архитектор команды «Финансы» в «Ленте», домен «Данные и Аналитика». Хочу поделиться тем, как благодаря миграции на BW/4HANA нам удалось разгрузить сервер базы данных хранилища SAP BW, не прибегая к покупке дорогостоящего оборудования. Более подробно остановлюсь на описании новой технологии NSE и результатах ее применения в нашей системе.

+10

1 2 ...

24 25

27 28 ...

166 167

Хранение данных *

Инфраструктура для Data-Engineer BI-tools

Data catalog: от истории до сравнения решений

Путешествие внутрь YADRO. Часть 1: распаковка и тест-драйв TATLIN.FLEX.ONE

Как Прага стала центром инноваций в хранении данных: самая большая вертикальная картотека 30-х годов XX века

Dask для анализа временных рядов

Новые динтаблицы: вторичные индексы, web assembly и ещё много улучшений к версии YTsaurus 24.1.0

Как мы работу блочного pNFS исправляли: продолжение остросюжетного детектива с Linux в главной роли

Оптимизируем использование памяти для поиска IP-адресов

Уровни изоляции транзакций в PostgreSQL, MySQL, MSQL, Oracle с примерами на Go

Boson — разработка СУБД «с нуля» (итог)

Ленточные накопители в домашнем ПК

Как мы сделали собственный Software-Defined Storage для публичного облака Cloud.ru Evolution

Когда есть разница регистров, но это не верхний и не нижний регистры?

Ближайшие события

Как в базе поставщиков найти лучшие по цене предложения, чтобы показать их пользователю

Обзор российских VPS-серверов в Нидерландах

Квантовые дефекты и возрождение CD и DVD: революция в оптических носителях данных?

Можно ли нарастить хранилище в MacBook на Apple Silicon? Судя по всему, да

Смещение значения таймстемпа UUIDv7

Фотография на 4,6 терабита: техника фотографии XIX века, использованная в новом методе хранения данных

Как мы научились эффективно управлять ростом данных с переходом на BW/4HANA

Вклад авторов