Обновить
165.9

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга
Уровень сложности

Инфраструктура для Data-Engineer BI-tools

Уровень сложностиПростой
Время на прочтение7 мин
Просмотры2.7K

BI (Business Intelligence) – это инструмент или несколько инструментов, которые помогают собрать данные в нужный вид и посмотреть на бизнес со стороны данных.

Чаще всего BI-инструментами пользуются аналитики. Они строят дашборды (витрины), выполняют Ad hoc задачи и в целом проводят анализ данных в этих инструментах.

В этой статье я хотел бы показать куда уходят данные и что с ними происходит, когда пайплайны дата-инженеров заканчивают работу.

Читать далее

Data catalog: от истории до сравнения решений

Время на прочтение11 мин
Просмотры5.5K

Прийти и по запросу быстро найти нужные данные — идеальный сценарий. Но он практически невозможен при условии использования множества баз данных и хранилищ. В реальных условиях без «надстройки» над всеми БД и «единой точки входа» команды вынуждены тратить время на исследование разных хранилищ, их каталогов и подкаталогов в поиске нужных файлов без какой-либо гарантии успешного результата. Такой «надстройкой» являются каталоги данных.

Меня зовут Юрий Орлов, я тимлид команды ML Platform. В этой статье я подробно разберу, что такое каталоги данных и какие они бывают, а также расскажу о нашем выборе инструмента для построения каталога под запросы аналитиков данных.

Читать далее

Путешествие внутрь YADRO. Часть 1: распаковка и тест-драйв TATLIN.FLEX.ONE

Время на прочтение10 мин
Просмотры5.6K

Хабр, привет! На связи Алексей Зотов из К2Тех. Не так давно в нашу лабораторию приехало оборудование от российского вендора YADRO: TATLIN.FLEX.ONE и TATLIN.BACKUP. Наша команда протестировала это железо, и теперь я хочу поделиться с вами полученными результатами и впечатлениями об этих продуктах.

Сегодня будет часть 1, в которой мы поговорим о российской системе хранения данных начального уровня — TATLIN.FLEX.ONE. В этой статье я детально разберу ее характеристики, особенности конфигурации и администрирования. По итогам серии тестов производительности рассмотрю возможности системы в различных сценариях использования, а также нюансы работы с веб-интерфейсом и CLI, которые могут быть полезны системным администраторам.

Готовы погрузиться в мир отечественных систем хранения данных? Тогда поехали!

Читать далее

Как Прага стала центром инноваций в хранении данных: самая большая вертикальная картотека 30-х годов XX века

Время на прочтение4 мин
Просмотры3.7K

Привет, Хабр! Это Дарья Фролова из команды спецпроектов МТС Диджитал. Сегодня поговорим о самой большой в мире вертикальной картотеке XX века. Она располагалась в Чехословакии, в организации под названием «Центральное социальное управление» (Ústřední sociální úřad). Как было устроено хранение документов и что помогало сотрудникам ориентироваться в гигантском хранилище, расскажу дальше.

Читать далее

Dask для анализа временных рядов

Уровень сложностиПростой
Время на прочтение3 мин
Просмотры2.2K

Привет, Хабр!

Сегодня расскажем, как с помощью Dask можно анализировать временные ряды. С временными рядами всегда заморочек много: большие данные, сложные расчеты. Но Dask отлично с этим справляется.

Читать далее

Новые динтаблицы: вторичные индексы, web assembly и ещё много улучшений к версии YTsaurus 24.1.0

Время на прочтение17 мин
Просмотры2.7K

Динамические таблицы — это распределённая база данных, key‑value‑пары которой объединяются в привычные пользователям реляционных СУБД таблицы. В YTsaurus в них можно хранить огромные массивы данных, при этом их можно быстро читать — поэтому YTsaurus используют почти все сервисы Яндекса: Реклама, Маркет, Такси, даже Поиск при построении поисковой базы, и другие.

Я руковожу службой разработки динамических таблиц в Yandex Infrastructure и раньше уже рассказывал, как мы оптимизировали чтение, улучшали выборку строк в SQL‑запросах и защищались от перегрузок. Сегодня вышла новая версия YTsaurus 24.1.0, в которой динамические таблицы получили ещё несколько долгожданных доработок. В статье расскажу про них подробнее.

Читать далее

Как мы работу блочного pNFS исправляли: продолжение остросюжетного детектива с Linux в главной роли

Время на прочтение15 мин
Просмотры2.4K

Привет, это Константин Евтушенко и Артём Хакимов, разработчики R&D-команды в Cloud.ru. В предыдущей серии Санта-Барбары про pNFS наш коллега Сергей Баширов @sbashiro описал, как настроить стенд pNFS. Рассказ про эти «страдания» вам так понравился, что мы с коллегами просто не можем оставить публику без продолжения. Без доработки у нас ничего не завелось, поэтому сегодня расскажем, как мы настроили окружение для отладки: Wireshark, gdb, trace-cmd ядра Linux, а также разберем трудности, с которыми столкнулись. В качестве подопытного у нас будет все тот же стенд на Ubuntu 22.04.

Поехали!

Оптимизируем использование памяти для поиска IP-адресов

Уровень сложностиСредний
Время на прочтение9 мин
Просмотры3.1K

Около трёх лет у меня возникали проблемы с моим обучающим сайтом Mess With DNS: периодически у него заканчивалась память и он перезагружался по OOM.

Это не имело особого приоритета для меня: сервер уходил офлайн лишь на несколько минут при перезапуске, и случалось это максимум раз в день, поэтому я закрывала глаза. Но на прошлой неделе это превратилось в реальную проблему, поэтому я решила изучить вопрос.

Путь был сложным, и в процессе я многому научилась.

Читать далее

Уровни изоляции транзакций в PostgreSQL, MySQL, MSQL, Oracle с примерами на Go

Уровень сложностиСредний
Время на прочтение33 мин
Просмотры19K

В данной статье обсудим проблемы, возникающие при конкурентной работе с данными, а также инструменты для их решения – атомарные инструкции, явные и неявные блокировки и уровни изолированности транзакций, реализованные в OLTP СУБД PostgreSQL, MySQL, SQL Server, Oracle с примерами на Go. Поговорим о деталях их реализации в указанных СУБД. На примере PostgreSQL проведем benchmark-тестирование производительности уровней изоляции с использованием инструмента pgbench

Читать далее

Boson — разработка СУБД «с нуля» (итог)

Уровень сложностиСредний
Время на прочтение11 мин
Просмотры5.4K

Цель проекта Boson — это разработка встроенного движка базы данных документов JSON, написанный на C++. Основные возможности: стандартное хранилище JSON-документов в формате ключ/значениями с постоянным хранением на диске. Размер документов до 4Gb. Быстрый поиск документов по ID с использованием индекса B+ дерева. Поддержка курсоров для линейного обхода записей. База данных в одном файле, без временных файлов. Простое, чистое и легкое в использовании API. Самодостаточный и не требующий настройки.

В предыдущих двух статьях мы прошли шаги от кэширования файлового ввода/вода (часть I) до построенного на его базе хранилища записей произвольной длины (часть II) с проверкой целостности, возможностью получения записей списком и повторным использованием свободного места. Теперь мы переходим к завершающей части и "сердцу" СУБД - индексу.

Зачем нужен индекс: предположим, что в базе есть 1 млрд не отсортированных записей документов, тогда поиск конкретного документа по ID потребует O(n) операций, то есть до 1 млрд операций в худшем случае. Однако, если бы документы в базе были бы отсортированы по ID, то поиск в сортированной базе, тем же бинарным поиском занял бы O(log n) занял бы 30 операций. Что, теоретически, на базе в 1 млрд записей будет в 33.3 млн раз быстрее.

Читать далее

Ленточные накопители в домашнем ПК

Уровень сложностиПростой
Время на прочтение11 мин
Просмотры32K
Приветствую всех!
Однажды перед каждым из нас встаёт вопрос: где хранить сотни гигабайт столь важной информации? Кто-то продлевает подписку в облаке, кто-то покупает ещё один винт, кто-то собирает NAS, а кто-то, как и я, присматривается к чуть более экзотическим решениям.
Вдохновившись постом двухгодичной давности про серверное железо в обычном ПК, я решил, что самое время рассказать про ещё один атрибут подобных систем — стримеры.



Если в прошлый раз я рассказывал про древний аппарат, то в сегодняшней статье поговорим про более современные экземпляры, а главное — про использование таких девайсов в самых обычных компьютерах. Заодно разберёмся, стоит ли пытаться так делать, как заставить всё это работать, какой экземпляр лучше, а на какие не стоит даже смотреть.
Читать дальше →

Как мы сделали собственный Software-Defined Storage для публичного облака Cloud.ru Evolution

Уровень сложностиСложный
Время на прочтение24 мин
Просмотры5.7K

Хабр, приветствую! Я Сергей Лысанов — технический лидер и руководитель разработки систем хранения данных. Наша команда начала создавать собственное хранилище с нуля в 2021 году и через три года мы вышли в продакшн вместе с публичным облаком Cloud.ru Evolution. В этой статье я подробно расскажу, как устроено наше хранилище и поделюсь интересными техническими решениями. Welcome!

Читать дальше

Когда есть разница регистров, но это не верхний и не нижний регистры?

Уровень сложностиПростой
Время на прочтение2 мин
Просмотры7.1K

Если вы начнёте изучать стандарт Unicode, то, к своему удивлению, можете обнаружить некоторые символы, имеющие различия в регистре, при этом они сами по себе ни в верхнем, ни в нижнем регистре.

У-у-у-у, загадочно и пугающе.

Иными словами, это символ c, обладающий следующими свойствами:

toUpper(c) ≠ toLower(c), однако

c ≠ toUpper(c) и c ≠ toLower(c).

Поздравляю, вы обнаружили таинственный третий регистр: Title case.

Читать далее

Ближайшие события

Как в базе поставщиков найти лучшие по цене предложения, чтобы показать их пользователю

Время на прочтение15 мин
Просмотры1.3K

Управление поиском цен на отели в сервисе бронирования — это как ремонт работающего двигателя. Работа с запросами происходит в реальном времени, и простого варианта «отель N на майские» недостаточно, чтобы получить то, что нужно. Скрейпинг, массовые запросы, настройка баланса просмотров и бронирований при работе с самописными базами поставщиков и их ограниченными серверными мощностями — задача почти невыполнимая. Почти…

Привет, Хабр! Меня зовут Иван Чернов. Я 12 лет в IT, 6 из них работаю в «Островок!». В этой статье расскажу, как справиться с нагрузкой и поддерживать бесперебойную работу системы. Рассмотрим масштабирование Redis, использование Aerospike, фильтр Блума и решим задачку со звёздочкой. Поговорим о маленьком кусочке схемы, который непосредственно работает с поставщиками в поиске. Это самая нагруженная часть, где возникают наибольшие проблемы с highload. Но именно она нужна, чтобы пользователи получили лучшие цены.

Читать далее

Обзор российских VPS-серверов в Нидерландах

Уровень сложностиПростой
Время на прочтение8 мин
Просмотры29K

Недавно увидел рекламу от FirstVDS, что у них появились серверы в Нидерландах — стало интересно и захотелось протестировать предложение. Но чтобы было проще ориентироваться на местности, я также решил протестировать серверы нескольких других хостеров, которые также предоставляют свои услуги в Нидерландах. А их оказалось немало: это и привычные RUVDS с Timeweb, и не бывавшие ранее в моих тестах VPS1 и VDSKA. Под катом — несколько тестов на производительность и сравнение предложений между собой.

Читать далее

Квантовые дефекты и возрождение CD и DVD: революция в оптических носителях данных?

Время на прочтение4 мин
Просмотры5.3K

Объем информации, генерируемой ежегодно, растет: так, сейчас человечество создает около 147 зеттабайт данных в год, а к 2025 году этот показатель может вырастет до 181 зеттабайта. Необходимость новых решений в хранении информации становится все острее, поэтому производители накопителей данных постоянно разрабатывают более емкие системы.

Но, возможно, стоит не только искать новые технологии, но и совершенствовать уже существующие. Новые исследования Чикагского университета и Аргоннской национальной лаборатории показали, что давно забытые CD и DVD могут обрести вторую жизнь. Использование квантовых дефектов и редкоземельных элементов позволяет многократно увеличивать плотность данных на оптических носителях. Возможно, что они смогут конкурировать с современными технологиями хранения​. Справедливости ради стоит сказать, что вопросов к этой работе больше, чем ответов. Подробности — под катом.

Читать далее

Можно ли нарастить хранилище в MacBook на Apple Silicon? Судя по всему, да

Уровень сложностиПростой
Время на прочтение3 мин
Просмотры7.5K

Еще десять лет назад модернизация хранилища в компьютерах Apple не была хоть сколько-то актуальной темой. Компания почти этому не препятствовала, и пользователи могли без проблем нарастить хранилище своих Mac. Но с 2016 года заменить накопитель стало фактически невозможно. Apple стала не просто мешать этому, а просто возвела эту процедуру в статус абсолютного зла. Однако недавнее открытие может в корне изменить сложившуюся ситуацию, поскольку решение для расширения накопителя в современных MacBook все-таки есть.

Читать далее

Смещение значения таймстемпа UUIDv7

Уровень сложностиСредний
Время на прочтение2 мин
Просмотры2.9K

UUIDv7 – это удобный и безопасный 128-битный уникальный идентификатор, который призван заменить целочисленные суррогатные ключи формата bigint в качестве первичного ключа в высоконагруженных базах данных и распределенных системах.

Читать далее

Фотография на 4,6 терабита: техника фотографии XIX века, использованная в новом методе хранения данных

Уровень сложностиПростой
Время на прочтение10 мин
Просмотры8.5K

Кларк Джонсон говорит, что хотел стать учёным с трёх лет. В 8 лет ему наскучил полученный в подарок набор для создания телеграфа, и он переделал его в телефон. К 12 годам он решил изучать физику, потому что хотел понять, как работают вещи на самом базовом уровне.

«В то время я ошибочно полагал, что физики настроены на левое ухо Бога», — говорит Джонсон.

Окончив в 1950 году в возрасте 19 лет Университет Миннесоты Twin Cities со степенью бакалавра по физике, он собирался поступать в аспирантуру, когда ему позвонил руководитель физического отдела научно-исследовательской лаборатории компании 3M и предложил работу. Соблазнившись перспективой делать всякое своими собственными руками, Джонсон согласился на должность физика на предприятии компании в Сент-Поле, штат Миннесота. Так началась его более чем семидесятилетняя карьера инженера-электрика, изобретателя и предпринимателя, которая продолжается и по сей день.

Читать далее

Как мы научились эффективно управлять ростом данных с переходом на BW/4HANA

Уровень сложностиСредний
Время на прочтение9 мин
Просмотры1.9K

Всем привет! Меня зовут Сергей Вяльцев. Я архитектор команды «Финансы» в «Ленте», домен «Данные и Аналитика». Хочу поделиться тем, как благодаря миграции на BW/4HANA нам удалось разгрузить сервер базы данных хранилища SAP BW, не прибегая к покупке дорогостоящего оборудования. Более подробно остановлюсь на описании новой технологии NSE и результатах ее применения в нашей системе.

Читать далее

Вклад авторов