Обновить
116.57

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга
Уровень сложности

Дефрагментация HDD ускоряет скорость работы, но на сколько? Расчет скорости HDD в зависимости от фрагментации

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели8.7K

Что такое фрагментация?

Фрагментация — это состояние, при котором файлы физически располагаются на разных участках диска, а не непрерывно друг за другом. Из-за этого магнитная головка вынуждена совершать лишние движения, тратя значительное время на поиск нужных участков. По мере накопления фрагментов файлов снижается общая скорость работы накопителя, ухудшается отклик системы и увеличивается износ самого устройства.

Введение процедуры дефрагментации способно кардинально изменить ситуацию. Суть дефрагментации заключается в объединении отдельных фрагментов файлов в единую область на диске, сокращая путь движения головок и уменьшая среднее время доступа к данным. Этот процесс оказывает непосредственное влияние на повышение общей производительности системы, снижение нагрузки на аппаратуру и продление срока службы HDD.Далее мы подробно изучим механизм воздействия фрагментации и дефрагментации на показатели скорости работы жесткого диска, используя конкретные расчеты и наглядные примеры.

Характеристики HDD

Основные характеристики HDD:

-Объем, Гб;

-Линейная скорость чтения/записи, Mb/s ;

-Количество оборотов диска в минуту, rpm;

-Время перехода track to track, ms.

Возьмем для моделирования HDD со следующими характеристиками

/

Читать далее

Новости

Объектные хранилища: чем заменить minio?

Уровень сложностиСредний
Время на прочтение25 мин
Охват и читатели19K

Как говорят у меня на родине: корпоративная жадность — двигатель миграций. И именно это мы сейчас можем наблюдать на примере MinIO — некогда любимого инструмента DevOps-инженеров для развёртывания S3-совместимого хранилища. В 2021 году они втихушку сменили лицензию на AGPL v3, а в 2025 году и вовсе выпилили веб-интерфейс из бесплатной версии. Ну и, наверное, можно подумать, что за такой удобный инструмент можно и заплатить. Но тогда встаёт вопрос: какова цена коммерческой лицензии? От $96 000 в год)

В этой статье мы разберём, чем можно заменить MinIO, сравним альтернативы в разных сценариях и, конечно же, развернём их руками — потому что теория без практики, как вайбкодер без гпт.

Читать далее

Создаем пет-проект по аналитике в связке с GitHub Actions. Часть 2

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели10K

Привет, Хабр! Продолжаю обозревать GitHub Actions на примере пет проекта для аналитика.

Статья будет полезна начинающим аналитикам в поисках хорошего проекта для своего портфолио. В этой части разбираю подход к выбору проекта и источника данных, к сбору и анализу данных и представлении результатов своей работы. 

Читать далее

АИС «Налог-3»: почему это одна из самых мощных государственных IT-систем России

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели9.5K

За последнее десятилетие Федеральная налоговая служба (ФНС) совершила фундаментальный переход от традиционной модели администрирования к подходу, основанному на анализе больших баз данных.

Если вы соприкасались с налоговой системой - проходили проверки, бывали на комиссиях в инспекциях, общались с налоговыми органами, то вы слышали про АИС «Налог-3», одну из самых масштабных государственных IT-платформ в России.

Я проработал в системе налоговых органов 12 лет - от рядового инспектора в ИФНС до заместителя начальника отдела проведения налоговых проверок Управления ФНС - и наблюдал эту трансформацию изнутри. В этой статье я хочу показать, насколько эта система действительно мощная, как она эволюционировала, что она реально умеет сегодня и почему, несмотря на весь объём данных, это пока не «искусственный интеллект, который всё делает сам»

Сразу обозначу границу: я не раскрываю никакой служебной информации. Всё, о чём в статье пойдёт речь, это обобщение моего опыта работы в службе и данные, которые размещены в открытом доступе. Из налоговых органов я ушёл относительно недавно (2 месяца назад), и за это время мало, что могло поменяться, поэтому информация все еще остается актуальной.

Читать далее

Капсулы времени – жест доверия к эпохе, в которой нас уже нет

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели16K

Итак, вы закапываете коробку. Даже не коробку, а металлический ящик. В нем лежат свежая газетка, флешка с актуальным плейлистом и сентиментальная записка. Наверняка она начинается со слов вроде «Дорогой потомок!..» или «Вы прочитаете этот текст спустя 100 лет после…». Действительно, а что еще можно написать, если ты уверен — послание прочитают люди совершенно другой эпохи? Возможно, внуки твоих внуков. И в голову сразу лезут всякие банальности.

Адресат капсулы времени — незнакомец, который родится через 50-100 лет. Вы никогда его не увидите, а он сделает выводы о вас по скромному набору предметов из коробки. Выходит, капсула времени — это своеобразный жест доверия к будущему, в котором нас уже не будет.

Под катом обсудим, откуда взялась идея создания капсул времени, что чаще всего «дарят» потомкам и зачем вообще люди общаются с будущим таким странным образом.

Читать далее

Как кризис оперативной памяти повлияет на видеокарты и консоли новых поколений

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели9.6K

Все уже в курсе, что цены на оперативную память взлетели до небес. DDR5-комплекты, которые еще в сентябре стоили вполне разумных денег, теперь продаются втридорога. Но это еще цветочки. Гораздо хуже то, что текущий кризис памяти может серьезно повлиять на выход будущих видеокарт и консолей следующего поколения. Речь идет не только о повышении цен, но и о возможных задержках или даже отмене целых линеек продуктов. В худшем случае 2026 год вообще может пройти без новых GPU. Все это звучит как сюжет для антиутопии, но давайте разберемся, что происходит на самом деле.

Читать далее

Работа на результат: топ-5 средств по защите информации для построения системы кибербезопасности

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели8.7K

В последние десятилетия вопрос построения эффективных систем информационной безопасности (ИБ) все чаще поднимается как в госорганизациях, так и коммерческих компаниях. Причем не только крупных, но и средних. Сегодня рынок кибербезопасности предлагает очень широкий выбор: от комплексных платформ, содержащих множество функций до узкоспециализированных продуктов, решающих конкретные задачи. Кроме того, не стоит забывать о решениях на базе open source. На фоне этого многообразия заказчикам зачастую трудно собрать оптимальный набор инструментов, который обеспечит надежную защиту инфраструктуры.

Компания «Анлим», центр компетенций по информационной безопасности, в статье делится рейтингом пяти наиболее эффективных средств для защиты данных. О каждом классе, вошедшем в стартовый набор для построения системы ИБ, опираясь на многолетний опыт, подробнее расскажет Вячеслав Пронюшкин, первый заместитель технического директора.

Читать далее

Единый источник правды – это не миф. Но есть нюансы. Опыт построения корпоративного хранилища данных в «Газпром ЦПС»

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели9.1K

Привет, Хабр! Меня зовут Андрей Боков, я главный архитектор отдела разработки хранилищ данных в «Газпром ЦПС». Если вы хоть раз сталкивались с тем, что информация о сотрудниках не соответствует в различных корпоративных системах, например, 1С, электронный документооборот, корпоративный портал, система управления проектами, – вы понимаете, о чем сейчас пойдет речь. Мы пробовали решить эту проблему точечными интеграциями, но с ростом числа систем увеличивался и хаос в данных. Нам был нужен единый контур, который позволит проследить путь данных от источников до отчета.

Так началась работа над корпоративным хранилищем данных (КХД). Мы выбрали многослойную архитектуру и методологию Data Vault 2.0 – подход, который сохраняет историю изменений и дает возможность подключать новые источники без перепроектирования структур хранилища. В статье я расскажу про наш опыт, который будет полезен специалистам по работе с данными: руководителям, архитекторам, аналитикам и инженерам. Подробно опишу, как мы строили ядро КХД и какие уроки и инсайты вынесли по результатам реализации.

Читать далее

Вы строите Lakehouse, а сторадж строит вам проблемы. Что делать?

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели11K

Всем привет! Меня зовут Дмитрий Листвин, я занимаюсь аналитическим хранилищем данных в Авито.

В этой статье я собрал наш опыт построения Lakehouse поверх объектного хранилища, как реальная аналитическая нагрузка быстро превращает «обычный S3» в самый капризный элемент всей архитектуры. Будет много про извлечение максимума производительности из Ceph: как добиться высокой пропускной способности HDD, когда поверх данных хочется запускать тяжёлые аналитические запросы.

Читать далее

Trino в Авито два года спустя: от движка к полноценной экосистеме

Время на прочтение10 мин
Охват и читатели11K

Всем привет! Меня зовут Дмитрий Рейман, я техлид аналитической платформы Avito. Уже третий год мы занимаемся миграцией с Vertica на Trino. Изначально казалось, что это будет просто: перенесём запросы, перепишем коннекторы, чуть подправим пайплайны.

Но за два с лишним года миграция перестала быть просто миграцией: проект разросся в инженерную одиссею, и вокруг Trino мы начали строить целую экосистему. Как это было — рассказываю под катом.

Читать далее

Оптимизация Power BI: как одно свойство уменьшает размер модели на 30%

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели3.6K

Сегодня мы, Павел Ефремов и Мухаммед Пашаев (разработчики аналитических систем в Лемана Тех), поговорим об оптимизации моделей данных в Power BI Desktop — конкретно о движке Tabular. Небольшая вводная: в нашей компании Power BI — основной BI-инструмент (лучшие для лучших😏). Используем локальную версию Power BI Report Server, поэтому вопрос производительности моделей и отчетов стоит особо остро. Мы регулярно проводим ревью моделей (подробнее в нашей прошлой статье), стараясь придерживаться лучших практик — минимальная нужная гранулярность данных, никаких избыточных связей, двунаправленных связей, скрытых автоматических календарей и прочее. Тем не менее отчеты все равно порой залипают и работают медленно. Казалось бы, уже много где поковырялись, все оптимизировали, и все равно фрустрация не уходит. Так, вместе с коллегой мы взялись копать глубже, шерстить интернет и Microsoft-документацию и наткнулись на почти незаметное, но важное свойство табличной модели. Что, если мы скажем, что у Tabular Model есть свойство, благодаря которому можно уменьшить размер модели до 30%, ускорить обновление данных, снизить нагрузку на сервер и при этом не менять ни одной таблицы, связи или строку DAX?

Это открытие заставило нас по-новому взглянуть на оптимизацию в Power BI. Оказалось, что помимо привычных правил вроде избегания лишних связей или сокращения столбцов есть и менее заметные, но очень мощные приемы. Они не требуют переделывать модель, но при этом реально ускоряют отчеты и снижают нагрузку.

Читать далее

Есть ли жизнь после Vertica или миграция DWH в Lakehouse

Время на прочтение17 мин
Охват и читатели10K

Всем привет! Меня зовут Дмитрий Рейман, я техлид аналитической платформы Авито. Мы строим систему общего назначения, которая одновременно обслуживает ETL, витрины, BI, ad-hoc аналитику и продуктовые платформы.

И в какой-то момент мы столкнулись с неприятным эффектом: объём данных начал расти заметно быстрее, чем органический рост, на который мы ориентировались раньше. Модель классического on-prem DWH перестала масштабироваться линейно: борьба за ресурсы мешала давать гарантии готовности данных; локальные оптимизации давали всё меньший эффект; любой рост требовал масштабирования “по месту” и приводил к длительным простоям аналитики.

Стало понятно, что дальнейший рост в рамках прежней архитектуры будет только усиливать эти эффекты. Именно так мы пришли к необходимости сменить базовую парадигму хранилища и начать движение в сторону Lakehouse-архитектуры. О том, как это было, читайте под катом.

Читать далее

FTP‑сервер на Linux: настройка для домашнего проекта

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели14K

Флешки постепенно уходят в прошлое, а облачные хранилища не всегда подходят для домашних проектов и экспериментов. Иногда хочется простого и предсказуемого способа обмена файлами — без подписок, лимитов и лишней инфраструктуры.

FTP-сервер — один из самых простых вариантов для решения этой задачи. Он не требует сложной инфраструктуры, минимально нагружает систему и поддерживается практически любыми клиентами.

В этой статье вы найдёте пошаговый гайд по развёртыванию FTP-сервера на VPS UltraVDS под управлением Debian 12 с использованием vsftpd (Very Secure FTP Daemon).

Читать далее

Ближайшие события

Как работают CSI-драйверы в Kubernetes: принципы, архитектура и жизненный цикл томов (подробный гайд)

Уровень сложностиСредний
Время на прочтение38 мин
Охват и читатели6K

В статье подробно разбираем, как устроен CSI (Container Storage Interface), как проходит жизненный цикл тома от PVC до удаления и что на самом деле делают sidecar-контейнеры и драйверы.

Читать далее

Обзор Lakehouse: архитектура, которая объединяет порядок и хаос

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели9.8K

Вопрос: что же такого прорывного добавили в архитектуру, чтобы она стала считаться чем-то новым с точки зрения инженеров, а не маркетологов?

Ответ: фундаментально изменилась парадигма хранения и обработки данных.

В отличие от традиционных подходов, где Data Warehouse оперировал исключительно структурированными данными в табличной форме, а Data Lake работал с файлами в их исходном виде, разработчики Lakehouse сумели соединить лучшие качества обеих архитектур.

Ключевым отличием стал формат OTF — Open Table Format, через который удалось реализовать единый стандарт доступа к данным и 4 технологически-культурных сдвига. Перечислю их: ...

Читать далее

Обезличивание не по приказу — новый сезон подкаста Crosscheck

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели9.6K

Привет, Хабр!
Команда CTSG запустила новый сезон подкаста Crosscheck. В одном из первых выпусков эксперты обсуждают актуальную, «горящую» на сегодняшний день, тему обезличивания баз данных: изменения в законодательстве, методы обезличивания, маскирование и многое другое.

Читать далее

Как мы в объектном хранилище отказы реплик обрабатываем

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели5.8K

Когда мы работаем с реплицированными системами, вопрос стратегии переключения между репликами, а тем более ее реализация — это довольно значительная головная боль. Если вашей системе необходимо работать с отказами штатно, то наш опыт может подсказать пару новых идей, как можно сделать отказы контролируемыми. 

Я Владислав Доронин — Go-разработчик в команде S3 облачной платформы Cloud.ru Evolition. Хочу рассказать про подход к управлению отказами реплик, который мы кристаллизовали опытом выхода из строя разных частей системы. Практика показала, что массовые и не очень отказы приводят к взлету задержки ответов и увеличению количества client-side повторов, которые тоже висят. Пускай на уровне записи из-за требований репликации и гарантии мы много поделать с ситуацией не можем (хотя и там не все безнадежно), то вот чтение гораздо более гибкое. У нас получилось сделать retry на чтении красивыми, об этом сегодня и поговорим.

Читать далее

Как это сделано: объектное хранилище в MWS Cloud Platform

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели7.1K

Всем привет. Я — Дмитрий Шапошников, Tech Lead в команде Object Storage в MWS Cloud Platform. Сегодня мы поговорим о том, как устроено наше объектное хранилище.

В этой статье я объясню, что такое Object Storage, и поделюсь нашим опытом создания сервиса. Расскажу о преимуществах и недостатках работы с Ceph, на котором базировалась предыдущая версия нашего объектника, и подробно опишу архитектуру нового сервиса Object Storage, его масштабируемость и надёжность.

Читать далее

Система мониторинга ML-моделей: превращаем данные в полезный инструмент

Время на прочтение11 мин
Охват и читатели6.5K

В прошлой статье мы разобрали, из каких компонентов собирается система мониторинга, и составили инструкции, чтобы указывать на действительно важные проблемы. Пришло время выстроить их в единую систему. Она должна масштабироваться и давать ясную картину происходящего, чтобы наш мониторинг не был бесполезным потребителем ресурсов.

В статье расскажу, как превратить разрозненные компоненты в систему мониторинга, и как она помогла нам сохранить работоспособность моделей.

Читать далее

Retention в Kafka: Почему сообщения живут дольше, чем вы думаете?

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели8.4K

Вы настроили retention.ms = 86400000 (24 часа) и отправили тестовое сообщение. Через сколько времени реально удалится сообщение?

Читать далее
1
23 ...

Вклад авторов