Хранение данных *

Что имеем, то храним

СтатьиПостыНовостиАвторыКомпании

Pavel-T 21 мар в 08:22

Как мы учили «1С: Предприятие» работать с объектным хранилищем S3: предпосылки, алгоритм, результат

8 мин

5.9K

Блог компании VKБлог компании VK Tech1С * Хранение данных *

Кейс

Платформа «1С:Предприятие» де-факто является стандартом в части ПО для управления процессами и работы с данными для многих компании. Но «стоковых» интеграций, с которыми компании начинают свой путь, не всегда достаточно. Например, со временем бизнес может начать упираться в возможности используемого хранилища и сталкиваться с необходимостью настройки новых интеграций.

В этой статье расскажем, как компания «ЦЛР ГРУПП» перестраивала работу «1С:Управление торговлей» с локального дискового хранилища на S3: с чего мы начинали, зачем понадобилась миграция, как ее реализовали и что мы получили в результате.

+28

mClouds_editor 20 мар в 07:47

Храним бэкапы правильно: основные способы оставить их «живыми»

Простой

8 мин

11K

Блог компании mClouds.ruРезервное копирование * IT-инфраструктура * Системное администрирование * Хранение данных *

Резервные копии (РК) долгое время считались надежной страховкой от потери данных. Однако сегодня компании всё чаще становятся жертвами вирусов-шифровальщиков или просто теряют данные. Этого можно избежать, если организовать правильное хранение бэкапов. Разбираемся на примерах реальных ситуаций, как потеря резервных копий разрушала целые бизнесы и как защитить свои данные, чтобы шифровальщики до них не добрались.

GeorgeNordic 19 мар в 11:42

Бизнес-глоссарий и Каталог Данных

Средний

3 мин

1.1K

Data Engineering * Терминология ITХранение данных * Визуализация данных *

Что такое «Каталог Данных»? Это список «чистых» и готовых к использованию данных, которые можно использовать для интеграции или формирования витрин данных – Datamart для построения отчетности или дашбордов, или для предоставления аналитикам и бизнес-пользователям («Гражданским Аналитикам») для самостоятельно (Self-Service) аналитики, когда они смогут самостоятельно построить необходимую им отчетность, не прибегая к помощи специалистов по управлению данными или, тем более, ИТ-отдела, для которого управление данными и разработка отчетности явно не является приоритетной задачей.

Каталогизация данных, в свою очередь предполагает наличие программного продукта для хранения списка каталогизированных данных и их описания (метаданных) — «Каталога Данных».

Но дело в то, что еще до формирования каталога данных и проектов по очистке данных должны быть другие проекты: в первую очередь я говорю про бизнес-глоссарий, в котором бизнес расписывается кровью, что означает тот или иной показатель.

GeorgeNordic 19 мар в 11:26

Что подразумевают под Data Governance?

Средний

2 мин

3.2K

Хранение данных * Терминология ITData Engineering * Big Data *

Если говорить про Data Governance, то это, в первую очередь, не продукты, а огромная методология управления жизненным циклом данных, и только потом – технологии. Близко к идеалу считается методология DAMA-DMBOK, и у любого специалиста по данным это должна быть настольная книга. К сожалению, в подавляющем большинстве случаев, когда люди начинают задумываться про управление данных, она попросту неприменима, так как она показывает «правильное» управление данными больших предприятий, до неё еще надо «дорасти», при этом точечно применяя сначала простые приемы, с возможностью расширения методик управления данными как «вширь», на другие отделы, так в «вглубь» на все процессы, связанные с управлением данными (Data Management): получением («добычей»), обработкой, хранением, извлечением и использованием информации. Без подобного управления жизненным циклом данных получим картину как в последнем исследовании Makves, что 40% данных никогда не используется: к ним не зафиксировано ни одного обращения за 5 лет.
Найти «Ценность в данных» становится искусством, так как на предприятии растут «Кладбища данных» вместо «Хранилищ данных».

Сейчас зачастую под Data Governance имеют в виду две части, это Data Quality – управление качеством данных, и Data Linage – «понять, откуда пришли данные, как они изменялись и можно ли им доверять». Если данные методологии использовать «в лоб», то это очень сильно замедлит разработку и перегрузит команду по управлению данными.

HannaBilova 18 мар в 12:27

Обзор накопителя 2 ТБ Micron 4600

13 мин

2.4K

Блог компании ua-hosting.companyНакопителиКомпьютерное железоХранение данных *

Перевод

Накопитель Micron 4600 порадует ценителей высокопроизводительных устройств хранения данных. Этот мощный SSD выводит скорость на новый уровень, не жертвуя энергоэффективностью. Оснащенный контроллером SMI SM2508 и новейшей 276-слойной памятью TLC NAND от Micron, он воплощает в себе все, что можно ожидать от современного накопителя. Micron 4600 знаменует собой новую эру доступных и быстрых дисков PCIe 5.0, предлагая производительность без привычных компромиссов. Хотя это нельзя назвать революционным инженерным достижением, устройство уверенно прокладывает путь к стабильному развитию рынка SSD, переживающего череду взлетов и падений. И этот накопитель — определенно один из взлетов.

Micron 4600 — это OEM-накопитель, поэтому его нельзя назвать широко доступным в розничной продаже, к тому же у него относительно слабая реклама. Даже в одиночной конфигурации этот накопитель демонстрирует впечатляющие характеристики и выдающуюся энергоэффективность для своего уровня производительности. Хотя было бы замечательно увидеть версию с объёмом 8 ТБ, для большинства пользователей текущей ёмкости более чем достаточно. Теперь остаётся с интересом ждать, сможет ли Samsung дать достойный ответ с выпуском 9100 Pro.

Можно задаться вопросом, зачем нужен такой быстрый диск. Micron позиционирует 4600 как решение для профессиональных задач, включая искусственный интеллект, что подразумевает, что диск является хорошим выбором для HEDT (high-end desktop). Несомненно, этот диск также более чем пригоден для игр в будущем, а его пиковая производительность превосходит аналоги. С его появлением на рынке устанавливается новая планка для SSD-накопителей, так как система хранения данных PCIe 5.0 становится все более совершенной.

Читать дальше →

Mio_ka 18 мар в 11:35

SQL vs Excel: когда таблицы уже не справляются

8 мин

13K

Блог компании НетологияХранение данных * Программирование * Базы данных * SQL *

Когда в компании работа выстроена в Excel, проблем нет, пока в таблице несколько тысяч строк. Но бизнес растёт, и вот в файле уже миллион записей. Поиск тормозит, сложные формулы зависают. А если сотрудник случайно удалит столбец — восстанавливать придётся вручную. Это первые сигналы, что Excel не справляется.

В этой статье разберём, когда Excel перестаёт быть удобным инструментом и как SQL помогает решать эти проблемы. А приглашённые эксперты поделятся практическими примерами и советами по переходу.

AleksandrFiks 18 мар в 10:19

Переезжаем с OneDrive на NextCloud: можно ли сделать полноценную замену облачному диску на базе открытого ПО

6 мин

14K

Блог компании К2ТехIT-инфраструктура * Облачные сервисы * Хранение данных *

Обзор

Привет, Хабр! Меня зовут Александр Фикс, и я менеджер продукта в K2 Cloud. В этой статье я хотел бы рассказать о том, как мы решали задачу замены корпоративных облачных ресурсов собственным сервисом. Под катом — подробный рассказ про архитектуру NextCloud в K2 Cloud, а также разбор нашего опыта разработки плагинов, чтобы довести файловое хранилище до корпоративного уровня.

+13

nana_ncux 18 мар в 08:01

Как работать с сетевыми дисками для выделенных серверов

Сложный

22 мин

11K

Блог компании SelectelIT-инфраструктура * Сетевые технологии * IT-компанииХранение данных *

Привет, Хабр! На связи Владимир Иванов, системный администратор в Selectel. Сегодня хочу рассказать о нашем новом продукте — сетевых дисках на выделенных серверах. Ранее я писал статью о базовых операциях в кластере Ceph — она как раз родилась в процессе работы над продуктом.

Читать дальше →

+58

Legal-UP 17 мар в 21:13

Эти штрафы навсегда отобьют желание вести бизнес: что должен успеть предприниматель до 30 мая, чтобы уменьшить риски

Средний

3 мин

20K

Информационная безопасность * Веб-аналитика * Хранение данных *

Туториал

Уже поняли про что речь? Верно, про утечку. Если быть точнее, про утечку персональных данных из компании. Лет 10 назад это понятие не вызывало откровенно негативных чувств. С недавних пор оно неразрывно с тревогой и печалью, а буквально через полтора месяца уже будет навевать гнев и нести опустошение: не только эмоциональное, но и финансовое, ибо новые штрафы за утечку персональных данных вырастут до астрономических значений.

Какие еще штрафы будет выписывать РКН

GrishinAlex 17 мар в 12:12

OpenSearch как сервис: обзор и тривиальный пример использования на Python

Простой

7 мин

17K

Блог компании SelectelPython * Базы данных * Облачные сервисы * Хранение данных *

Обзор

Привет, Хабр! Проблема традиционных реляционных баз данных в том, что они не всегда справляются с обработкой огромных объемов информации. Вот вам нужно быстро найти, проиндексировать и проанализировать логи, события или метрики, но вы упираетесь в ограничения масштабируемости, автошардирования и скорости обработки запросов специфического профиля нагрузки. Знакомо?

Меня зовут Гришин Александр, я продакт-менеджер в Selectel и отвечаю за развитие объектного хранилища и облачных баз данных. В этой статье расскажу, как описанные проблемы решает OpenSearch, как развернуть кластеры этой платформы за несколько минут и начать с ней работать в Python.

Читать дальше →

+53

Capitan_grach 15 мар в 16:50

Сбор данных из DHT (как работают агрегаторы)

Простой

3 мин

5.3K

Хранение данных * Интернет-маркетинг * Открытые данные * Поисковые технологии * Информационная безопасность *

Туториал

После моей прошлой статьи прилетело много фидбэка.Я не эксперт в области торрентов, но благодаря комментариям узнал несколько интересных нюансов. Это вдохновило меня на продолжение предыдущей стати и создания мини-аналога IKnowWhatYouDownload (как оказалось, его можно сделать буквально за пару часов).

Начнем с базы

Разберемся, как работает IKnowWhatYouDownload (и подобные агрегаторы).
Вот что говорят его создатели:
Торрент-файлы попадают в нашу базу данных несколькими способами. Во-первых, мы собираем новинки с популярных торрент-сайтов (как зарубежных, так и российских). Во-вторых, у нас есть компоненты, которые постоянно мониторят DHT-сеть. Если кто-то ищет или анонсирует infohash, мы также добавляем его в базу.

Данные по одному торрент-файлу собираются раз в несколько часов. Чем дольше вы находитесь на раздаче, тем выше вероятность попасть в нашу базу. Данные на сайте обновляются с задержкой в сутки.

Обычно мы решаем другие задачи — отслеживать небольшое количество торрент файлов, получая по ним как можно больше данных.

Как вы понимаете, на сайте идеология другая — получить по большому количеству торрент-файлов как можно больше данных, поэтому применяемые методы могут быть неточными. Да, кроме того, на сайте не отображаются данные старше 4х недель.

Что такое DHT?

DHT (Distributed Hash Table) — это технология, которая используется в торрент-сетях для децентрализованного поиска участников раздачи (пиров) без необходимости подключения к центральному трекеру. Вместо того чтобы полагаться на сервер, DHT позволяет каждому участнику сети хранить и обмениваться информацией о пирах напрямую.

g_coll 15 мар в 08:25

Путь к масштабированию PostgreSQL: от теории к практике

Средний

4 мин

6.4K

Высоконагруженные системы * PostgreSQL * Базы данных * Хранение данных *

Кейс

Перевод

"Postgres масштабируется" - нет других двух слов, которые вызывали бы больше споров. По крайней мере, в кругах, где я общаюсь, в подвале компании, где инфраструктурные эльфы заставляют Rails-приложение работать. Многие верят, вопреки всему и маркетинговым кампаниям Big NoSQL, что знакомая технология лучше, чем новый неизвестный инструмент, о котором только что рассказали на совещании руководства.

Честно говоря, я понимаю их позицию. Заставить Postgres писать больше данных может быть сложно. Вам нужно больше оборудования. В большинстве случаев его можно получить, просто нажав кнопку "Обновить". Но когда вы дошли до экземпляра r5.24xlarge с 5 репликами такого же размера, и ваши процессы vacuum всё ещё отстают от графика, ситуация становится довольно пугающей.

Именно здесь начинается испытание для настоящего инженера. На пределе возможностей. Я говорю не о WebAssembly. Я говорю об инженерном духе, который смотрит на проблему под давлением руководства и вместо того, чтобы бежать к ближайшей команде продаж с большими обещаниями (но малым количеством фактов о вашем конкретном случае), решает её, используя базовые принципы.

А базовый принцип говорит нам, что нам нужно. У Postgres закончилась пропускная способность для записи. Либо из-за блокировок при работе с WAL, либо что-то застопорило vacuum. Вероятно, это та неактивная транзакция, которая открыта уже 45 секунд, пока приложение делает запрос к Stripe, но это не наша забота. Мы - инфраструктурная команда, и наша задача - заставить базу данных работать.

-6

Basis_Habr 14 мар в 12:49

TATLIN и Basis Dynamix: интеграция нашей платформы виртуализации с отечественной СХД

Средний

6 мин

1.8K

Блог компании БазисВиртуализация * Хранение данных *

Кейс

Работать с YADRO мы начали еще несколько лет назад, главной задачей нашего сотрудничества было и остается обеспечение совместимости между СХД TATLIN и нашей платформой управления динамической инфраструктурой Basis Dynamix Enterprise. Наша платформа и раньше умела работать с различными СХД — Hitachi, Huawei и других. Однако где-то были реализованы не все возможности, где-то не хватало веб-интерфейса и приходилось работать через консоль, где-то страдало быстродействие. Тесное сотрудничество с YADRO позволяло подходить к решению этих проблем с обеих сторон, плюс, многие наши заказчики регулярно интересовались развитием поддержки TATLIN.UNIFIED в наших продуктах. И вот на этой неделе мы объявили о более глубокой интеграции между TATLIN.UNIFIED Gen 2 и Basis Dynamix Enterprise, включающей поддержку репликации и мгновенных снимков через интерфейс платформы. О чем и хотим рассказать подробнее.

Tinkao 14 мар в 10:21

Мои любимые фреймворки для повышения эффективности бизнеса: чем они так хороши?

Средний

6 мин

4.7K

Блог компании РСХБ.цифра (Россельхозбанк)Открытые данные * Визуализация данных * Управление проектами * Хранение данных *

Обзор

Привет, Хабр! Меня зовут Татьяна, в РСХБ-Интех я работаю с данными — помогаю ими управлять. У меня в бэкграунде больше 10 лет работы в сфере ИТ над различными проектами и продуктами, в работе я применяла разные подходы и методики и, конечно, среди них есть мои любимые. В этом материале я рассказываю о трёх фреймворках, к которым отношусь в высшей степени уважительно и местами трепетно, так как считаю их крайне полезными. В своём роде это лучшее, что придумали для бизнеса, по моему скромному мнению.

Почему я выбрала их? Каждый фреймворк помещается на листе А4, поэтому удобен в использовании, и к тому же обладает универсальной применимостью — ко всем предметным областям и сферам бизнеса.

+11

PatientZero 14 мар в 05:38

Уменьшаем базу данных в 2000 раз при помощи Rust (завершение)

Средний

17 мин

3.5K

Rust * Программирование * Базы данных * Хранение данных * Клиентская оптимизация *

Туториал

Перевод

Сериализация

По сути, мы получили косвенную базу данных в памяти. Далее нам нужно сериализовать её, чтобы проверить, как interning влияет на её постоянное хранение. Кроме того, сериализация — это важный шаг для проверки реальности заявленной экономии места. И, наконец, это ещё одна возможность для дальнейшего сжатия данных.

В Rust для сериализации стандартно используется крейт serde, который мы уже использовали для импортирования входных данных в JSON. Serde изначально имеет поддержку множества форматов благодаря крейтам расширений, поэтому я решил попробовать несколько из них.

+16

SIGMA_team 13 мар в 14:19

Использование JSONB-полей вместо EAV в PostgreSQL

Простой

7 мин

5.8K

Блог компании СИГМАPostgreSQL * SQL * Базы данных * Хранение данных *

✏️ Технотекст 7

На одной из конференций PGConf мы обнаружили, что комьюнити с большой опаской относится к использованию JSONB-полей в своих системах. Интернет при этом не столь радикален. Наша же команда в это время вовсю использует JSONB у себя в проекте. Мы решили поделиться нашим вполне успешным кейсом в реальной нагруженной системе с сотнями миллионов строк в таблицах, где эти поля используются.

+17

OldNileCrocodile 13 мар в 12:58

Как удалось сделать флешку в Linux-е с UEFI и UniversalAMDFormBrowser

Простой

4 мин

Настройка Linux * Хранение данных *

Кейс

Recovery Mode

Наверняка Вы знакомы с загрузочными флэшками usb. Тех самых, с которых устанавливали Windows, или же запускали UniversalAMDFormBrowser. Речь пойдет как раз о usb с типом EFI. Эти флэшки вставляются в выключенный компьютер. При включении, они загружаются через Boot Menu. На ноутбуках это меню может быть доступно по кнопкам «F12» ИЛИ «F10».

В Windows же есть программа Rufus для форматирования таких флэшек, а что насчёт Linux‑а? Для Linux‑а же, как всегда, придётся читать дольше, чтобы найти что‑то стоящее. Хотите узнать, что же это? Вам сюда.

Мануал

VictorVangeli 13 мар в 11:58

Obsidian: все что нужно знать о Callout

Простой

13 мин

29K

СофтВизуализация данных * CSS * Хранение данных *

Туториал

В этой статье я подробно расскажу о возможностях использования Callout в Obsidian, покажу существующие решения, а также объясню, как создавать свои собственные, индивидуальные типы Callout-блоков.

Рассмотрим при чем здесь цитаты (Blackquotes).

Дополнительно поделюсь полезными надстройками и шаблонами

+43

Xcom-shop 13 мар в 10:32

Лучшие SATA SSD-накопители 2025: полное сравнение моделей и характеристик

Простой

12 мин

81K

Блог компании Группа компаний X-ComХранение данных * Накопители

Обзор

Несмотря на активное развитие интерфейса NVMe и появление SSD PCIe Gen 5, твердотельные накопители 2,5” по-прежнему остаются востребованным решением для широкого спектра задач. Ограничение пропускной способности интерфейса SATA III компенсируется высокой совместимостью, стабильностью работы и невысокой стоимостью хранения данных в пересчете на гигабайт. Поэтому не стоит списывать их со счетов. Особенно, когда рабочие сценарии не предполагают сверхвысоких скоростей чтения и записи SSD.

Sber 13 мар в 08:53

ETL-потоки «VACUUM FULL», или Как учесть особенности жизненного цикла данных в условиях высоконагруженных хранилищ

Средний

11 мин

Блог компании СберХранение данных *

Кейс

Привет, Хабр! Наша команда работает в Сбере и отвечает за развитие аналитического хранилища данных (АХД), а также обеспечение финансово‑аналитической информацией ключевых подразделений. В нашем технологическом стеке используются Greenplum на основе PostgreSQL и Hadoop, что позволяет эффективно обрабатывать большие объёмы данных, гарантируя их надёжное хранение и своевременную доступность для потребителей.

В этой статье мы расскажем об использовании ETL-потоков AUTOVACUUM в наших СУБД.

+21

1 2 ...

16 17

19 20 ...

166 167

Хранение данных *

Как мы учили «1С: Предприятие» работать с объектным хранилищем S3: предпосылки, алгоритм, результат

Храним бэкапы правильно: основные способы оставить их «живыми»

Бизнес-глоссарий и Каталог Данных

Что подразумевают под Data Governance?

Обзор накопителя 2 ТБ Micron 4600

SQL vs Excel: когда таблицы уже не справляются

Переезжаем с OneDrive на NextCloud: можно ли сделать полноценную замену облачному диску на базе открытого ПО

Как работать с сетевыми дисками для выделенных серверов

Эти штрафы навсегда отобьют желание вести бизнес: что должен успеть предприниматель до 30 мая, чтобы уменьшить риски

OpenSearch как сервис: обзор и тривиальный пример использования на Python

Сбор данных из DHT (как работают агрегаторы)

Путь к масштабированию PostgreSQL: от теории к практике

TATLIN и Basis Dynamix: интеграция нашей платформы виртуализации с отечественной СХД

Ближайшие события

Мои любимые фреймворки для повышения эффективности бизнеса: чем они так хороши?

Уменьшаем базу данных в 2000 раз при помощи Rust (завершение)

Использование JSONB-полей вместо EAV в PostgreSQL

Как удалось сделать флешку в Linux-е с UEFI и UniversalAMDFormBrowser

Obsidian: все что нужно знать о Callout

Лучшие SATA SSD-накопители 2025: полное сравнение моделей и характеристик

ETL-потоки «VACUUM FULL», или Как учесть особенности жизненного цикла данных в условиях высоконагруженных хранилищ

Вклад авторов