Обновить
162.45

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга
Уровень сложности

Как мы учили «1С: Предприятие» работать с объектным хранилищем S3: предпосылки, алгоритм, результат

Время на прочтение8 мин
Количество просмотров5.9K

Платформа «1С:Предприятие» де-факто является стандартом в части ПО для управления процессами и работы с данными для многих компании. Но «стоковых» интеграций, с которыми компании начинают свой путь, не всегда достаточно. Например, со временем бизнес может начать упираться в возможности используемого хранилища и сталкиваться с необходимостью настройки новых интеграций. 

В этой статье расскажем, как компания «ЦЛР ГРУПП» перестраивала работу «1С:Управление торговлей» с локального дискового хранилища на S3: с чего мы начинали, зачем понадобилась миграция, как ее реализовали и что мы получили в результате.

Читать далее

Храним бэкапы правильно: основные способы оставить их «живыми»

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров11K

Резервные копии (РК) долгое время считались надежной страховкой от потери данных. Однако сегодня компании всё чаще становятся жертвами вирусов-шифровальщиков или просто теряют данные. Этого можно избежать, если организовать правильное хранение бэкапов. Разбираемся на примерах реальных ситуаций, как потеря резервных копий разрушала целые бизнесы и как защитить свои данные, чтобы шифровальщики до них не добрались.

Читать далее

Бизнес-глоссарий и Каталог Данных

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров1.1K

Что такое «Каталог Данных»? Это список «чистых» и готовых к использованию данных, которые можно использовать для интеграции или формирования витрин данных – Datamart для построения отчетности или дашбордов, или для предоставления аналитикам и бизнес-пользователям («Гражданским Аналитикам») для самостоятельно (Self-Service) аналитики, когда они смогут самостоятельно построить необходимую им отчетность, не прибегая к помощи специалистов по управлению данными или, тем более, ИТ-отдела, для которого управление данными и разработка отчетности явно не является приоритетной задачей.

Каталогизация данных, в свою очередь предполагает наличие программного продукта для хранения списка каталогизированных данных и их описания (метаданных) — «Каталога Данных».

Но дело в то, что еще до формирования каталога данных и проектов по очистке данных должны быть другие проекты: в первую очередь я говорю про бизнес-глоссарий, в котором бизнес расписывается кровью, что означает тот или иной показатель.

Читать далее

Что подразумевают под Data Governance?

Уровень сложностиСредний
Время на прочтение2 мин
Количество просмотров3.2K

Если говорить про Data Governance, то это, в первую очередь, не продукты, а огромная методология управления жизненным циклом данных, и только потом – технологии. Близко к идеалу считается методология DAMA-DMBOK, и у любого специалиста по данным это должна быть настольная книга. К сожалению, в подавляющем большинстве случаев, когда люди начинают задумываться про управление данных, она попросту неприменима, так как она показывает «правильное» управление данными больших предприятий, до неё еще надо «дорасти», при этом точечно применяя сначала простые приемы, с возможностью расширения методик управления данными как «вширь», на другие отделы, так в «вглубь» на все процессы, связанные с управлением данными (Data Management): получением («добычей»), обработкой, хранением, извлечением и использованием информации. Без подобного управления жизненным циклом данных получим картину как в последнем исследовании Makves, что 40% данных никогда не используется: к ним не зафиксировано ни одного обращения за 5 лет.
Найти «Ценность в данных» становится искусством, так как на предприятии растут «Кладбища данных» вместо «Хранилищ данных».

Сейчас зачастую под Data Governance имеют в виду две части, это Data Quality – управление качеством данных, и Data Linage – «понять, откуда пришли данные, как они изменялись и можно ли им доверять». Если данные методологии использовать «в лоб», то это очень сильно замедлит разработку и перегрузит команду по управлению данными.

Читать далее

Обзор накопителя 2 ТБ Micron 4600

Время на прочтение13 мин
Количество просмотров2.4K
Накопитель Micron 4600 порадует ценителей высокопроизводительных устройств хранения данных. Этот мощный SSD выводит скорость на новый уровень, не жертвуя энергоэффективностью. Оснащенный контроллером SMI SM2508 и новейшей 276-слойной памятью TLC NAND от Micron, он воплощает в себе все, что можно ожидать от современного накопителя. Micron 4600 знаменует собой новую эру доступных и быстрых дисков PCIe 5.0, предлагая производительность без привычных компромиссов. Хотя это нельзя назвать революционным инженерным достижением, устройство уверенно прокладывает путь к стабильному развитию рынка SSD, переживающего череду взлетов и падений. И этот накопитель — определенно один из взлетов.

Micron 4600 — это OEM-накопитель, поэтому его нельзя назвать широко доступным в розничной продаже, к тому же у него относительно слабая реклама. Даже в одиночной конфигурации этот накопитель демонстрирует впечатляющие характеристики и выдающуюся энергоэффективность для своего уровня производительности. Хотя было бы замечательно увидеть версию с объёмом 8 ТБ, для большинства пользователей текущей ёмкости более чем достаточно. Теперь остаётся с интересом ждать, сможет ли Samsung дать достойный ответ с выпуском 9100 Pro.

Можно задаться вопросом, зачем нужен такой быстрый диск. Micron позиционирует 4600 как решение для профессиональных задач, включая искусственный интеллект, что подразумевает, что диск является хорошим выбором для HEDT (high-end desktop). Несомненно, этот диск также более чем пригоден для игр в будущем, а его пиковая производительность превосходит аналоги. С его появлением на рынке устанавливается новая планка для SSD-накопителей, так как система хранения данных PCIe 5.0 становится все более совершенной.
Читать дальше →

SQL vs Excel: когда таблицы уже не справляются

Время на прочтение8 мин
Количество просмотров13K

Когда в компании работа выстроена в Excel, проблем нет, пока в таблице несколько тысяч строк. Но бизнес растёт, и вот в файле уже миллион записей. Поиск тормозит, сложные формулы зависают. А если сотрудник случайно удалит столбец — восстанавливать придётся вручную. Это первые сигналы, что Excel не справляется. 

В этой статье разберём, когда Excel перестаёт быть удобным инструментом и как SQL помогает решать эти проблемы. А приглашённые эксперты поделятся практическими примерами и советами по переходу.

Читать далее

Переезжаем с OneDrive на NextCloud: можно ли сделать полноценную замену облачному диску на базе открытого ПО

Время на прочтение6 мин
Количество просмотров14K

Привет, Хабр! Меня зовут Александр Фикс, и я менеджер продукта в K2 Cloud. В этой статье я хотел бы рассказать о том, как мы решали задачу замены корпоративных облачных ресурсов собственным сервисом. Под катом — подробный рассказ про архитектуру NextCloud в K2 Cloud, а также разбор нашего опыта разработки плагинов, чтобы довести файловое хранилище до корпоративного уровня.

Читать далее

Как работать с сетевыми дисками для выделенных серверов

Уровень сложностиСложный
Время на прочтение22 мин
Количество просмотров11K

Привет, Хабр! На связи Владимир Иванов, системный администратор в Selectel. Сегодня хочу рассказать о нашем новом продукте — сетевых дисках на выделенных серверах. Ранее я писал статью о базовых операциях в кластере Ceph — она как раз родилась в процессе работы над продуктом.
Читать дальше →

Эти штрафы навсегда отобьют желание вести бизнес: что должен успеть предприниматель до 30 мая, чтобы уменьшить риски

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров20K

Уже поняли про что речь? Верно, про утечку. Если быть точнее, про утечку персональных данных из компании. Лет 10 назад это понятие не вызывало откровенно негативных чувств. С недавних пор оно неразрывно с тревогой и печалью, а буквально через полтора месяца уже будет навевать гнев и нести опустошение: не только эмоциональное, но и финансовое, ибо новые штрафы за утечку персональных данных вырастут до астрономических значений.

Какие еще штрафы будет выписывать РКН

OpenSearch как сервис: обзор и тривиальный пример использования на Python

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров17K

Привет, Хабр! Проблема традиционных реляционных баз данных в том, что они не всегда справляются с обработкой огромных объемов информации. Вот вам нужно быстро найти, проиндексировать и проанализировать логи, события или метрики, но вы упираетесь в ограничения масштабируемости, автошардирования и скорости обработки запросов специфического профиля нагрузки. Знакомо?

Меня зовут Гришин Александр, я продакт-менеджер в Selectel и отвечаю за развитие объектного хранилища и облачных баз данных. В этой статье расскажу, как описанные проблемы решает OpenSearch, как развернуть кластеры этой платформы за несколько минут и начать с ней работать в Python.
Читать дальше →

Сбор данных из DHT (как работают агрегаторы)

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров5.3K

После моей прошлой статьи прилетело много фидбэка.Я не эксперт в области торрентов, но благодаря комментариям узнал несколько интересных нюансов. Это вдохновило меня на продолжение предыдущей стати и создания мини-аналога IKnowWhatYouDownload (как оказалось, его можно сделать буквально за пару часов).

Начнем с базы

Разберемся, как работает IKnowWhatYouDownload (и подобные агрегаторы).
Вот что говорят его создатели:
Торрент-файлы попадают в нашу базу данных несколькими способами. Во-первых, мы собираем новинки с популярных торрент-сайтов (как зарубежных, так и российских). Во-вторых, у нас есть компоненты, которые постоянно мониторят DHT-сеть. Если кто-то ищет или анонсирует infohash, мы также добавляем его в базу.

Данные по одному торрент-файлу собираются раз в несколько часов. Чем дольше вы находитесь на раздаче, тем выше вероятность попасть в нашу базу. Данные на сайте обновляются с задержкой в сутки.

Обычно мы решаем другие задачи — отслеживать небольшое количество торрент файлов, получая по ним как можно больше данных.

Как вы понимаете, на сайте идеология другая — получить по большому количеству торрент-файлов как можно больше данных, поэтому применяемые методы могут быть неточными. Да, кроме того, на сайте не отображаются данные старше 4х недель.

Что такое DHT?

DHT (Distributed Hash Table) — это технология, которая используется в торрент-сетях для децентрализованного поиска участников раздачи (пиров) без необходимости подключения к центральному трекеру. Вместо того чтобы полагаться на сервер, DHT позволяет каждому участнику сети хранить и обмениваться информацией о пирах напрямую.

Читать далее

Путь к масштабированию PostgreSQL: от теории к практике

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров6.4K

"Postgres масштабируется" - нет других двух слов, которые вызывали бы больше споров. По крайней мере, в кругах, где я общаюсь, в подвале компании, где инфраструктурные эльфы заставляют Rails-приложение работать. Многие верят, вопреки всему и маркетинговым кампаниям Big NoSQL, что знакомая технология лучше, чем новый неизвестный инструмент, о котором только что рассказали на совещании руководства.

Честно говоря, я понимаю их позицию. Заставить Postgres писать больше данных может быть сложно. Вам нужно больше оборудования. В большинстве случаев его можно получить, просто нажав кнопку "Обновить". Но когда вы дошли до экземпляра r5.24xlarge с 5 репликами такого же размера, и ваши процессы vacuum всё ещё отстают от графика, ситуация становится довольно пугающей.

Именно здесь начинается испытание для настоящего инженера. На пределе возможностей. Я говорю не о WebAssembly. Я говорю об инженерном духе, который смотрит на проблему под давлением руководства и вместо того, чтобы бежать к ближайшей команде продаж с большими обещаниями (но малым количеством фактов о вашем конкретном случае), решает её, используя базовые принципы.

А базовый принцип говорит нам, что нам нужно. У Postgres закончилась пропускная способность для записи. Либо из-за блокировок при работе с WAL, либо что-то застопорило vacuum. Вероятно, это та неактивная транзакция, которая открыта уже 45 секунд, пока приложение делает запрос к Stripe, но это не наша забота. Мы - инфраструктурная команда, и наша задача - заставить базу данных работать.

Читать далее

TATLIN и Basis Dynamix: интеграция нашей платформы виртуализации с отечественной СХД

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров1.8K

Работать с YADRO мы начали еще несколько лет назад, главной задачей нашего сотрудничества было и остается обеспечение совместимости между СХД TATLIN и нашей платформой управления динамической инфраструктурой Basis Dynamix Enterprise. Наша платформа и раньше умела работать с различными СХД — Hitachi, Huawei и других. Однако где-то были реализованы не все возможности, где-то не хватало веб-интерфейса и приходилось работать через консоль, где-то страдало быстродействие. Тесное сотрудничество с YADRO позволяло подходить к решению этих проблем с обеих сторон, плюс, многие наши заказчики регулярно интересовались развитием поддержки TATLIN.UNIFIED в наших продуктах. И вот на этой неделе мы объявили о более глубокой интеграции между TATLIN.UNIFIED Gen 2 и Basis Dynamix Enterprise, включающей поддержку репликации и мгновенных снимков через интерфейс платформы. О чем и хотим рассказать подробнее.

Читать далее

Ближайшие события

Мои любимые фреймворки для повышения эффективности бизнеса: чем они так хороши?

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4.7K

Привет, Хабр! Меня зовут Татьяна, в РСХБ-Интех я работаю с данными — помогаю ими управлять. У меня в бэкграунде больше 10 лет работы в сфере ИТ над различными проектами и продуктами, в работе я применяла разные подходы и методики и, конечно, среди них есть мои любимые. В этом материале я рассказываю о трёх фреймворках, к которым  отношусь в высшей степени уважительно и местами трепетно, так как считаю их крайне полезными. В своём роде это лучшее, что придумали для бизнеса, по моему скромному мнению.

Почему я выбрала их? Каждый фреймворк помещается на листе А4, поэтому удобен в использовании, и к тому же обладает универсальной применимостью — ко всем предметным областям и сферам бизнеса. 

Читать далее

Уменьшаем базу данных в 2000 раз при помощи Rust (завершение)

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров3.5K

Сериализация

По сути, мы получили косвенную базу данных в памяти. Далее нам нужно сериализовать её, чтобы проверить, как interning влияет на её постоянное хранение. Кроме того, сериализация — это важный шаг для проверки реальности заявленной экономии места. И, наконец, это ещё одна возможность для дальнейшего сжатия данных.

В Rust для сериализации стандартно используется крейт serde, который мы уже использовали для импортирования входных данных в JSON. Serde изначально имеет поддержку множества форматов благодаря крейтам расширений, поэтому я решил попробовать несколько из них.

Читать далее

Использование JSONB-полей вместо EAV в PostgreSQL

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров5.8K

На одной из конференций PGConf мы обнаружили, что комьюнити с большой опаской относится к использованию JSONB-полей в своих системах. Интернет при этом не столь радикален. Наша же команда в это время вовсю использует JSONB у себя в проекте. Мы решили поделиться нашим вполне успешным кейсом в реальной нагруженной системе с сотнями миллионов строк в таблицах, где эти поля используются.

Читать далее

Как удалось сделать флешку в Linux-е с UEFI и UniversalAMDFormBrowser

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров3K

Наверняка Вы знакомы с загрузочными флэшками usb. Тех самых, с которых устанавливали Windows, или же запускали UniversalAMDFormBrowser. Речь пойдет как раз о usb с типом EFI. Эти флэшки вставляются в выключенный компьютер. При включении, они загружаются через Boot Menu. На ноутбуках это меню может быть доступно по кнопкам «F12» ИЛИ «F10».

В Windows же есть программа Rufus для форматирования таких флэшек, а что насчёт Linux‑а? Для Linux‑а же, как всегда, придётся читать дольше, чтобы найти что‑то стоящее. Хотите узнать, что же это? Вам сюда.

Мануал

Obsidian: все что нужно знать о Callout

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров29K

В этой статье я подробно расскажу о возможностях использования Callout в Obsidian, покажу существующие решения, а также объясню, как создавать свои собственные, индивидуальные типы Callout-блоков.

Рассмотрим при чем здесь цитаты (Blackquotes).

Дополнительно поделюсь полезными надстройками и шаблонами

Читать далее

Лучшие SATA SSD-накопители 2025: полное сравнение моделей и характеристик

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров81K

Несмотря на активное развитие интерфейса NVMe и появление SSD PCIe Gen 5, твердотельные накопители 2,5” по-прежнему остаются востребованным решением для широкого спектра задач. Ограничение пропускной способности интерфейса SATA III компенсируется высокой совместимостью, стабильностью работы и невысокой стоимостью хранения данных в пересчете на гигабайт. Поэтому не стоит списывать их со счетов. Особенно, когда рабочие сценарии не предполагают сверхвысоких скоростей чтения и записи  SSD.

Читать далее

ETL-потоки «VACUUM FULL», или Как учесть особенности жизненного цикла данных в условиях высоконагруженных хранилищ

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров4K

Привет, Хабр! Наша команда работает в Сбере и отвечает за развитие аналитического хранилища данных (АХД), а также обеспечение финансово‑аналитической информацией ключевых подразделений. В нашем технологическом стеке используются Greenplum на основе PostgreSQL и Hadoop, что позволяет эффективно обрабатывать большие объёмы данных, гарантируя их надёжное хранение и своевременную доступность для потребителей.

В этой статье мы расскажем об использовании ETL-потоков AUTOVACUUM в наших СУБД.

Читать далее

Вклад авторов