Как стать автором
Обновить
72.09

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга
Уровень сложности

Кибер Инфраструктура 5.5. Обзор новинок

Время на прочтение8 мин
Количество просмотров287

Привет Хабр! 

Сегодня познакомимся с ключевыми новинками в версии 5.5 нашего продукта "Кибер Инфраструктура". Кибер Инфраструктура — это универсальное решение, которое представляет собой мультипротокольное программно-определяемое хранилище и платформу виртуализации в одном продукте. 

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии1

Новости

Не магия: как агрегируются и обрабатываются данные CDP-платформами

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров184

В недавно опубликованной статье CleverData постаралась разгадать, как и почему совершаются спонтанные покупки. Над нашими намерениями круглосуточно работают  Customer Data Platforms (CDP) - гибкие платформы накопления данных о пользователях для целей персонализации предложений. Именно поэтому оповещение о скидке на абонемент в спортзал приходит тогда, когда мы вдруг решаем худеть и заказываем доставку диетического питания. Как грамотное применение CDP напрямую влияет на продажи, читайте в нашей новой статье под катом. 

Читать далее
Всего голосов 3: ↑3 и ↓0+5
Комментарии1

Новые горизонты: японская компания научилась производить 400-слойную флеш-память 3D NAND. Что это за технология?

Время на прочтение3 мин
Количество просмотров4K

На днях стало известно, что японская компания Tokyo Electron смогла разработать современный метод выпуска чипов 3D NAND. В них используется пространственная компоновка с вертикальными соединениями между слоями в отдельных микросхемах. Соответственно, достижение японцев даёт возможность увеличить количество слоев памяти до 400. Подробности — под катом.

Читать далее
Всего голосов 4: ↑4 и ↓0+8
Комментарии4

Установка, резервное копирование и миграция snap nextcloud-сервера (v27.1.8)

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.1K

Здравствуй, мой дорогой читатель.

В данной статье мы поговорим о snap nextcloud-сервере, установке, резервное копирование и некоторые манипуляции. Если тебе интересна тема open-source и администрирование серверов Linux, то данная статья именно для тебя!

Читать далее
Всего голосов 2: ↑1 и ↓1+2
Комментарии6

Истории

Ceph: разбираем базовые операции в кластере на примере интеграции с Hashicorp Nomad

Время на прочтение25 мин
Количество просмотров1.9K

Привет! Я Владимир Иванов, системный администратор выделенных серверов в Selectel. Мы довольно часто экспериментируем с подходами, процессами и решениями. В одном из экспериментов добрались до Ceph: сделали тренажер, в котором можно «потыкать» основной функционал хранилища, проверить гипотезы, что-то сломать/починить, не собирая при этом железный кластер. В случае фейла этот тренажер можно развернуть заново в пару консольных команд.

Так и появилась идея написать эту статью. Я покажу, как подключить Ceph к оркестратору Nomad, чтобы получить постоянное хранилище для контейнеров. Если хотите поближе познакомиться с примерами эксплуатации и обслуживания Ceph, прошу под кат! А если уже знакомы — прошу в комментарии, поделитесь своим опытом.
Читать дальше →
Всего голосов 29: ↑29 и ↓0+35
Комментарии0

Как утилизировать цифровой мусор?

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.8K

Хочу поделиться проблемой, которая меня давно волнует. С детства я привык к порядку и комфорту: начиная от своей комнаты и заканчивая ведением тетрадей. Когда всё на своих местах и нет ничего лишнего, мне легче работать и приятнее находиться в такой обстановке.

Это отношение я перенёс и в цифровой мир. Будучи разработчиком, я стараюсь поддерживать порядок и чистоту в коде и виртуальном окружении. Конечно, я далек от совершенства, но всё же прилагаю усилия к аккуратности. Я не требую того же от других, пока это не вредит окружающим (или мне).

Однако, когда избыточные данные, перегруженные базы данных и хаос в системе становятся нормой, это превращается в проблему не только для разработчика, который может игнорировать её, но и для всей компании и её пользователей. Это приводит к серьезным потерям: финансовым из‑за затрат на содержание всех этих данных и операционным из‑за повышенного энергопотребления и вычислительных расходов.

Сегодня объем новых данных растет с экспоненциальной скоростью, и так же увеличивается количество цифрового мусора. Этот термин относится к огромному количеству избыточных, устаревших или незначительных данных, которые накапливаются в наших информационных системах и захламляют их. Цифровой мусор затрагивает практически каждый аспект современного управления данными, от снижения операционной эффективности до усложнения соблюдения законов о защите данных. Кроме того, экологические издержки поддержания бесполезных данных огромны, что ведет к ненужной нагрузке на нашу природу.

Читать далее
Всего голосов 10: ↑1 и ↓9-6
Комментарии10

Почему люди до сих пор не отказались от дискет

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров15K
Музыкант Эспен Крафт хранит свои звуковые сэмплы на гибких дисках и использует их для создания музыки из-за их аутентичного звука

Последний гибкий диск был изготовлен больше десятка лет назад, сегодня на нём не хватит места даже для хранения фотографии с современного смартфона. Так почему же некоторые люди до сих пор любят ими пользоваться?

Когда в голову Эспена Крафта приходит идея нового музыкального произведения, он открывает одну из своих многочисленных коробок с дискетами. Открыв коробку, этот ютубер из Норвегии пробегает глазами по рядам разноцветных пластмассовых квадратов.

На одной из этикеток написано «Басовый звук Moog». Именно то, что нужно Крафту. Он достаёт диск и засовывает его в синтезатор. Машина подтверждает наличие диска приятным шумом. По словам Крафта, после этого начинается магия.

Сэмпл почти готов к воспроизведению, но именно предвкушение зарождает ностальгию Крафта по «тёплому и уютному месту». Идея уже висит в воздухе. Он нажимает на клавишу. Уши наполняются звуком.

Если вы помните времена, когда пользование гибкими дисками не казалось чем-то странным, то вам, вероятно, не меньше тридцати лет. Гибкие диски, или дискеты, появились примерно в 1970 году, и около трёх десятков лет были основным способом хранения и резервного копирования компьютерных данных. Всё приобретаемое людьми ПО и программы загружались на пачки таких дисков. Это технология из другой компьютерной эпохи, но по разным причинам дискеты по-прежнему привлекательны для некоторых людей, а значит, ещё не умерли.
Читать дальше →
Всего голосов 36: ↑31 и ↓5+39
Комментарии87

Apache NiFi как доступный ETL инструмент: кейс применения + тестовый стенд Docker

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.4K

В статье расскажу о практических аспектах использования Apache NiFi, опишу преимущества и проблемы, с которыми я столкнулся.

Для наглядности собрал "песочницу" в контейнере Docker, в которой представлены упрощенные примеры пайплайнов, аналогичные тем, которые были использованы в реальном проекте.

Читать далее
Всего голосов 8: ↑8 и ↓0+9
Комментарии10

Диски для космоса и традиционное российское железо: дайджест серверных новинок за апрель

Время на прочтение7 мин
Количество просмотров4.2K

Российские вендоры в апреле не отдыхали и активно выпускали новое железо. Среди отечественных новинок — серверы, диски и системы хранения данных. Уже присматриваете новое железо для своих серверов? Тогда добро пожаловать под кат!
Читать дальше →
Всего голосов 30: ↑25 и ↓5+27
Комментарии5

VRackDB — Просто и со вкусом

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.1K

VRackDB - это простая In Memory Graphite like база данных, предназначенная для хранения временных рядов (графиков). (TypeScript)

Мне, как автору базы, хотелось бы немного рассказать о ее особенностях и области применения. Покажу немного картинок, немного кода, возможно даже, немного полезной для вас информации. В общем все как обычно.

Поехали!
Всего голосов 4: ↑4 и ↓0+5
Комментарии3

Как выбрать сервер. Что лучше сегодня — готовая или сборная система

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров4.9K

Вы, конечно, знаете, что сервер является сердцем любого онлайн-сервиса или офисной сети. Именно серверы обеспечивают работоспособность наших любимых веб-сайтов, приложений, игр и социальных сетей, а нам позволяют открывать их 24 часа в сутки 7 дней в неделю. Эта статья — для новичков, которые не задумывались, чем отличаются серверы друг от друга, какими они бывают, а также коснемся вопроса выбора сервера.

Дисклеймер: это вводный материал в серии, посвященной серверам. Тут мы разберем основные понятия. А для тех, кто с серверами "на ты", совсем скоро выйдут материалы, в которых мы более глубоко разберем различные аспекты, касающиеся серверов, с профессиональной точки зрения.

Читать далее
Всего голосов 8: ↑7 и ↓1+6
Комментарии2

Подборка внешних жёстких дисков и SSD-накопителей

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров6.6K

Сегодня, когда объёмы данных постоянно растут, а терять их становится всё критичнее, использование внешнего накопителя часто становится необходимостью. У каждого из нас есть файлы, которыми мы дорожим — от рабочих документов до фотографий с домашними питомцами. При этом у жёстких дисков есть срок службы и вероятность отказа в самый неподходящий момент. У меня был подобный опыт с накопителем Seagate и ошибкой «муха СС». С тех пор я в обязательном порядке дублирую все важные файлы в облако и ещё на один диск.

Взглянуть на накопители
Всего голосов 9: ↑6 и ↓3+6
Комментарии25

Транзакция, ACID, CAP теорема и уровни изоляций транзакций простыми словами

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров11K

Данный материал позволит вам подготовиться к собеседованию, освежить знания или познакомиться с такими терминами как транзакции, ACID и уровни изоляции.

Важно отметить, что речь пойдет о реляционных базах данных, которые наилучшим образом подходят для транзакций и соответствуют критериям ACID.

Читать далее
Всего голосов 42: ↑36 и ↓6+34
Комментарии11

Ближайшие события

Нельзя предполагать, что все используют UTF-8

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров17K
Как вычислять кодировку при помощи статистики

Люди говорят на бесчисленном количестве разных языков. Эти языки не только несовместимы между собой, но и представляют огромную трудность при транспиляции в среде исполнения. К сожалению, все попытки стандартизации провалились.

По крайней мере, в таком положении вещей есть, кого винить: Бога. Ведь именно он вынудил человечество говорить на разных языках из-за древнего спора о строительстве объекта недвижимости.

Однако человечество может винить себя за то, что сложности в общении испытывают компьютеры.

И одна из самых больших проблем одновременно является самой простой: компьютеры не договорились о том, как записывать буквы двоичным кодом.
Читать дальше →
Всего голосов 57: ↑52 и ↓5+69
Комментарии92

Революция в цифровой инфраструктуре: контейнерные центры обработки данных (КЦОД)

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.3K

Приветствую всех! Я Геннадий Гужов, студент Высшей школы экономики и продакт-менеджер в компании "Солдвиг", специализирующейся на контейнерных дата-центрах. В этой статье я расскажу о контейнерных дата-центрах: что они из себя представляют, из чего состоят и какие преимущества они предлагают. Мы изучим ключевые аспекты, помогающие понять, почему эта инфраструктура становится важной частью современного бизнеса. Будьте в курсе последних тенденций и развития технологий — ваше знание — ваша сила!

Давайте начнем с основ: что такое дата-центр?

Читать далее
Всего голосов 6: ↑4 и ↓2+6
Комментарии25

Как Figma удалось открыть себе путь к почти бесконечному масштабированию баз данных

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров10K

О нашем девятимесячном пути к горизонтальному шардингу Postgres-стека Figma и о возможности обеспечения (почти) бесконечной масштабируемости.

Вертикальное разбиение было относительно простым и важным инструментом масштабирования, позволившим нам быстро добиться существенных улучшений. Кроме того, оно стало важным этапом на пути к горизонтальному шардингу.

С 2020 года стек баз данных Figma вырос почти в сотню раз. Это хорошая проблема, ведь она означает, что наш бизнес расширяется. Но в то же время она стала причиной технических сложностей. В течение последних четырёх лет мы усиленно старались не отставать от прогресса и избегать потенциальных проблем, связанных с ростом. В 2020 году у нас работала единственная база данных Postgres, которая хостилась на самом большом физическом инстансе AWS, но к концу 2022 года мы уже создали распределённую архитектуру с кэшированием, репликами для чтения и десятком вертикально разделённых баз данных. Мы разбили группы связанных таблиц (например, «Figma files» или «Organizations») на отдельные вертикальные разделы, что позволило нам обеспечить удобство инкрементального масштабирования и оставить достаточно пространства для дальнейшего роста.

Читать далее
Всего голосов 13: ↑12 и ↓1+22
Комментарии1

Делаем резервное копирование кластера ClickHouse: простая инструкция

Время на прочтение4 мин
Количество просмотров2.2K

Делаем резервное копирование кластера ClickHouse: простая инструкция

Меня зовут Леонид Блынский и я администратор баз данных в Лиге Цифровой Экономики. В этой небольшой статье расскажу, как я делаю резервное копирование кластера ClickHouse размером 20 ТБ.

Документация по резервному копированию довольно небольшая и содержит инструкции по созданию резервных копий отдельной инсталляции СУБД. К сожалению, информации о том, как создавать резервные копии кластера, практически нет. Как и нет промышленного решения для управления бэкапом. 

Читать далее
Всего голосов 5: ↑5 и ↓0+6
Комментарии2

Greenplum, NiFi и Airflow на страже импортозамещения: но есть нюансы

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.4K

В статье описывается практическое применение популярных Open-Source технологий в области интеграции, хранения и обработки больших данных: Apache NiFi, Apache Airflow и Greenplum для проекта по аналитике учета вывоза отходов строительства.

Статья полезна специалистам и руководителям, которые работают с данными решениями и делают ставку на них в части импортозамещения аналогичных технологий. Статья дает обзор основных сложностей внедрения на примере реального кейса, описывает архитектуру и особенности при совместном использовании решений.

Читать далее
Всего голосов 7: ↑5 и ↓2+7
Комментарии10

Эволюция обработки данных: от MapReduce к стриминговому движку

Время на прочтение7 мин
Количество просмотров6.1K

Yandex Query Language (YQL) — универсальный декларативный язык запросов к системам хранения и обработки данных, разработанный в Яндексе. А ещё это один из самых нагруженных сервисов: YQL ежедневно обрабатывает около 800 петабайт данных и 600 000 SQL-запросов, и эти показатели постоянно растут. 

Изначально YQL основывался на операциях MapReduce, которые эффективны для больших данных. Но для средних объёмов данных (до 50 Гб, которые составляют около 60% запросов) этот подход оказался неоптимальным, потому что нужно было обмениваться данными между операциями через диск. Поэтому разработчики создали новый более гибкий стриминговый движок, который значительно ускоряет обработку данных за счёт выполнения всех вычислений в памяти.

В этой статье я хочу рассказать о подходах и технологиях в разработке систем для обработки данных на примере YQL. Основное внимание я уделил переходу от MapReduce к стриминговому движку, который обеспечивает более эффективную обработку данных, вмещающихся в память, и который доступен в опенсорсе.

Читать далее
Всего голосов 34: ↑34 и ↓0+39
Комментарии16

Временное хранилище данных на Apache Druid: почему это эффективно сработало для загрузки табличных файлов

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.6K

Всем привет! Меня зовут Амир, я Data Engineer в компании «ДЮК Технологии». Расскажу, как мы спроектировали и реализовали на Apache Druid хранилище разрозненных табличных данных.

В статье опишу, почему для реализации проекта мы выбрали именно Apache Druid, с какими особенностями реализации столкнулись, как сравнивали методы реализации датасорсов.

Читать далее
Всего голосов 7: ↑7 и ↓0+9
Комментарии1
1
23 ...

Вклад авторов