Как стать автором
Обновить
81.18

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга
Уровень сложности

Huawei выпустила eKitStor Xtreme 200: скоростной SSD для требовательных пользователей

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.3K

Компания Huawei хорошо известна. В России прекрасно представлены ноутбуки, смартфоны и прочая мобильная электроника, а также  телекоммуникационное оборудование. Но азиатского гиганта, похоже, никто не остановит, ведь компания решила пойти дальше и представила свой первый SSD-накопитель – eKitStor Xtreme 200, предназначенный для профессионалов и продвинутых пользователей. Посмотрим, чем он так хорош.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии3

Новости

Всё что нужно знать про DuckDB

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров3.1K

В статье рассказано, как вам может помочь утка при работе с данными, с OLAP-нагрузкой и как она может плавать в вашем Data Lake. Вы узнаете всё самое важное про DuckDB и сможете попрактиковаться в работе с DuckDB.

Читать далее
Всего голосов 10: ↑9 и ↓1+10
Комментарии6

Как перейти на многонодовую архитектуру без боли. Или почти без боли

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.5K

Есть у нас флагманский продукт под названием «Единый клиент», с которым работают десятки энтерпрайз-клиентов, оперирующих в нем сотнями миллионов записей. Продукт массивный, обвешанный аналитикой и различными сложными сервисами. В какой-то момент большая часть клиентов захотела получить общий uptime в 99,9%, чего сложно достичь без резервирования решения. И мы начали погружаться в эту тему практически с нуля.

В этом материале хочу поделиться нашим опытом перехода с одной ноды на 10+, расскажу о технических нюансах и решениях, которые мы использовали, а также про всякие боли в процессе перехода.

Читать далее
Всего голосов 9: ↑8 и ↓1+11
Комментарии0

Кибер Инфраструктура 6.0 — Что нового?

Время на прочтение7 мин
Количество просмотров601

Привет Хабр! 

Сегодня познакомимся с ключевыми новинками в версии 6.0 нашего продукта «Кибер Инфраструктура». Кибер Инфраструктура — это гиперконвергентное решение, объединяющее виртуализацию и программно‑определяемые хранилища. Наш продукт присутствует на рынке уже достаточно давно, используется заказчиками из различных отраслей, а также служит программной основой для программно‑аппаратных комплексов ведущих отечественных производителей. Подробнее о Кибер Инфраструктуре см. в обзоре новинок в версии 5.5 здесь.

Читать далее
Всего голосов 2: ↑1 и ↓1+2
Комментарии0

Истории

Как Notion проектировал свой data lake, чтобы успевать за быстрым ростом

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров5.5K

За последние три года размер данных Notion увеличился в 10 раз из‑за роста количества пользователей и объёмов контента, с которым они работают. Удвоение этого показателя происходило каждые 6–12 месяцев. Нам нужно было справиться со стремительным ростом размеров данных, соответствуя при этом постоянно растущим требованиям, которые выдвигали критически важные сценарии использования наших продуктов и аналитических систем. Особенно это справедливо в применении к новым функциям Notion AI. Для того чтобы решить эти задачи нам нужно было создать озеро данных Notion и обеспечить его масштабирование. Вот как мы это сделали.

Читать далее
Всего голосов 7: ↑7 и ↓0+14
Комментарии1

Подключение СХД Qsan к серверам с операционной системой Linux

Время на прочтение8 мин
Количество просмотров1.6K

Мы продолжаем публикацию статей в стиле how-to касательно использования систем хранения данных (СХД) Qsan в различных типовых задачах. На сей раз рассмотрим первичную настройку серверов на базе операционных систем (ОС) семейства Linux при подключении блочных томов со стороны СХД.

Читать далее
Всего голосов 1: ↑1 и ↓0+3
Комментарии3

NetApp Snapvault и SnapLock – 100% защита от шифрования данных?

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.4K

В современно мире, где данные это ценный актив, постоянно находящийся под атакой злоумышленников и некомпетентности обращения с ними со стороны «обороны», защита от шифрования выходит на первый план. В сложившемся положение, выделяются технологии NetApp SnapVault и SnapLock предлагающие ряд решений обещающих полную защиту данных, но действительно ли они могут гарантировать 100% безопасность? Давайте разберемся.

Читать далее
Всего голосов 3: ↑2 и ↓1+3
Комментарии3

От «дата-ада» к знаку качества. Как в М.Видео-Эльдорадо работа с качеством данных улучшает результаты в бизнесе

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров1.7K

Каждый бизнес-процесс, ИТ-система, цифровой продукт — является и потребителем, и генератором данных. Для успешного развития бизнеса важно качество этих данных. В недавней статье мы поделились тем как у нас зарождалась практика управления данными и о базовых понятиях в этой сфере.

В этом материале мы сделаем упор на ту пользу, которую принесло компании данное направление и какие бизнес-задачи закрывает созданный инструмент. Но, начнем с небольшого погружения для того, чтобы напомнить, как мы пришли к пониманию необходимости регламентирования управления качеством данных.

Читать далее
Всего голосов 11: ↑9 и ↓2+13
Комментарии3

Будущее хранения данных. Где и на чем будем хранить данные в будущем

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров9K

Объём данных, которые мы производим и используем, растёт феноменальными темпами. СМИ сегодня существуют преимущественно в цифровом формате, данные предприятий всё чаще хранятся на облачных платформах, а учёные накапливают огромные массивы исследовательской информации. Не забываем и про снимки из космоса и мемы с котиками. К 2025 году скорость роста данных превысит 175 зеттабайт в год. Центры обработки данных изо всех сил пытаются не отставать. Но объёмы продолжают увеличиваться с каждым днём.

Мало того, что объём данных, особенно неструктурированных, увеличился, облачное хранилище побудило компании – и частных лиц – принять подход «хранить всё», даже если эти данные не имеют какою-либо ценность.

Как предприятия могут безопасно хранить в будущем такой огромный объём данных, учитывая, что растёт он экспоненциально? Быстрый рост данных требует инновационных решений в бурно развивающейся области технологий. В течение достаточно длительного периода времени физические носители, такие как магнитные ленты и жёсткие диски, в конечном итоге демонстрируют 100% вероятность отказа. Учёные ищут новые методы, чтобы устранить текущие ограничения в отношении ёмкости, мощности, скорости и долговечности. Но как? Подробности под катом.
Читать дальше →
Всего голосов 22: ↑21 и ↓1+34
Комментарии39

Работа с данными в Apache Spark

Время на прочтение5 мин
Количество просмотров615

Фреймворк Spark позволяет выполнять множество различных операций с распределенными наборами данных. При этом, объем обрабатываемых данных может быть достаточно большим. Конечно, можно сохранять обрабатываемую информацию в файлы, но что делать, если набор данных не умещается на одном компьютере или на одном дисковом хранилище.

Для решения данной проблемы фреймворк поддерживает широкий диапазон различных механизмов ввода/вывода. Это можно объяснить в том числе и тем, что Apache Spark создавался в экосистеме Hadoop, предназначенной для работы с большими данными. Так, для доступа к данным Spark использует интерфейсы InputFormat и OutputFormat из Hadoop MapReduce, программной платформы, предназначенной для создания заданий, обрабатывающих большие объемы данных. А данные интерфейсы, в свою очередь поддерживают множество форматов файлов и систем хранения (SЗ, HDFS, Cassandra, HBаsе и т. д.)

Читать далее
Всего голосов 7: ↑5 и ↓2+7
Комментарии0

Инфраструктура для data engineer S3

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.1K

S3 – это один из сервисов, который используется для построения Data Lake и обмена файлами.

В этой статье рассказывается о технологии S3 со стороны дата-инженерии.

Мы в статье рассмотрим как развернуть сервис, как им пользоваться и зачем он нужен в дата-инженерии

Читать далее
Всего голосов 4: ↑1 и ↓30
Комментарии14

Что могут векторные СУБД — open source инструменты & облако

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров5.1K

Разработка систем искусственного интеллекта и обучение моделей подразумевает взаимодействие с огромными сводами неструктурированных данных — например, текстом и изображениями. Решать эту задачу помогают векторные БД. Они работают с так называемыми векторными представлениями (эмбеддингами), имеют продвинутые алгоритмы индексирования и особенно эффективны для реализации поиска по сходству. 

Учитывая популярность темы машинного обучения, новые векторные СУБД появляются чуть ли не каждый день. Мы сделали подборку open source решений, о которых мало рассказывали на Хабре: от крупных проектов вроде Qdrant до малоизвестных продуктов.

Векторные базы данных можно развернуть в облаке, обеспечивая мощную инфраструктуру, которая значительно улучшает управление крупномасштабными и сложными данными. На виртуальную инфраструктуру MWS сейчас действует скидка 50%.

Читать далее
Всего голосов 16: ↑15 и ↓1+22
Комментарии5

Баг Y292B: мы обречены (снова)

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров7.2K

Измерение времени — очень сложная задача. Я выяснил это, набив шишки при попытке запрограммировать расширяемый хронометр для небесных тел Солнечной системы. Сложность в том, что все календарные системы имеют так много правил и исключений, что сборщик календаря, по сути, становится ещё одним языком программирования. Впрочем, мне хорошо знаком закон Завински*, поэтому я постарался избежать создания ещё одного Emacs.

*Закон Завински — выдуманный закон computer science, высмеивающий неизбежное разрастание фич. Он гласит, что каждая программа рано или поздно постарается прочитать электронную почту. Стоит отметить, что закон сформулирован в 90-х, поэтому и речь об электронной почте. Кстати, я нашёл хороший веб-сайт с другими законами computer science.

Основные проблемы хронометража заключаются в неодинаковых интервалах корректировки, постоянно меняющихся часовых поясах и преобразованиях из одной системы хронометража в другую. Кроме этих алгоритмических проблем существуют ограничения устройств, например, точность генератора или ёмкость памяти. В наше время на них обычно не обращают внимание, в частности, примерно со времени решения проблемы бага Y2K распределение памяти вообще не считается серьёзной проблемой.

Y2KY2038 и другие баги Y2xx — это на самом деле не совсем «баги», а простые переполнения выделенного пространства памяти. Unix и подобные ему компьютерные системы измеряют время, выполняя инкремент секунд в единой целочисленной переменной time_t. Естественно, такой хронометраж назван временем Unix, а 0 в нём означает полночь 1 января 1970 года.

В разных реализациях времени Unix для time_t используются разные типы данных. Когда тип данных достигает своего верхнего предела, он «сбрасывается» или до обратного (отрицательного) значения, или до нуля. В текущей основной ветви ядра Linux используются 64-битные числа со знаком. В таком решении точка сброса приходится на 292 277 026 596 год. Он настанет примерно через 292 миллиарда 277 миллионов 24 тысяч лет.

Но что потом?

Читать далее
Всего голосов 6: ↑5 и ↓1+9
Комментарии10

Ближайшие события

Решаем задачу уровня «Невозможно». Сжатие хаотического бинарного кода. Суперпозиционные системы счисления

Уровень сложностиСложный
Время на прочтение10 мин
Количество просмотров2K

Для наилучшего восприятия выделим основные пункты изложенного материала:

1.    Для чего необходимо сжатие информации и увеличение плотности записи.
2.    Проблемы в покорение хаоса, нерешенные математиками и ими же созданные.
3.    Простое решение проблемы сжатия абсолютно любого бинарного кода.
4.    Пути и методы дальнейшего развития сжатия бинарного кода.

Читать далее
Всего голосов 18: ↑3 и ↓15-10
Комментарии28

Как нормализовывать телефонные номера

Время на прочтение5 мин
Количество просмотров8.3K

Замечали когда-нибудь, что все записывают телефонные номера по-разному? Некоторые пишут их через пробелы, другие через дефис, а кто-то использует скобки. Разные люди по-разному группируют цифры номеров в числа.

И это становится реальной проблемой, когда вам нужно сохранить телефонные номера в базе данных и затем извлекать из неё записи по ним.
Читать дальше →
Всего голосов 29: ↑29 и ↓0+39
Комментарии61

Качество данных в М.Видео-Эльдорадо

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров3K

Привет, Хабр! С середины 2023 года у нас в компании было принято решение открыть новое направление в области управления данными - «Качество данных». Вот почти уже год мы активно в нем развиваемся и хотели бы поделиться накопленным опытом. Надеемся, что данный материал будет вам полезен.

Читать далее
Всего голосов 13: ↑11 и ↓2+12
Комментарии10

Разработка фреймворка для автоматизации загрузок данных из источников: Case Study для металлургической компании

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1K

Аналитика данных и витрины аналитики — источники аналитической отчетности, на основе которой принимаются стратегические управленческие решения. Однако на рынке нет готовых фреймворков, которые полностью удовлетворяют потребности в извлечении данных.

Конечно, есть Apache NiFi, но с ним возникает много проблем при работе с большими объемами данных. Связка Python и Apache Airflow на сегодняшний день является одной из лучших практик в области управления данными не только для оркестрации данных, но и для извлечения, поэтому логично разрабатывать ETL-систему (Extract, Transform, Load) поверх Airflow. Это позволяет эффективно управлять процессами извлечения, преобразования и загрузки данных, обеспечивая надежность и гибкость в аналитической инфраструктуре.

Крупной металлургической компании с большим количеством филиалов, нужно было простое решение, ускоряющее работу с аналитикой данных и извлечением из различных гетерогенных источников. При этом требовалось достаточно гибкое к расширению функционала загрузок решение.

Можно было решать задачу клиента классическим образом — написанием кода, но тогда разработка заняла бы около трех месяцев. У нас не было столько времени, поэтому приняли решение разработать фреймворк, чтобы ускорить и упростить разработку.

Читать далее
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Секретные материалы: удобство (без)опасности

Уровень сложностиПростой
Время на прочтение23 мин
Количество просмотров2.8K

Выбор метода хранения и передачи секретной информации и его настройки могут серьёзно сказаться на общей безопасности инфраструктуры. Наши аналитики Нина Степовик и Виктор Кузнецов рассказали об этом со сцены Positive Hack Days Fest 2, а мы выкладываем видеозапись и дополненную текстовую версию доклада.

Из этого материала вы узнаете о некоторых аспектах управления секретными данными и основных видах атак на хранилища секретов. Наши специалисты сравнили популярные хранилища, поделились рекомендациями и лучшими практиками для их настройки, а также разобрали типичные ошибки в интеграции хранилищ секретов в инфраструктуру. 

Читать далее
Всего голосов 15: ↑14 и ↓1+15
Комментарии0

Почему Starburst Icehouse подходит не всем

Время на прочтение4 мин
Количество просмотров826

Недавно CEO Starburst опубликовал манифест о будущем открытого озера данных. В манифесте он говорит об Icehouse, архитектуре озера данных нового поколения на базе Trino и Iceberg. Глядя на нее, многие разработчики недоумевали: «А чем она отличается от любой другой архитектуры Data Lakehouse?». Команда VK Cloud перевела статью о концепции Icehouse. Вы поймете, почему в ней нет необходимости и почему она подходит далеко не всем, кто работает с открытыми архитектурами озера данных.

Читать далее
Всего голосов 11: ↑9 и ↓2+14
Комментарии0

Собираем полноценный NAS с 4 NVME дисками размером с небольшую книгу

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров24K

Увидев видео про эту плату, я подумал, что она по сути может быть полноценной медиа приставкой, файлопомойкой и торрентокачалкой одновременно и при этом занимать место размером с маленькую книгу формата А5 и кушать 5 ватт в простое, работая 24/7. Вкусно!

На самом деле несмотря на маркетинг, нормальная комплектация стоит порядка 175 долларов (а не 100, плюс доставка и растаможка) и диски, естественно не входят в эту цену. Речь идёт про плату CM3588 на базе системы на чипе RK3588. Маркетинговая страничкаспецификациявики. Комплектов на алике очень много вариантов (с корпусами и всякими доп. железками) - выбирайте очень аккуратно.

Изначально мне казалось будет приключение на 20 минут, но в итоге пришлось чуть повозиться и не всё получилось. В этой статье я расскажу, что именно получилось сделать с этой платой, а что не получилось и какие-то минимальные результаты тестирования прошивок от производителя, дисков и копирования файлов по сети.

Что получилось, что не получилось?
Всего голосов 29: ↑26 и ↓3+29
Комментарии111
1
23 ...

Вклад авторов