Как стать автором
Обновить
88.6

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга
Уровень сложности

И снова лазерные диски: китайцы представили болванку с емкостью в 200 ТБ. Что это за технология?

Время на прочтение 4 мин
Количество просмотров 28K

Подавляющее большинство современных ноутбуков лишены приводов для лазерных дисков. Не устанавливают их и в десктопные ПК, за некоторым исключением. Тем не менее, сам формат не умер, а продолжает развиваться. Например, китайцы представили современную версию лазерного диска с емкостью сразу в 200 ТБ. Подробности об этом носителе — под катом.
Читать дальше →
Всего голосов 29: ↑27 и ↓2 +25
Комментарии 78

Новости

Как расширить дисковое пространство на VPS за счет дисков на сервере в домашней сети

Уровень сложности Простой
Время на прочтение 9 мин
Количество просмотров 5.6K

В настоящее время очень широкое распространение получили решения, основанные на self-hosting'e. При этом, под этим термином понимается идеология и практика, предусматривающая размещение веб-сервисов на собственных серверах, например домашних, вместо использования стороннего хостинга, как коммерческого, так и бесплатного.

Преимущества такого решения очевидны: это во первых полный контроль над данными, во вторых возможность организовать работу на той операционной системе и в той среде к которой вы привыкли, а в третьих на том железе, которое вам доступно и которое подчас намного мощнее того, что предлагает сторонний хостинг.

Но недостатки такого подхода тоже есть, и часто основной недостаток в том, что для предоставления доступа к вашим сетевым ресурсам вы должны обеспечить ряд условий: работающий сервер, статический IP, правильная настройка NAT в части маршрутизации пакетов и обеспечения безопасности. И если с первым вопросом более-менее ситуация решаемая, то остальные вопросы подчас становятся нерешаемыми в силу ряда причин, начиная от особенностей провайдеров, заканчивая тем сетевым железом, которое есть в распоряжении пользователя. Хорошо, если это будет какое то решение, основанное на RouterOS или OpenWRT, которое еще надо уметь настроить, что подчас совсем не просто. Но это может быть и какой то роутер начального уровня (или, что еще хуже провайдерское оборудование), которое крайне ограничено в своем функционале, на котором настроен свой NAT, которое может находится за NAT провайдера с «серым» IP. Поэтому популярные решения для self-hosted ресурсов вроде NextCloud становятся не такими уж и популярными как бы того хотелось.

Читать далее
Всего голосов 13: ↑9 и ↓4 +5
Комментарии 17

Vertica Eon в K8S — 3 года развития

Уровень сложности Средний
Время на прочтение 5 мин
Количество просмотров 413

Vertica - одна из первых широко используемых MPP баз на просторах айти ландшафта СНГ. Колоночное хранение, быстрые запросы на миллиардах строк, легендарные sort-merge джойны, которых нет больше ни у кого, позволяющие запускать свои грибницы. Но нынче на дворе 2024 год: как компания Vertica сменила уже 2 (или трех) владельцев, доступ к веб ресурсам с территории РФ ограничен, поддержка брошена, а вокруг нас процветают облака или как минимум кубернетисы во всех ипостасях.

И все же начиная с версии 10.1 компания представила интересную возможность для тех, кто уже крепко подсел на эту иглу - движок Eon. Описывая в двух словах, это та же самая по скорости база данных, но использующая общее хранилище - S3 (во всех своих ипостасях от вендорских AWS, GCS до онпрем вариантов) или HDFS. К тому же есть отличная завлекалочка - бесплатное использование кластера размером до 1 ТБ и до 3 нод вычисления. Статья является итогом тестирования технологии, и результаты тестирования какие-то не очень веселые.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 11

iOmega ZIP. Уже не дискеты, но ещё не HDD

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 7.7K
Приветствую всех!

Казалось бы, о накопителях iOmega ZIP не писал только ленивый. Даже здесь, на Хабре было несколько статей, посвящённых этому во всех смыслах неоднозначному формату. Но вот в мои руки тоже попал такой привод, и я подумал: а что бы не затронуть и эту технологию? Тем более, что мне есть, что добавить к предыдущим обзорам.



Итак, в сегодняшней статье поговорим об iOmega ZIP — носителе информации, совмещавшем в себе недостатки как дискет, так и жёстких дисков. Узнаем, как устроены и работают такие устройства и посмотрим, что они могут. Традиционно будет много интересного.
Читать дальше →
Всего голосов 51: ↑51 и ↓0 +51
Комментарии 81

Истории

7 направлений оптимизации ClickHouse, которые помогают в BI

Уровень сложности Средний
Время на прочтение 12 мин
Количество просмотров 7.6K

Привет, Хабр! Меня зовут Никита Ильин, я занимаюсь разработкой архитектуры BI-платформы Visiology. Сегодня мы поговорим про оптимизацию ClickHouse — ведущей СУБД, которую все чаще используют для решения задач аналитики на больших объемах данных. В этой статье я расскажу, почему важно оптимизировать ClickHouse, в каких направлениях это можно делать, и почему разумный подход к размещению информации, кэшированию и индексированию особенно важен с точки зрения производительности BI-платформы. Также мы поговорим о том, к каким нюансам нужно готовиться, если вы решаете оптимизировать CH самостоятельно, сколько времени и сил может потребовать этот процесс и почему мы решили “зашить” в новый движок ViQube 2 десятки алгоритмов автоматической оптимизации. 

А что там с оптимизацией ClickHouse?
Всего голосов 20: ↑19 и ↓1 +18
Комментарии 1

Побит новый рекорд емкости HDD. 30 ТБ и 400 градусов Цельсия внутри

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 14K

Многие задаются вопросом, как хранить данные дома или на работе. Надо же не только установить систему на жесткий диск, но еще куда-то сложить несколько сезонов любимого сериала, фотографии друзей и родных, видео с котиками, да и для игр тоже нужно много места. А если вы работаете с большими объемами информации, то проблем становится еще больше. Но еще более требовательными являются центры обработки данных. И всем нужны большие накопители. Seagate представила самый большой жесткий диск, и его характеристики действительно впечатляют.

Читать далее
Всего голосов 14: ↑13 и ↓1 +12
Комментарии 20

CPM vs. BI:  о чем не расскажут продавцы

Уровень сложности Простой
Время на прочтение 21 мин
Количество просмотров 1.9K

Более восьми лет я специализируюсь на внедрении CPM и BI-систем различных вендоров. Несмотря на то, что во многом их функционал пересекается, мне хорошо понятно, какие задачи решаются лучше, а какие решаются только одним из этих двух классов систем.

Написать данную статью меня сподвигли несколько повторяющихся случаев путаницы при выборе системы для определенного пула задач. В моей практике произошло меньшей мере 4 случая, когда финансовые службы различных компаний на полном серьезе рассматривали внедрение BI-системы в качестве основной системы планирования и прогнозирования. Также, вспоминается случай во время моей работы в Большой четверке, когда партнер попросил меня провести встречу с заказчиком, чтобы объяснить, зачем им нужны наши услуги по внедрению CPM, когда у них уже есть работающая BI-система.

Кстати, встречаются и обратные ситуации. Не так давно один из CIO интересовался о возможности и целесообразности построения BI системы для всей компании на базе встроенного функционала визуализации одного из известных CPM решений.

Допускаю, моим коллегам, профессионалам в этой области, подобные идеи могут показаться нонсенсом. И во многом я с ними соглашусь. Но, во-первых, мне известен ряд неплохих решений, которые, после применения несколько довольно существенных настроек над BI, позиционируют себя как системы планирования (стесняясь, однако, называть себя как CPM). Во-вторых, я видел работающие (хоть и с ограничениями) решения на базе CPM платформ, собирающих множественные наборы данных из других ИТ-систем компании, и представляющих их далее в виде аналитических BI-отчетов для пользователей.

Читать далее
Всего голосов 17: ↑17 и ↓0 +17
Комментарии 4

В поисках ПАК: импортозамещаем немецкое «железо» в российском ЦОД

Уровень сложности Средний
Время на прочтение 5 мин
Количество просмотров 4.5K

Привет, Хабр! Меня зовут Артем, я инженер по виртуализации в Oxygen Data Centres & Clouds. Любой облачный провайдер и оператор ЦОД может столкнуться с задачей проброса USB-портов виртуальным машинам, которым нужен доступ к определенным устройствам. И чем серьезнее требования к безопасности этих флешек – тем сложнее реализовать такое решение на практике. Сегодня я расскажу о нашем пути к выбору ПАК (программно-аппаратного комплекса) для решения задач с флешками и чем нас обрадовало найденное российское решение, когда немцы решили больше не поставлять свою технику.

Читать далее
Всего голосов 29: ↑27 и ↓2 +25
Комментарии 7

Рейтинги в сфере BI — какая от них польза?

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 1.6K

Завтра, 15 февраля в 11-00 мы проводим круглый стол на тему оценки рейтингов BI, и я хочу пригласить всех желающих принять участие в этой онлайн-дискуссии. Мы планируем обсудить, почему в сфере BI рейтинги так сильно отличаются друг от друга, узнать напрямую у главных редакторов и руководителей аналитических отделов, чем они руководствуются, составляя те или иные рейтинги, а также спросить у заказчиков, обращались ли они к рейтингам, когда выбирали BI-платформу. Хотите принять участие и задать свои вопросы маститым экспертам? Все подробности под катом.

Читать далее
Всего голосов 11: ↑8 и ↓3 +5
Комментарии 1

Бэкапы исторических масштабов — как человечество сохраняет большие объемы данных?

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 3.1K
image

Корпоративные решения для синхронизации, резервного копирования и безопасного обмена файлами легко позволяют отправлять большие данные в облако. Но что, если нам необходимо собрать и сохранить грандиозный объем данных — например, записать историю человеческой цивилизации? Как это сделать, насколько надежны цифровые носители, есть ли конкурентноспособные альтернативы?

Сегодня поговорим о проектах, посвященных созданию массивных архивов и бэкапов, и роли систем ИИ в подобных задачах.
Читать дальше →
Всего голосов 14: ↑13 и ↓1 +12
Комментарии 7

Заметка про сохранение структур во flash памяти на STM32

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 5K

При разработке проекта для микроконтроллера часто возникает необходимость сохранения данных во Flash-память перед выключением устройства. Глобальные структуры содержат информацию о настройках различной периферии, данные с внешних датчиков и прочее. В этом посте я хочу показать простенький механизм записи структуры во FLASH память микроконтроллера STM32, которым я сам часто пользуюсь в своих проектах.

Читать далее
Всего голосов 23: ↑21 и ↓2 +19
Комментарии 17

Поисковый движок в 80 строках Python

Время на прочтение 11 мин
Количество просмотров 11K

В сентябре я устроился на должность поискового дата-саентиста и с тех пор часть моих обязанностей заключается в работе с Solr — опенсорсным поисковым движком на основе Lucene. Я знал основы работы поискового движка, но мне хотелось понять его ещё лучше. Поэтому я закатал рукава и решил создать его с нуля.

Давайте поговорим о целях. Слышали когда-нибудь о «кризисе сложности обнаружения маленьких веб-сайтов»? Проблема в том. что маленькие веб-сайты наподобие моего невозможно найти при помощи Google или любого другого поискового движка. Какова же моя миссия? Сделать эти крошечные веб-сайты снова великими. Я верю в возвращение славы этих малышей вдали от SEO-безумия Google.

В этом посте я подробно расскажу о процессе создания поискового движка с нуля на Python. Как обычно, весь написанный мной код можно найти в моём GitHub (репозиторий microsearch). Эта реализация не будет притворяться готовым к продакшену поисковым движком, это лишь полезный пример, демонстрирующий внутреннюю работу поискового движка.

Кроме того, мне стоит признаться, что в заголовке поста я слегка преувеличил. Да, поисковый движок действительно реализован примерно в 80 строках Python, но я ещё и писал вспомогательный код (краулер данных, API, HTML-шаблоны и так далее), из-за которого весь проект становится немного больше. Однако я считаю, что интересная часть проекта находится в поисковом движке, который состоит из менее чем 80 строк.

P.S. Написав этот пост и microsearch, я осознал, что пару лет назад нечто похожее написал Барт де Гёде. Моя реализация очень похожа на работу Барта, но я считаю что кое-что улучшил, в частности: (1) мой краулер асинхронный, что сильно ускоряет работу, (2) я реализовал пользовательский интерфейс, позволяющий взаимодействовать с поисковым движком.

Читать далее
Всего голосов 29: ↑29 и ↓0 +29
Комментарии 4

Как мы поменяли методику исследования «BI-круг Громова», чтобы результаты стали еще точнее

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 1.3K

«Круги Громова» занимается сравнительными исследованиями ИТ-решений. Начинали мы с исследований именно BI-систем (системы бизнес-аналитики, business intelligence) и разбираемся в них, как считаем, весьма хорошо. По задумке наши исследования (кстати, ежегодные) должны быть чем-то вроде карты для ИТ-отделов и руководителей, чтобы помочь им разобраться в дебрях множества современных BI-решений. Одним из основных параметров, влияющих на объективность исследования, является его методика. Поэтому мы постоянно думаем над тем, как сделать нашу методику еще более точной, учитывающей еще больше факторов и позволяющей раскрыть максимум информации о решениях, которые попали к нам под микроскоп.  

Читать далее
Всего голосов 8: ↑5 и ↓3 +2
Комментарии 1

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн

Хранение паролей: работа над ошибками

Уровень сложности Простой
Время на прочтение 9 мин
Количество просмотров 11K

В предыдущей статье, я описал свой сетап хранения авторотационных данных (паролей). Многие эксперты изучили её и дали свои комментарии, - о том, где могут быть проблемы, о том, что можно упростить, и о том, что можно делать по другому.

Но начнём мы с небольшого объяснения, почему система такая сложная. Вспомним суть:

1) Для логина на "не значимые" сайты (например в аккаунт очередного AI-продукта) мы используем уникальный пароль, который храним в программе хранения паролей (парольном менеджере)

2) Для логина на "более важные ресурсы" (например в аккаунт на github), мы используем уникальный пароль, который храним в парольном менеджере, плюс одноразовый пароль (TOTP - Time-based One-Time Password) который нам покажет специальное приложение на телефоне.

Вот и всё. Это вся суть повседневного использования всей системы. Но почему она тогда казалась такой сложной? Вероятно из-за дополнительных слоёв защиты от самого себя или любых непредвиденных факторов.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 8

Подводные дата-центры и хранение информации в QR-кодах: новшества индустрии ЦОД

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 1.5K

По данным TAdviser, в России зафиксирован небывалый «бум» строительства ЦОДов. Схожая картина наблюдается и в остальных странах: по итогам 2022 года общий объем данных в мире составил 97 зеттабайт, в 2023 году — 110-120 зеттабайт, а к 2025 году — прогноз вплоть до 180-ти. Всю эту информацию нужно где-то обрабатывать и хранить — потребность в дата-центрах растет ежемесячно. По данным «Коммерсанта», спрос на услуги дата-центров в значительной степени превышает предложение. Именно поэтому на сферу направлено сейчас пристальное внимание, а где внимание, там и высокие технологии.   

Читать далее
Всего голосов 7: ↑6 и ↓1 +5
Комментарии 2

От перфокарт в облако. Где вы хранили файлы десятилетие назад?

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 1.7K


В годы моей бурной юности в ходу были пятидюймовые дискеты. Их и вправду можно было назвать “floppy”, то есть, гибкими — футляр из плотного коленкора довольно легко сгибался, пробивался степлером и даже с некоторым усилием сворачивался в трубку. Перфокарты я тоже застал — родители иногда приносили их домой из вычислительного центра, в котором работали, и маленький я рисовал на этих забавных карточках с напечатанными типографским способом рядами цифр (и совой, сова с надписью «КАНГАС» почему-то накрепко засела в памяти) короткими фломастерами от плоттеров-графопостроителей, которые в ассортименте добывались там же, в ВЦ. Сейчас, используя многогигабайтовое облако, смешно вспоминать эту бумажную карточку емкостью 80 байт. Зато можно сказать, что эволюцию носителей информации от перфокарт к облаку я увидел собственными глазами.
Читать дальше →
Всего голосов 17: ↑15 и ↓2 +13
Комментарии 11

Web 3.0 и частные данные

Время на прочтение 8 мин
Количество просмотров 1.4K

Эта публикация является развитием идей, сформулированных в предыдущей статье - "Идентификация пользователей в Web 3.0". После предыдущей публикации я понял, что в массах нет однозначного определения, что же именно называть Web 3.0 - виртуальную реальность, интернет вещей или децентрализацию на базе блокчейна. С моей точки зрения, Web 3.0 - это архитектура веб-приложений, обусловленная спросом пользователей на конфиденциальность их собственных данных.

Развитие идей Web 2.0 привело к тому, что пользователи сами стали товаром. Вернее, товаром стала информация об их связях и предпочтениях, которую собирают и монетизируют корпорации типа Google и Facebook. В ответ на это у многих пользователей появилось желание не делиться своими персональными данными с корпорациями, а хранить свои данные в недоступном для корпораций месте. Размышлениям о том, к каким последствиям может привести персонализация хранимых данных, и посвящена данная публикация. Сразу предупреждаю - это просто моё растекание мыслью по древу, а не "сборник рецептов" или разъяснения "как всё устроено". Не очаровывайтесь, чтобы не разочароваться :)

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Комментарии 4

Как устроена страничная организация памяти x86_64

Уровень сложности Простой
Время на прочтение 15 мин
Количество просмотров 6.9K

В этом посте я буду говорить о страничной организации только в контексте PML4 (Page Map Level 4), потому что на данный момент это доминирующая схема страничной организации x86_64 и, вероятно, останется таковой какое-то время.

Окружение

Это необязательно, но я рекомендую подготовить систему для отладки ядра Linux с QEMU + gdb. Если вы никогда этого не делали, то попробуйте такой репозиторий: easylkb (сам я им никогда не пользовался, но слышал о нём много хорошего), а если не хотите настраивать окружение самостоятельно, то подойдёт режим практики в любом из заданий по Kernel Security на pwn.college (вам нужно знать команды vm connect и vm debug).

Я рекомендую вам так поступить, потому что считаю, что самостоятельное выполнение команд вместе со мной и возможность просмотра страниц (page walk) на основании увиденного в gdb — хорошая проверка понимания.

Читать далее
Всего голосов 50: ↑50 и ↓0 +50
Комментарии 0

Как мы не выбрали Airbyte, или почему собирать данные лучше по старинке

Уровень сложности Средний
Время на прочтение 7 мин
Количество просмотров 3.2K

Привет, Хабр! Меня зовут Илья, я работаю инженером данных в компании Selectel. В отделе BI мы собираем информацию из внутренних и внешних источников и предоставляем аналитикам.

У нас достаточно большой набор внешних ресурсов, данные из которых нужно собирать и обрабатывать. Среди них — различные SMM-площадки вроде VK и Telegram, платформы лидогенерации, инструменты таргетированной рассылки писем, системы автоматизации и многое-многое другое.

Так как компания развивается, мы спрогнозировали, что число источников тоже будет только расти. И назрела мысль, что нам нужно подобрать специализированное ПО, которое будет отвечать за доставку данных из внешних ресурсов в DWH. Время прошло, идея воплощена: мы используем Airflow и самописные коннекторы на Python. Но могло сложиться все иначе — и мы бы использовали Airbyte, если бы не одно но…
Читать дальше →
Всего голосов 37: ↑36 и ↓1 +35
Комментарии 5

Снова на те же грабли. Разбираемся с ошибками хранения ПДн и способами защиты медицинских данных

Время на прочтение 5 мин
Количество просмотров 1.2K

Привет, Хабр! Ловите новую подборку от beeline cloud — собрали практические истории по работе с персональными данными. Здесь и основные ошибки хранения ПДн, и советы, которые помогут навести порядок, и примеры защиты личных данных пациентов в виде кейса компании, которая проводит дистанционные медицинские осмотры.

Читать далее
Всего голосов 12: ↑8 и ↓4 +4
Комментарии 1

Вклад авторов