Обновить
191.36

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга
Уровень сложности

Где до сих пор используют дискеты и другие устаревшие носители, которые не умирают даже в 2025 году

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров26K

В это может быть непросто поверить, на наших глазах уже выросло целое поколение, которое дискету не то что не использовало, а даже в глаза не видело. В целом, все логично. Технология давно умерла и предана забвению. Так, по крайней мере, принято считать. Но есть категория людей, которым об этом почему-то не рассказали, и они продолжают полагаться в своей работе даже не на диски DVD-RW, а на старые добрые дискеты. Разных форматов, конечно, но все-таки дискеты. И таких историй больше, чем кажется.

Читать далее

Документный хаос? RAG-система придёт на помощь

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров3.8K

Статья описывает практическую реализацию системы Retrieval-Augmented Generation (RAG) для превращения документов в интерактивную базу знаний. Показано, как хранение эмбеддингов в Qdrant и интеграция с языковой моделью (LLM) позволяют быстро получать точные ответы на вопросы. Рассматриваются архитектура, ключевые компоненты и внутренние механизмы работы системы, полезные для разработчиков и новичков в области RAG.

Читать далее

Я выполнил реверс-инжиниринг веб-обфускации Amazon, потому что приложением Kindle пользоваться невозможно

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров12K

TL;DR

• Я впервые купил на Amazon электронную книгу

• Android-приложение Kindle самой компании Amazon было очень забагованным и часто вылетало

• Попробовал скачать мою книгу, чтобы читать её в реально работающем приложении для чтения

• Осознал, что Amazon больше не позволяет этого делать

• Решил назло выполнить реверс-инжиниринг её системы обфускации

• Обнаружил множество слоёв защиты, в том числе рандомизированные алфавиты

• Победил их все при помощи колдунства с сопоставлением шрифтов

Читать далее

Что выгоднее и безопаснее для хранения фото, видео и других данных: облако или собственный NAS

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров28K

Думаю, не будет большой ошибкой предположить, что ваш смартфон имеет накопитель минимум на 128 ГБ, больше половины из которых почти наверняка занимают фотографии, какие-то случайные видео и, конечно, скриншоты. Держать это все во встроенной памяти, конечно, можно. Но тогда есть риск, что оставшегося пространства банально не хватит для новых приложений и Телеграма с Ватсапом, которые имеют свойство разрастаться очень и очень сильно. Значит, все это добро надо куда-то деть. Вопрос в том – куда. Облако – ненадежно. Свое железо – надежно, но дорого. Или наоборот… В общем, давайте посмотрим на вещи объективно и постараемся понять, где лучше всего хранить свои данные.

Читать далее

Гид по Cloudberry ч.2: advanced-возможности, дорожная карта и планы развития

Уровень сложностиСложный
Время на прочтение7 мин
Количество просмотров550

В прошлый раз, в первой части нашего гида по Apache Cloudberry™, мы поговорили об истории проекта, его архитектуре, ядре СУБД и функциях платформы. 

Но помимо ядра СУБД, мы также хотим использовать data‑lakehouse‑запросы. В Data Lakehouse есть некоторые проблемы: мы не можем получать данные оттуда напрямую. В Cloudberry разработана технология, с помощью которой можно это делать, так что поговорим об этом подробнее. А также рассмотрим ещё несколько интересных возможностей и расскажем о планах проекта.

Читать далее

Toshiba разработала HDD с 12 пластинами: до 40 ТБ в одном корпусе. Что за новинка?

Время на прочтение4 мин
Количество просмотров6.2K

В октябре 2025 года Toshiba представила жесткий диск, который сразу привлек внимание рынка. Дело в том, что разработчикам удалось разместить двенадцать пластин в стандартном 3,5-дюймовом корпусе, где раньше помещалось не больше десяти. Более того, это решение открывает путь к появлению моделей емкостью до 40 ТБ уже в ближайшие пару лет — при тех же размерах и уровне энергопотребления.

Стоит отметить, что во втором квартале 2025 года доля Toshiba на рынке жестких дисков была около 17 % — меньше, чем у Seagate и Western Digital. Компания развивается и продолжает развивать собственные технологии, делая ставку на повышение плотности записи и надёжности носителей. Последняя разработка с двенадцатью пластинами стала следующим шагом в этой стратегии. Новинка рассчитана прежде всего на дата-центры, где особенно важны высокая ёмкость, стабильная работа и низкая цена за гигабайт. 

Читать далее

Как повысить качество клиентских данных

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров502

Привет, Хабр. В этой статье делюсь опытом повышения качества клиентских данных в онлайн-обучении и выводами, к которым я пришел по итогам.

Узнать, как улучшить качество данных

Как формат VideoDisc стал основой для SCM‑микроскопа

Время на прочтение11 мин
Количество просмотров1.2K

В 70–80-е годы развернулась настоящая «битва видеоносителей»: Betamax, VHD (Video High Density), LaserDisc и VHS. Победителем, как известно, стал последний. Но в этой гонке участвовал и американский гигант Radio Corporation of America — со своим форматом CED (Capacitance Electronic Disc), также известным как VideoDisc.

Проект обошёлся компании почти в 500 миллионов долларов и закончился крахом: в 1987 году RCA прекратила существование. Казалось бы, точка. Но одна из технологий, созданных для CED, неожиданно обрела вторую жизнь — и привела к появлению сканирующего ёмкостного микроскопа.

Читать далее

Нигерия — Дания 1:21. Как соотносятся региональные цены на Chess.com

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров1.1K

Что такое региональное ценообразование?

Цель каждого бизнеса — максимизация прибылей. Бизнес должен выставлять такую цену на свои продукты, чтобы получать наибольшую прибыль. Сделаешь цену слишком низкой — рискуешь потерять существенную часть прибыли. Слишком высокой — она будет неподъёмной для многих потенциальных покупателей. Для решения этой проблемы компании используют задачу фирмы по выбору оптимальной цены, то есть точки, где прибыль максимальна и есть баланс между ценой и спросом.

Мы знаем, что у многих бизнесов покупатели есть по всему миру. Для максимизации международных прибылей бизнесу необходимо регулировать цены в разных регионах в зависимости от покупательской способности каждой страны и других факторов (налогов, стоимости доставки и пошлин). Это крайне важно, потому что цена, доступная в одной стране, может быть слишком высокой в другой. Без учёта этих различий бизнес может продешевить или завысить цену; и то, и другое приводит к снижению прибылей.

У многих популярных онлайн-сервисов, в том числе Netflix, Spotify, HBO Max, Disney+, YouTube Premium, Steam и Epic Games Store, есть региональное ценообразование. В этой статье я проанализирую стратегию регионального ценообразования, используемую популярной шахматной онлайн-платформой Chess.com.

Читать далее

Как избежать перезаписи в S3 с помощью условных заголовков

Время на прочтение9 мин
Количество просмотров3.7K

Хранение файлов в S3 выглядит просто: добавляете объект в бакет по ключу и потом при необходимости удаляете или обновляете его. Но в реальной работе можно загрузить файл с помощью операции PutObject, не проверив, что в бакете уже лежит файл с этим ключом. В результате новое содержимое незаметно заменит старое. Или можно случайно удалить только что добавленный свежий бэкап вместо старого, что нарушает рабочий процесс. Чтобы избежать подобных ситуаций, в S3 есть условные операции записи (conditional write) — это когда действия вроде PutObject, CopyObject, DeleteObject или CompleteMultipartUpload выполняются только при соблюдении заданных условий.

Всем привет! Меня зовут Клюев Алексей, я старший разработчик S3-совместимого объектного хранилища в Selectel. В этой статье мы разберем, как работают условные заголовки, зачем они нужны и как применять их на практике. В качестве примеров будем использовать язык Go и aws-sdk-go v2.

Читать далее

Человек VS трихоплакс: так ли мало у нас общего?

Время на прочтение6 мин
Количество просмотров513

Привет, дорогой читатель! Представь: ты заходишь в здание, где в каждой лаборатории бьется ключом научная мысль, пытающаяся расшифровать главную загадку природы — наш собственный мозг. Именно так себя ощутили участники студенческого пресс-тура в Институт высшей нервной деятельности и нейрофизиологии (ИВНД и НФ) РАН.

Читать далее

Что если… (безумные идеи хранения данных)

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров5.2K

... писать без транзакций?
... сохранять без кворума?
... стирать прод без бэкапов?
... сливать базу самому?

И всё это безопасно, надёжно, доступно!

Хочу эти грибы!

Работаем с S3 без интернета: как настроить подключение к S3-совместимому хранилищу через сервисную сеть

Время на прочтение6 мин
Количество просмотров3.6K

Некоторые организации работают с чувствительными данными и обязаны соблюдать строгие нормы информационной безопасности. Использование стандартных подходов, при которых обращения к облачным хранилищам происходят через публичный интернет, создает риск утечки данных, компрометации конфиденциальности и даже нарушения норм регулирующих органов. Поэтому востребованным решением в таких кейсах становится изолированное подключение к S3-совместимым хранилищам через сервисную сеть.

Меня зовут Павел Зимин. Я системный инженер в команде Professional Services Cloud SaaS VK Cloud. В этой статье я расскажу, что такое сервисная сеть и зачем она нужна, а также покажу алгоритм настройки подключения к объектному хранилищу через сервисную сеть на примере Object Storage от VK Cloud.

Читать далее

Ближайшие события

Автоматический парсинг чеков с LlamaIndex и Pydantic

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров987

Команда Python for Devs подготовила перевод статьи о том, как с помощью LlamaIndex и Pydantic можно превратить сканы чеков в структурированные данные. Минимум кода — и у вас готовый CSV для анализа.

Читать далее

Пришли времена личных хранилищ данных

Время на прочтение7 мин
Количество просмотров79K

Ещё в 2009 году Тим Бернерс-Ли написал веб-спецификацию под названием «Socially Aware Cloud Storage», ориентированную на защиту общественных интересов при реализации облачных хранилищ:

«Есть такая архитектура, в которой несколько сетевых или веб-протоколов собираются воедино для создания всемирной системы, где приложения (десктопные или веб) способны работать поверх уровня стандартного хранилища, предоставляющего возможность чтения/записи.

Ключевые моменты здесь в том, что главные участники (пользователи) и группы идентифицируются по URI, то есть получаются глобальными, и управление доступом к элементам хранилища выполняется с использованием этих глобальных идентификаторов. В итоге хранилище становится общедоступным ресурсом, независимым от использующих его приложений».

Несколько таких идей активно обсуждались в цифровой среде в конце 2000-х, вскоре после взрывного развития монолитных платформ эпохи Web 2.0 вроде Facebook*.

Ещё одну схожую по духу концепцию в то же время предлагали разработчики Opera, которые хотели «встроить в ваш браузер веб-сервер».

И если Opera Unite так и не обрела полноценную жизнь, на предложенную Тимом спецификацию обратили пристальное внимание через несколько лет, когда сменившие один другой кризисы конфиденциальности явно указали на необходимость повышения степени независимости и контроля со стороны пользователей в веб-среде.

Читать далее

DBT Proplum: Расширяем возможности DBT для работы с Greenplum и Clickhouse

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров2.5K

В современных реалиях всё чаще встаёт вопрос о переходе с вендорских продуктов на open-source. Компании активно рассматривают DBT как стандарт для управления трансформациями данных, но сталкиваются с проблемами: существующие алгоритмы загрузки оказываются недостаточными, а адаптеры для СУБД - устаревшими.

В этой статье рассказываем о нашей доработке адаптера для DBT, который расширяет возможности работы с Greenplum и ClickHouse, добавляя новые стратегии загрузки, логирование и интеграцию с внешними источниками.

Читать статью

Парсить XML при помощи регулярных выражений нельзя… но давайте попробуем

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров2.3K

Парсинг HTML при помощи регулярных выражений — популярная ошибка и отличный пример использования неподходящего под задачу инструмента. Общепризнанно, что это плохая идея по множеству причин.

Существует знаменитый ответ на Stack Overflow о том, почему этого ни в коем случае не следует делать. На самом деле, этот ответ стал настолько популярным, что в определённых кругах используется, как копипаста. Каждый раз, когда я натыкаюсь на него, то думаю что он во многом справедлив... но в то же время, не могу согласиться с ним полностью...

Читать далее

Забудь про облачные подписки! Полный переход с Google Photos на Immich. Мой личный опыт

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров65K

Привет! Сегодня вам расскажу, как я полностью отказался от Google Photos и настроил своё собственное хранилище фотографий на базе Immich с кучей функций, не уступающих тем, что есть у популярных представителей данных сервисов.
Это не обзор ради обзора, а мой реальный кейс. У меня дома стоит свой собственный домашний сервер, который я собрал не так давно, куда я уже перенес все свои фотографии и видео.

Читать далее

Книга: «Грокаем структуры данных»

Время на прочтение2 мин
Количество просмотров10K

Каждый разработчик знает, насколько важны структуры данных. Без них не обходится ни один серьезный проект, будь то оптимизация запросов, работа с Big Data или просто написание чистого и эффективного кода. Не зря же на собеседованиях постоянно спрашивают про деревья, хеш-таблицы и сложность алгоритмов!

Вы только приступили к изучению структур данных? Хотите освежить знания, полученные в ходе обучения? В этой книге нет заумной математики, скучных доказательств и абстрактной теории. Вместо этого — понятные объяснения, рабочие примеры и реальные кейсы, с которыми ежедневно сталкиваются разработчики. Вы узнаете, как с помощью правильных структур данных ускорить поиск, эффективнее управлять очередями задач или, например, оптимизировать хранение данных.

Книга построена по принципу «от простого к сложному»: начинается с базовых структур, таких как массивы и связанные списки, и постепенно переходит к более сложным — стекам, очередям, деревьям, хеш-таблицам и графам. Каждая глава содержит практические примеры, упражнения и наглядные иллюстрации, которые помогают закрепить материал. Вся теория подкреплена примерами на Python — одном из главных языков современной разработки.

Если вы хотите не просто использовать структуры данных, а понимать их и применять осознанно — эта книга для вас.

Читать далее

Гайд по применению Object Lock на примере S3-объектного хранилища VK Cloud

Время на прочтение8 мин
Количество просмотров1.5K

Количество кибератак, направленных на облачные и гибридные сервисы в России, за первые 8 месяцев 2025 года превысило суммарный показатель за 2023 и 2024 годы и достигло отметки в 105 млн инцидентов. В условиях подобных вызовов востребованной стратегией для бизнеса становится использование всех доступных мер защиты инфраструктуры и данных, в первую очередь критически значимых, например финансовых отчетов и юридических документов. 

Рассказываем и показываем, как обеспечить максимальный уровень защиты данных в объектном хранилище S3 на примере Object Storage от VK Cloud.

Читать далее

Вклад авторов