Как стать автором
Обновить
136.53

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга
Уровень сложности

От таблицы в Excel до собственного инструмента: как мы строили в VK Cloud решение для работы с внешними партнерами

Время на прочтение5 мин
Количество просмотров1.5K

Обмен данными между компаниями-партнерами при реализации совместных проектов — стандартная практика. Но часто есть сценарии, которые требуют особого подхода — например, из-за необходимости подстраивать формат отображения данных под специфику работы с информацией на стороне партнера. Более специфической такая задача становится, если готовых решений под такие запросы нет. С подобной ситуацией сталкивались и мы в VK.

Меня зовут Елена Климанова. Я ведущий дата-аналитик в компании VK. В этой статье расскажу, как и почему мы прошли путь от использования excel-файлов при работе с внешними партнерами-вендорами до создания собственного продукта.

Читать далее

Новости

Obsidian: исчерпывающее руководство по Templater

Уровень сложностиСредний
Время на прочтение38 мин
Количество просмотров7.2K

В этой статье я расскажу о том, как плагин Templater может упростить ежедневное взаимодействие с заметками в вашем хранилище Obsidian, постараюсь рассмотреть большинство его возможностей, а также поделюсь собственными шаблонами, которые могут оказаться для вас полезными.

Читать далее

Повышаем эффективность хранения данных до 300 раз с помощью таблиц SCD-2

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров1.6K

Всем привет, меня зовут Василий. С 2021 года работаю в роли инженера данных в Х5 Tech, успел за это время познакомиться с несколькими интересными проектами и подходами в области обработки данных, об одном из которых пойдет речь далее.

В этой статье расскажу о том, как можно повысить эффективность хранения данных за счет уменьшения их дублирования. 

Разберем, что из себя представляют Slowly Changing Dimensions-2 (далее SCD-2) таблицы и самостоятельно реализуем на PySpark алгоритм сохранения данных в них. Попутно поговорим о том, как находить изменения в любой таблице, даже если отсутствуют поля для выбора изменившихся записей, и научимся получать из созданной SCD-2 таблицы срезы на требуемую дату в прошлом.

Читать далее

Снапшоты, клоны и не только: как устроен и что умеет маппер в СХД TATLIN

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров1.2K

Привет, Хабр! Меня зовут Алексей, я главный эксперт по разработке ПО в департаменте разработки СХД YADRO. В этой статье я расскажу об устройстве такого важного программного компонента СХД, как маппер, о реализуемой с его помощью функциональности TATLIN.UNIFIED — полноценных тонких томах, снапшотах, клонах — и о планах по развитию этого компонента.

Читать далее

«Светлые планы на будущее»: новые RISC-V процессоры, GPU и СХД

Время на прочтение8 мин
Количество просмотров2.7K

Всем привет! Меня зовут Сергей Ковалёв, я менеджер по развитию выделенных серверов. В этом теплом майском дайджесте собрал новинки серверного железа и другие новости из мира технологий. В апреле производители хоть и не очень нас баловали, зато охотно делились планами на будущее. Подробности под катом!
Читать дальше →

Чем отличается обработка ПД Интернет-магазином от обработки ПД любым другим сайтом: это нужно знать бизнесу

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.2K

Что общего между... Нет, не ежиком и молоком или карандашом и ботинком… А между маленьким и крупным Интернет-магазином?

Так как я юрист для бизнеса, а не психиатр, мой вопрос проще. Но если вам интересно, что там с ежиком, молоком, карандашом и ботинком, отвечу здесь, чтобы вы не ушли искать, так как дальше будет крайне важно для тех, кто продает что-либо в Сети

Узнать про молоко, ежиков и обработку ПД

Максимизация производительности ScyllaDB

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров1.1K

ScyllaDB — это высокопроизводительная распределённая NoSQL-база данных, совместимая с Apache Cassandra, но в разы более быстрая за счет того, что написана на C++. Однако, несмотря на сверхбыструю скорость работы, можно ли сделать ее еще быстрее?

Читать далее

Мой адрес — не дом и не улица: как создать нужную бизнесу адресную модель

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров732

Приходит заказчик и говорит: «Мы новую систему строим, проконсультируйте нас, пожалуйста. Вы же адресами занимаетесь. Нам нужно сделать универсальную адресную модель. Вот у вас «Единый адрес» есть, какая там модель? Мы примем ее за эталонную и будем в своих системах использовать».

Ребята, я вас сейчас разочарую. В «Едином адресе» не одна адресная модель, а несколько. И ни одну из них копировать просто так не нужно. 

Эта статья для архитекторов, аналитиков и разработчиков. В ней я расскажу, в чем подводные камни в работе с адресами и что нужно учитывать при проектировании адресных моделей. 

Читать далее

SQL-линтер на Rust, HTML-минификатор для .NET и эмулятор DOS в браузере: кто получил гранты Yandex Open Source

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров3K

В конце октября мы анонсировали продление программы грантов от Yandex Open Source для поддержки проектов независимых разработчиков. Пришло время подвести итоги и рассказать о победителях.

За прошедшие месяцы мы изучили 120 проектов в трёх категориях: обработка и хранение данных, машинное обучение и разработка. Кстати, одну из заявок мы получили 15 марта в 23:59 — в последнюю минуту подачи. Этот проект тоже есть среди победителей.

Так мы выбрали 12 проектов, которые показались нам самыми интересными, полезными и перспективными. Мы попросили победителей рассказать про свои проекты чуть подробнее. Кто знает, возможно, в этой статье вы найдёте для себя новые инструменты, которые будут полезны в вашем проекте.

Читать далее

Идеальный NAS на 8 NVME дисков. Обзор Terramaster F8 Plus

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров11K

У меня как и, наверное, у любого айтишника есть какое-то огромное количество файлов, которое надо бэкапить. И у меня уже есть NAS с обычными HDD дисками для моих бэкапов. Но для себя я решил, что NAS c HDD хорошо подходит для хранения чего-то к чему не очень то и часто обращается. А вот если нужно хранить что-то что иногда нужно скачать или закачать, то значительно приятнее работать с NAS на NVME дисках.

Таких девайсов на самом деле не так уж и много. Есть некоторые модели на 4 диска. А вот на 8 дисков я даже и конкурентов не знаю. Поэтому сегодня будет обзор на уникальную по-своему штуковину - NAS на 8 быстрых NVME дисков. Да еще и с 10 гигабитным ethernet портом.

Читать далее

ИИ в Data Governance: как мы ускорили маркировку персональных данных

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров841

Перед нашей командой встала задача сделать продукт управления данными удобнее, добавив алгоритмы искусственного интеллекта. Но какое решение выбрать? Какой процесс нуждался в автоматизации больше всего? С какими ограничениями и сложностями мы столкнулись? Какой бизнес-эффект мы получили в результате? На эти вопросы ответит статья.

Читать далее

Почему SCD Type 2 медленно работает в DWH, и как это чинится через Merge + Hash

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров374

Привет, Хабр!

В этом статье рассмотрим, почему классическая реализация SCD Type 2 в DWH начинает жутко тормозить на миллионах строк и как с этим бороться при помощи комбинации MERGE + hash-diff.

Читать далее

Почему мы делаем собственное объектное хранилище в MWS

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров1K

Привет! Меня зовут Алексей Баранов, я руковожу направлением Data Storage Systems в облаке MWS. Мы начинаем серию статей, в которой расскажем, как устроены наши системы хранения, почему мы их делаем так и почему именно такие.

В этой статье расскажу, как мы подошли к выбору технологий для object storage новой облачной платформы. Обсудим плюсы и минусы популярных на рынке решений вроде Ceph RGW, какие требования мы предъявляли к системе, и какая архитектура в итоге получилась.

Читать далее

Ближайшие события

OLAP-системы: многомерная модель данных и её применение. Правила Кодда: библия для разработчиков реляционных баз данных

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2.3K

Для анализа и обработки больших объёмов данных применяются специальные системы — OLAP (Online Analytical Processing). Мы разберём основные принципы их работы, преимущества и примеры использования.

Определение OLAP-систем

OLAP-системы — это инструменты для анализа данных, которые позволяют быстро и эффективно находить ответы на сложные вопросы. 

Они находят применение в разных сферах, таких как финансы, производство, розничная торговля и другие.

Пример использования OLAP-технологии

«В компании, занимающейся продажей цифровых товаров и программного обеспечения, многомерный куб помогает анализировать данные».

Читать далее

Биометрия, 1С и информатика или небольшая история о модернизации систем безопасности промышленного предприятия

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров929

Масштабирование — это «серый кардинал» проектирования сложных систем: все знают, что без нее не обойтись, но всерьез задумываются только тогда, когда инфраструктура начинает трещать по швам. А мануалы? Их, как правило, открывают уже постфактум — когда что-то ломается, зависает или отказывается работать вопреки всем ожиданиям. В этой статье мы не будем учить вас теории — вместо этого поделимся реальным опытом модернизации системы видеонаблюдения (СВН) и системы контроля управления доступом (СКУД) на одном из промышленных предприятий.

Здесь не будет идеальных решений и глянцевых кейсов — только честный разбор проблем, с которыми мы столкнулись, неочевидные ловушки масштабирования и примеры того, как даже продуманная архитектура может дать сбой при столкновении с человеческим фактором. Если вы хотите узнать, как превратить хаос устаревшей инфраструктуры в отлаженный механизм, — добро пожаловать под кат.

Читать далее

Jellyfin Web на своём сервере. Фронтенд для медиастриминга

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4.1K


Многие из нас первым медиасервером устанавливали Plex. Но это коммерческое решение. Некоторые считают, что в последних версиях он изменился к худшему: например, заставляет регистрировать аккаунт, логиниться через центральный веб-портал, передвигает пользовательский контент в подменю, рекламирует собственные продукты и сервисы, выкатывает ненужные функции.

Поэтому для медиасервера лучше выбрать опенсорсную программу, как Jellyfin.
Читать дальше →

Защищенное хранение резервных копий

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2.8K

В этом обзоре расскажем о проблематике защиты резервных копий, возможных вариантах реализации такой защиты, а также о совместном решении компаний Киберпротект и АМТ‑ГРУП, позволяющем обеспечить защищенное хранение резервных копий, создаваемых СРК Кибер Бэкап, используя аппаратно‑программный комплекс InfoDiode.

Читать далее

Мы в ответе за тех, кого сгенерировали

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.1K

Весна 2025 года — отличное время, чтобы оживить мой проект Econet, который посвящён проблемам цифрового мусора, современным подходам к работе с данными и инфраструктуре информационных систем.

Читать далее

PTTJS — формат текстового хранения комплексных таблиц

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров2.5K

PTTJS - plain text table javascript, формат разработанный из личной необходимости и острой нужды.

Главная цель формата PTTJS - получить текстовый формат таблиц, который позволяет хранить более сложные таблицы, нежели существующие форматы, но при этом сохранять читаемость и текстовую основу.

Уже написаны JS библиотека с парсером и сериализатором, а также Obsidian плагин.

Читать далее

Как я чищу диск на MacOS и какой внешний накопитель выбрал

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров8.9K

Привет, Хабр! Недавно брат поинтересовался, как я решаю проблему с вечно забитым диском на MacBook, и я решил не только ему ответить, но и поделиться своим опытом со всеми. Расскажу, как бороться с нехваткой места и какой внешний накопитель выбрать, чтобы не разориться и не разочароваться.

Читать далее
1
23 ...