Обновить
161.91

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга
Уровень сложности

«Светлые планы на будущее»: новые RISC-V процессоры, GPU и СХД

Время на прочтение8 мин
Количество просмотров3.7K

Всем привет! Меня зовут Сергей Ковалёв, я менеджер по развитию выделенных серверов. В этом теплом майском дайджесте собрал новинки серверного железа и другие новости из мира технологий. В апреле производители хоть и не очень нас баловали, зато охотно делились планами на будущее. Подробности под катом!
Читать дальше →

Чем отличается обработка ПД Интернет-магазином от обработки ПД любым другим сайтом: это нужно знать бизнесу

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.8K

Что общего между... Нет, не ежиком и молоком или карандашом и ботинком… А между маленьким и крупным Интернет-магазином?

Так как я юрист для бизнеса, а не психиатр, мой вопрос проще. Но если вам интересно, что там с ежиком, молоком, карандашом и ботинком, отвечу здесь, чтобы вы не ушли искать, так как дальше будет крайне важно для тех, кто продает что-либо в Сети

Узнать про молоко, ежиков и обработку ПД

Дата-центр на орбите: технические особенности футуристической концепции

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.2K


Недавние проекты — от китайской «Трёхтелесной вычислительной констелляции» с ИИ-спутниками до коммерческих инициатив вроде Lumen Orbit и Lonestar Data — наглядно демонстрируют, что идея «ЦОД в космосе» вышла за рамки научной фантастики.

Предыдущая статья вызвала множество комментариев и споров по этой теме, поэтому я решил изучить этот вопрос подробнее — опираясь не на громкие ИТ-тренды, а на реальные научные исследования и практику (ссылки на первоисточник проставлены по тексту).

Эта статья не источник для споров и не личный опыт автора, а база для обмена мнениями. Кто знает, может именно в комментариях «Хабра» родится истина о том, как настроить работу ЦОДов в космосе.
Читать дальше →

OLAP-кубы – вчерашний день? Технологии нового поколения для аналитики данных

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров15K

За последние полгода к нам обратились сразу несколько заказчиков с запросом модифицировать или мигрировать структуру их OLAP-кубов – естественно, с сохранением функциональности. Прежде чем браться за задачу, неплохо бы вспомнить, с чем мы имеем дело.

Об OLAP-кубах, как о некоей абстракции, я услышал во второй половине 2000-х гг., а в реальности столкнулся с ними несколькими годами позже.

Читать далее

Приходят как-то аналитики на офисную кухню, а там дата-инженеры в нарды играют…

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров4.8K

Один из игроков — я, Кирилл Красновид, тимлид BI-команды в Профи.ру. Наша задача — делать так, чтобы каждый быстро и удобно получал нужную информацию без лишней суеты и ожиданий. 

Поэтому мы стараемся все автоматизировать и оптимизировать. Сегодня расскажу, как решаем эти задачи, а ещё про собственные хранилища аналитиков и bus-фактор.

Читать далее

Максимизация производительности ScyllaDB

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров1.9K

ScyllaDB — это высокопроизводительная распределённая NoSQL-база данных, совместимая с Apache Cassandra, но в разы более быстрая за счет того, что написана на C++. Однако, несмотря на сверхбыструю скорость работы, можно ли сделать ее еще быстрее?

Читать далее

Мой адрес — не дом и не улица: как создать нужную бизнесу адресную модель

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров1.2K

Приходит заказчик и говорит: «Мы новую систему строим, проконсультируйте нас, пожалуйста. Вы же адресами занимаетесь. Нам нужно сделать универсальную адресную модель. Вот у вас «Единый адрес» есть, какая там модель? Мы примем ее за эталонную и будем в своих системах использовать».

Ребята, я вас сейчас разочарую. В «Едином адресе» не одна адресная модель, а несколько. И ни одну из них копировать просто так не нужно. 

Эта статья для архитекторов, аналитиков и разработчиков. В ней я расскажу, в чем подводные камни в работе с адресами и что нужно учитывать при проектировании адресных моделей. 

Читать далее

SQL-линтер на Rust, HTML-минификатор для .NET и эмулятор DOS в браузере: кто получил гранты Yandex Open Source

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров4.2K

В конце октября мы анонсировали продление программы грантов от Yandex Open Source для поддержки проектов независимых разработчиков. Пришло время подвести итоги и рассказать о победителях.

За прошедшие месяцы мы изучили 120 проектов в трёх категориях: обработка и хранение данных, машинное обучение и разработка. Кстати, одну из заявок мы получили 15 марта в 23:59 — в последнюю минуту подачи. Этот проект тоже есть среди победителей.

Так мы выбрали 12 проектов, которые показались нам самыми интересными, полезными и перспективными. Мы попросили победителей рассказать про свои проекты чуть подробнее. Кто знает, возможно, в этой статье вы найдёте для себя новые инструменты, которые будут полезны в вашем проекте.

Читать далее

Идеальный NAS на 8 NVME дисков. Обзор Terramaster F8 Plus

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров14K

У меня как и, наверное, у любого айтишника есть какое-то огромное количество файлов, которое надо бэкапить. И у меня уже есть NAS с обычными HDD дисками для моих бэкапов. Но для себя я решил, что NAS c HDD хорошо подходит для хранения чего-то к чему не очень то и часто обращается. А вот если нужно хранить что-то что иногда нужно скачать или закачать, то значительно приятнее работать с NAS на NVME дисках.

Таких девайсов на самом деле не так уж и много. Есть некоторые модели на 4 диска. А вот на 8 дисков я даже и конкурентов не знаю. Поэтому сегодня будет обзор на уникальную по-своему штуковину - NAS на 8 быстрых NVME дисков. Да еще и с 10 гигабитным ethernet портом.

Читать далее

ИИ в Data Governance: как мы ускорили маркировку персональных данных

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.6K

Перед нашей командой встала задача сделать продукт управления данными удобнее, добавив алгоритмы искусственного интеллекта. Но какое решение выбрать? Какой процесс нуждался в автоматизации больше всего? С какими ограничениями и сложностями мы столкнулись? Какой бизнес-эффект мы получили в результате? На эти вопросы ответит статья.

Читать далее

Почему SCD Type 2 медленно работает в DWH, и как это чинится через Merge + Hash

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1K

Привет, Хабр!

В этом статье рассмотрим, почему классическая реализация SCD Type 2 в DWH начинает жутко тормозить на миллионах строк и как с этим бороться при помощи комбинации MERGE + hash-diff.

Читать далее

Скрытая стоимость BI: что не учитывают 8 из 10 компаний при внедрении аналитических систем

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.5K

Почему, по данным экспертов GlowByte, целых 80% проектов внедрения систем бизнес-аналитики выходят за рамки изначально запланированного бюджета? Ответ парадоксально прост и сложен одновременно: компании систематически недооценивают реальную совокупную стоимость владения BI-системами. Наши наблюдения показывают, что большинство заказчиков концентрируются исключительно на очевидных статьях расходов, игнорируя множество "скрытых" факторов, которые неизбежно проявляются по мере развития проекта.

За годы работы с десятками проектов внедрения аналитических систем мы в GlowByte выявили закономерность — даже опытные ИТ-директора порой не учитывают до 40% реальных затрат при планировании бюджета на BI-инициативы. В этой статье я поделюсь инсайтами о наиболее типичных "финансовых ловушках", которые подстерегают компании на этом пути.

Читать далее

Почему мы делаем собственное объектное хранилище в MWS

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров3.3K

Привет! Меня зовут Алексей Баранов, я руковожу направлением Data Storage Systems в облаке MWS Cloud Platform. Мы начинаем серию статей, в которой расскажем, как устроены наши системы хранения, почему мы их делаем так и почему именно такие.

В этой статье расскажу, как мы подошли к выбору технологий для object storage новой облачной платформы. Обсудим плюсы и минусы популярных на рынке решений вроде Ceph RGW, какие требования мы предъявляли к системе, и какая архитектура в итоге получилась.

Читать далее

Ближайшие события

OLAP-системы: многомерная модель данных и её применение. Правила Кодда: библия для разработчиков реляционных баз данных

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров4.3K

Для анализа и обработки больших объёмов данных применяются специальные системы — OLAP (Online Analytical Processing). Мы разберём основные принципы их работы, преимущества и примеры использования.

Определение OLAP-систем

OLAP-системы — это инструменты для анализа данных, которые позволяют быстро и эффективно находить ответы на сложные вопросы. 

Они находят применение в разных сферах, таких как финансы, производство, розничная торговля и другие.

Пример использования OLAP-технологии

«В компании, занимающейся продажей цифровых товаров и программного обеспечения, многомерный куб помогает анализировать данные».

Читать далее

Биометрия, 1С и информатика или небольшая история о модернизации систем безопасности промышленного предприятия

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров1.2K

Масштабирование — это «серый кардинал» проектирования сложных систем: все знают, что без нее не обойтись, но всерьез задумываются только тогда, когда инфраструктура начинает трещать по швам. А мануалы? Их, как правило, открывают уже постфактум — когда что-то ломается, зависает или отказывается работать вопреки всем ожиданиям. В этой статье мы не будем учить вас теории — вместо этого поделимся реальным опытом модернизации системы видеонаблюдения (СВН) и системы контроля управления доступом (СКУД) на одном из промышленных предприятий.

Здесь не будет идеальных решений и глянцевых кейсов — только честный разбор проблем, с которыми мы столкнулись, неочевидные ловушки масштабирования и примеры того, как даже продуманная архитектура может дать сбой при столкновении с человеческим фактором. Если вы хотите узнать, как превратить хаос устаревшей инфраструктуры в отлаженный механизм, — добро пожаловать под кат.

Читать далее

Jellyfin Web на своём сервере. Фронтенд для медиастриминга

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров17K


Многие из нас первым медиасервером устанавливали Plex. Но это коммерческое решение. Некоторые считают, что в последних версиях он изменился к худшему: например, заставляет регистрировать аккаунт, логиниться через центральный веб-портал, передвигает пользовательский контент в подменю, рекламирует собственные продукты и сервисы, выкатывает ненужные функции.

Поэтому для медиасервера лучше выбрать опенсорсную программу, как Jellyfin.
Читать дальше →

Защищенное хранение резервных копий

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров3.7K

В этом обзоре расскажем о проблематике защиты резервных копий, возможных вариантах реализации такой защиты, а также о совместном решении компаний Киберпротект и АМТ‑ГРУП, позволяющем обеспечить защищенное хранение резервных копий, создаваемых СРК Кибер Бэкап, используя аппаратно‑программный комплекс InfoDiode.

Читать далее

ЦОД 2050: три реалистичные концепции развития дата-центров

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров5.4K


Что будет с дата-центрами, когда физические пределы достигнуты? Когда PUE упадёт ниже единицы, а каждая новая стойка будет выходить в минус? Ответ уже начинает проявляться. Новый виток эволюции ЦОДов не в росте плотности или увеличении каналов. Он — в изменении самой парадигмы: дата-центр не как здание, а как среда, экосистема, организм. В статье представил три сценария будущего дата-центров.

Спойлер: ни одна из описанных ниже концепций не является фантастикой. Все они — логическое продолжение уже происходящих процессов.
Читать дальше →

Пакетная репликация данных в аналитическом ландшафте ХД

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров984

Наполнение данными хранилища или озера, как правило, является первым большим шагом к доступности аналитической среды для основного функционала и работы конечных пользователей. От эффективной реализации этой задачи зависят стоимость и длительность всего проекта по созданию хранилища данных и сроки предоставления отдельных data-сервисов.

В этой публикации я поделюсь опытом реализации пакетной загрузки больших данных в аналитические хранилища и расскажу, когда следует выбрать именно пакетную загрузку, а когда – онлайн-подход. Отдельно раскрою, как многолетний опыт решения подобных задач был воплощен в промышленном инструменте репликации данных.

Читать далее

Мы в ответе за тех, кого сгенерировали

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.2K

Весна 2025 года — отличное время, чтобы оживить мой проект Econet, который посвящён проблемам цифрового мусора, современным подходам к работе с данными и инфраструктуре информационных систем.

Читать далее

Вклад авторов