Хранение данных *

Что имеем, то храним

Статьи Посты Новости Авторы Компании

Siphon 7 часов назад

Временное хранилище данных на Apache Druid: почему это эффективно сработало для загрузки табличных файлов

Простой

7 мин

337

Python*Apache*Хранение данных*Хранилища данных*Data Engineering*

Из песочницы

Всем привет! Меня зовут Амир, я Data Engineer в компании «ДЮК Технологии». Расскажу, как мы спроектировали и реализовали на Apache Druid хранилище разрозненных табличных данных.

В статье опишу, почему для реализации проекта мы выбрали именно Apache Druid, с какими особенностями реализации столкнулись, как сравнивали методы реализации датасорсов.

nmzgnv 9 часов назад

Векторные базы данных: простым языком про устройство и принцип работы

Простой

11 мин

2.4K

Блог компании ТочкаOpen source*Big Data*Хранение данных*Искусственный интеллект

Только изучили один инструмент, как сразу же появились новые? Придется разбираться! В статье мы рассмотрим новый тип баз данных, который отлично подходит для ML задач. Пройдем путь от простого вектора до целой рекомендательной системы, пробежимся по основным фишкам и внутреннему устройству. Поймем, а где вообще использовать этот инструмент и посмотрим на векторные базы данных в деле.

+14

qlever вчера в 18:26

Как подойти к внедрению DWH, чтобы не было «больно»? Какие методологии использовать и какой стек выбрать?

9 мин

2.6K

Анализ и проектирование систем*Администрирование баз данных*Big Data*Хранение данных*Хранилища данных*

В статье рассказываем о том, кому стоит задуматься о внедрении DWH, как сократить вероятность ошибок на этапе разработки проекта, выбрать стек, методологию и сэкономить ИТ-бюджеты.

iayakunin 19 апр в 12:09

Проекции в Vertica: что это, как использовать, и почему не стоит создавать их под каждый запрос

6 мин

2.1K

Блог компании AvitoTechSQL*Хранение данных*

Иван Якунин, продуктовый аналитик команды Fintech Marketplace, рассказал про то, как в Авито работают с Vertica, и на примерах объяснил, что такое проекции, и когда их стоит использовать.

Andrey_Biryukov 17 апр в 21:38

Разбираемся с Apache Spark

6 мин

2.4K

Блог компании OTUSХранение данных*

В сегодняшней статье мы начнем знакомиться с универсальной и высокопроизводительной кластерной вычислительной платформой Apache Spark, научимся разворачивать данное решение и выполнять простейшие программы. При обработке больших объемов данных скорость играет важную роль, так как именно скорость позволяет работать в интерактивном режиме, не тратя минуты или часы на ожидание. Spark в этом плане имеет серьезное преимущество, обеспечивая высокую скорость, благодаря способности выполнять вычисления в памяти.

Pups12345 17 апр в 16:15

SSD killer

Простой

3 мин

44K

Информационная безопасность*Хранение данных*Схемотехника*Производство и разработка электроники*Компьютерное железо

Из песочницы

SSD killer — destroyer for your ssd

Привет, меня зовут Ваня, и вот коротенькая история о том, как я придумал и собрал одну штуку, и почему вам нужно срочно отдать мне все свои деньги.

А если серьезно, это устройство для оперативного аппаратного уничтожения данных вместе с носителем. По своей сути это аналог чеховского ружья, у которого цель выстрелить в нужный момент.

SSD killer

+53

279

super_botan 16 апр в 15:05

Шардирование (sharding). Эпизод 2: шардирование по гео

Средний

13 мин

Высокая производительность*Хранение данных*Распределённые системы*

Viam supervadet vadens (дорогу осилит идущий)

Есть много счастливчиков, которым повезло работать в ситуации, когда объёмы по-настоящему огромны и требования кажутся невыполнимыми. Но есть те, кому по настоящем крупно повезло! Я говорю о тех, кто решал задачи в пространствах, где размерность больше 1.

Давайте разбросаем осколки по всей земле?

Разбрасываем?

dblmokk 15 апр в 17:04

Строим lineage моделей машинного обучения и признаков с помощью OpenMetadata

Средний

9 мин

4.5K

Блог компании билайнBig Data*Хранение данных*Машинное обучение*

Туториал

Привет, Хабр!

Мы в билайне любим машинное обучение. В какой-то момент моделей машинного обучения стало так много, что это вынудило нас решать определенные задачи. Я Дмитрий Ермилов, руковожу ML в дирекции по искусственному интеллекту и цифровым продуктам. О решении одной такой задачи и будет этот рассказ.

Давайте представим, что у вас в компании большое количество моделей машинного обучения, каждая из которой может зависеть от нескольких десятков до нескольких тысяч признаков (фич). Причем разные модели могут зависеть от одних и тех же фич. Неожиданно случается несчастье, и одна из популярных фич ломается. Может произойти поломка на уровне подготовки данных, могут измениться внешние источники, отвалиться интеграции и прочее. Что делать с этим знанием? Конечно, бежать в продуктовые команды и кричать, что модели, которые зависят от этой фичи, могут деградировать, то есть их метрики качества могут снизиться. Вопрос только в том, какие модели могут деградировать и в какие команды бежать?

Напомним, в каких условиях мы анализируем данные и строим модели машинного обучения.

+12

val6789 15 апр в 09:12

Spark. План запросов на примерах

Средний

7 мин

3.4K

SQL*Apache*Big Data*Хранение данных*Data Engineering*

FAQ

Всем привет!

В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды планов друг от друга, что в них изменяется от запроса к запросу и разберем каждую строчку на примере партиционированной и непартиционированной таблицы.

sweb 12 апр в 12:45

Как создать изолированную среду для Nextcloud: полная инструкция

4 мин

5.8K

Блог компании SpaceWebИнформационная безопасность*Хранение данных*

Туториал

Привет, Хабр! Меня зовут Максим Анисимов, я главный инженер отдела технической поддержки в хостинг-провайдере SpaceWeb. В статье расскажу, как создать изолированный от внешней сети инстанс Nextcloud, который будет доступен только из-под VPN по IP-адресу. И объясню, чем именно и для кого такое решение будет полезно.

Xcom-shop 12 апр в 09:36

Почему эксперты жалуются на низкую надежность дешевых USB-флешек

Простой

4 мин

9.5K

Блог компании Группа компаний X-ComХранение данных*НакопителиПериферия

Мнение

Дешевые USB-флешки, которые и так никогда не считались эталонными запоминающими устройствами, в последнее время стали еще хуже, убедились исследователи CBL Datenrettung. По мнению экспертов, накопители этого типа быстро теряют в качестве, стабильности и долговечности, что не позволяет полагаться на них как на надежные средства записи и хранения данных. Спасибо нечистым на руку производителям, которые экономят на всем, чем только можно.

+12

beeline_cloud 10 апр в 20:13

Векторные СУБД и другие инструменты для разработки ML-моделей

Средний

6 мин

3.3K

Блог компании beeline cloudВысокая производительность*Data Mining*Хранение данных*Машинное обучение*

Обзор

На фоне развития генеративных и больших языковых моделей набирают обороты векторные базы данных. В прошлый раз в блоге beeline cloud мы обсудили, насколько этот тренд устойчив, а также предложили несколько книг для желающих погрузиться в тему. Сегодня же мы собрали компактную подборку открытых СУБД и поисковых движков, способных помочь в разработке систем ИИ. Обсуждаем такие инструменты, как Lantern, LanceDB, CozoDB, ArcadeDB, Dart Vector DB, Marqo и Orama.

ru_vds 10 апр в 16:00

Gmail исполнилось двадцать лет

Простой

6 мин

5.6K

Блог компании RUVDS.comМессенджеры*Хранение данных*Социальные сети и сообщества

Обзор

Перевод

Когда выпущенный двадцать лет назад дурашливый пресс-релиз ознаменовал открытие Gmail, многие посчитали это розыгрышем. Обещалось, что сервис предоставит солидный по тем временам 1 гигабайт хранилища — огромная величина в эпоху 15-мегабайтных почтовых ящиков. Заявлялось, что он будет абсолютно бесплатным, хотя многие почтовые ящики в то время были платными. Смущала и дата: о запуске сервиса объявили первого апреля, что предвещало какую-то шутку.

Но вскоре действительно начали приходить приглашения в настоящую бету Gmail, ставшие желанной целью фанатов технологий. В моей «ботанской» старшей школе получение такого приглашения мгновенно делало тебя очень крутым. Я не знала, действительно ли мне понадобится Gmail, но все мои одноклассники говорили, что он изменит мою жизнь навсегда.

Подростки известны своей драматичностью, но Gmail действительно удалось совершить революцию в электронной почте. Он переосмыслил возможности наших почтовых ящиков и стал основной частью наших цифровых личностей. По оценкам, сейчас сервис насчитывает 1,2 миллиарда пользователей (примерно седьмую часть от мирового населения) и сегодня он стал практически необходимостью для выполнения любых действий онлайн. Часто кажется, что Gmail всегда был и всегда будет.

Читать дальше →

+53

PB_Academy 9 апр в 11:26

Ликбез по методологиям проектирования хранилищ данных

Простой

2 мин

8.6K

Big Data*Хранение данных*Хранилища данных*

Из песочницы

Хранилище данных — это информационная система, в которой хранятся исторические и коммутативные данные из одного или нескольких источников. Он предназначен для анализа, составления отчетов и интеграции данных транзакций из разных источников.

Рассмотрим сильные и слабые стороны самых популярных методологий.

AERODISK 8 апр в 05:08

Новая линейка СХД АЭРОДИСК ENGINE AQ

Простой

6 мин

1.3K

Блог компании АЭРОДИСКСистемное администрирование*IT-инфраструктура*Хранение данных*Хранилища данных*

Здравствуйте, Хабровчане!

Сегодня мы хотим рассказать о новых продуктах АЭРОДИСК в области систем хранения данных – моделях СХД ENGINE AQ Лайт, AQ 440 и AQ 450. Это очень значимое обновление линейки СХД в этом году, и, что немаловажно, оно связано не только с обновлением на программном уровне, но и с изменениями в аппаратном обеспечении.

Чтобы первым узнать про новую линейку СХД Engine АQ и функциональные возможности каждой модели – записывайтесь на наш вебинар «Синергия технологий: Обзор новой линейки СХД от Аквариус и АЭРОДИСК» 9 апреля в 15:00 (МСК).

divolko3 7 апр в 11:00

Жёсткие диски не сдаются: технологии записи данных совершенствуются, ёмкость HDD растёт

3 мин

12K

Блог компании МТСХранение данных*Накопители

За последние пару лет не раз и не два приходилось слышать мнение, что HDD вскоре уступят место твердотельным накопителям. Они становятся всё более ёмкими и быстрыми, а цена на них падает. Но всё не так просто, поскольку технологии в мире HDD тоже не стоят на месте, а продолжают развиваться. На днях стало известно о новом достижении разработчиков из Seagate и учёных из Университета Тохоку. Подробности — под катом.

+24

skovalev 5 апр в 12:09

Настоящие российские коммутаторы, ИИ-ускорители и новые видеокарты от NVIDIA: новинки в мире железа за март

7 мин

6.8K

Блог компании SelectelIT-инфраструктура*Хранение данных*Компьютерное железо

Дайджест

Если спросить у популярного GPT-бота, какое серверное железо появилось в марте 2024 года, — он расскажет о серверах на основе квантовых вычислений. А еще про сверхпроводящие интерференционные устройства и технологии ионных ловушек для хранения и обработки кубитов. Правда это или простая галлюцинация нейросети — оставим на обсуждение в комментариях. Но что точно настоящее, так это дайджест железа.

Привет! Меня зовут Сергей, я менеджер выделенных серверов в Selectel. В этой статье расскажу о новинках в мире железа за прошедший месяц. В программе — новые видеокарты от NVIDIA, коммутаторы, диски и СХД. Подробности под катом!

Читать дальше →

+58

vladar107 5 апр в 10:20

Выбор БД в новом проекте

Простой

2 мин

5.9K

Анализ и проектирование систем*IT-инфраструктура*IT-стандарты*Хранение данных*

Мнение

При разработке приложения, сервиса, системы и тп возникает один из главных вопросов: как мне хранить данные (какую БД выбрать). В связи с тем, что чаще всего в получите ответ “зависит” (it depends), предлагаю рассмотреть несколько стратегий, которые будут работать почти всегда.

Найти стратегии можно тут

-5

Slipeer 5 апр в 08:39

Как дисциплина управления мастер-данными влияет на продажи

Средний

4 мин

688

Блог компании Magnit TechАнализ и проектирование систем*Хранение данных*Хранилища данных*

Иногда это целая проблема — найти товар с редкими свойствами. Информация о товаре должна быть доступна для поиска, но в лучшем случае особые характеристики указываются в текстовом описании. Даже если для интересующего свойства сделали отдельное поле, то его заполняют левой задней пяткой без гарантий достоверности. В результате покупатель может плюнуть и уйти из магазина, так и не найдя то, что искал. А секрет прост: чтобы все получилось, нужно правильно приготовить мастер-данные.

Рассказываем, чем грамотно построенные процессы управления мастер-данными могут помочь продажам.

dataline 4 апр в 14:43

Как мы тестируем серверы

26 мин

6.4K

Блог компании DataLineХранение данных*Сетевое оборудованиеИнженерные системы*

Привет! Меня зовут Олег Рябов, я главный эксперт Управления исследований и разработок новых решений компании «Ростелеком-ЦОД» и автор программы и методики испытаний (ПМИ) серверов.

В этой статье расскажу, как мы проводим тестирование серверов и какие утилиты и методы используем.

2 3 ...

104 105

Хранение данных *

Временное хранилище данных на Apache Druid: почему это эффективно сработало для загрузки табличных файлов

Новости

Векторные базы данных: простым языком про устройство и принцип работы

Как подойти к внедрению DWH, чтобы не было «больно»? Какие методологии использовать и какой стек выбрать?

Проекции в Vertica: что это, как использовать, и почему не стоит создавать их под каждый запрос

Истории

Разбираемся с Apache Spark

SSD killer

Шардирование (sharding). Эпизод 2: шардирование по гео

Строим lineage моделей машинного обучения и признаков с помощью OpenMetadata

Spark. План запросов на примерах

Как создать изолированную среду для Nextcloud: полная инструкция

Почему эксперты жалуются на низкую надежность дешевых USB-флешек

Векторные СУБД и другие инструменты для разработки ML-моделей

Gmail исполнилось двадцать лет

Ближайшие события

Ликбез по методологиям проектирования хранилищ данных

Новая линейка СХД АЭРОДИСК ENGINE AQ

Жёсткие диски не сдаются: технологии записи данных совершенствуются, ёмкость HDD растёт

Настоящие российские коммутаторы, ИИ-ускорители и новые видеокарты от NVIDIA: новинки в мире железа за март

Выбор БД в новом проекте

Как дисциплина управления мастер-данными влияет на продажи

Как мы тестируем серверы

Вклад авторов