Как стать автором
Обновить
163.69

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга
Уровень сложности

Временное хранилище данных на Apache Druid: почему это эффективно сработало для загрузки табличных файлов

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров337

Всем привет! Меня зовут Амир, я Data Engineer в компании «ДЮК Технологии». Расскажу, как мы спроектировали и реализовали на Apache Druid хранилище разрозненных табличных данных.

В статье опишу, почему для реализации проекта мы выбрали именно Apache Druid, с какими особенностями реализации столкнулись, как сравнивали методы реализации датасорсов.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии1

Новости

Векторные базы данных: простым языком про устройство и принцип работы

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров2.4K

Только изучили один инструмент, как сразу же появились новые? Придется разбираться! В статье мы рассмотрим новый тип баз данных, который отлично подходит для ML задач. Пройдем путь от простого вектора до целой рекомендательной системы, пробежимся по основным фишкам и внутреннему устройству. Поймем, а где вообще использовать этот инструмент и посмотрим на векторные базы данных в деле.

Читать далее
Всего голосов 10: ↑12 и ↓-2+14
Комментарии4

Как подойти к внедрению DWH, чтобы не было «больно»? Какие методологии использовать и какой стек выбрать?

Время на прочтение9 мин
Количество просмотров2.6K

В статье рассказываем о том, кому стоит задуматься о внедрении DWH, как сократить вероятность ошибок на этапе разработки проекта, выбрать стек, методологию и сэкономить ИТ-бюджеты. 

Читать далее
Всего голосов 6: ↑5.5 и ↓0.5+5
Комментарии0

Проекции в Vertica: что это, как использовать, и почему не стоит создавать их под каждый запрос

Время на прочтение6 мин
Количество просмотров2.1K

Иван Якунин, продуктовый аналитик команды Fintech Marketplace, рассказал про то, как в Авито работают с Vertica, и на примерах объяснил, что такое проекции, и когда их стоит использовать.

Читать далее
Всего голосов 6: ↑7 и ↓-1+8
Комментарии7

Истории

Разбираемся с Apache Spark

Время на прочтение6 мин
Количество просмотров2.4K

В сегодняшней статье мы начнем знакомиться с универсальной и высокопроизводительной кластерной вычислительной платформой Apache Spark, научимся разворачивать данное решение и выполнять простейшие программы. При обработке больших объемов данных скорость играет важную роль, так как именно скорость позволяет работать в интерактивном режиме, не тратя минуты или часы на ожидание. Spark в этом плане имеет серьезное преимущество, обеспечивая высокую скорость, благодаря способности выполнять вычисления в памяти.

Читать далее
Всего голосов 7: ↑6 и ↓1+5
Комментарии0

SSD killer

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров44K

SSD killer — destroyer for your ssd

Привет, меня зовут Ваня, и вот коротенькая история о том, как я придумал и собрал одну штуку, и почему вам нужно срочно отдать мне все свои деньги.

А если серьезно, это устройство для оперативного аппаратного уничтожения данных вместе с носителем. По своей сути это аналог чеховского ружья, у которого цель выстрелить в нужный момент.

SSD killer
Всего голосов 56: ↑54.5 и ↓1.5+53
Комментарии279

Шардирование (sharding). Эпизод 2: шардирование по гео

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1K

Viam supervadet vadens (дорогу осилит идущий)

Есть много счастливчиков, которым повезло работать в ситуации, когда объёмы по-настоящему огромны и требования кажутся невыполнимыми. Но есть те, кому по настоящем крупно повезло! Я говорю о тех, кто решал задачи в пространствах, где размерность больше 1.

Давайте разбросаем осколки по всей земле?

Разбрасываем?
Всего голосов 8: ↑8 и ↓0+8
Комментарии1

Строим lineage моделей машинного обучения и признаков с помощью OpenMetadata

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров4.5K

Привет, Хабр!

Мы в билайне любим машинное обучение. В какой-то момент моделей машинного обучения стало так много, что это вынудило нас решать определенные задачи. Я Дмитрий Ермилов, руковожу ML в дирекции по искусственному интеллекту и цифровым продуктам. О решении одной такой задачи и будет этот рассказ.

Давайте представим, что у вас в компании большое количество моделей машинного обучения, каждая из которой может зависеть от нескольких десятков до нескольких тысяч признаков (фич). Причем разные модели могут зависеть от одних и тех же фич. Неожиданно случается несчастье, и одна из популярных фич ломается. Может произойти поломка на уровне подготовки данных, могут измениться внешние источники, отвалиться интеграции и прочее. Что делать с этим знанием? Конечно, бежать в продуктовые команды и кричать, что модели, которые зависят от этой фичи, могут деградировать, то есть их метрики качества могут снизиться. Вопрос только в том, какие модели могут деградировать и в какие команды бежать?

Напомним, в каких условиях мы анализируем данные и строим модели машинного обучения.

Читать далее
Всего голосов 8: ↑10 и ↓-2+12
Комментарии0

Spark. План запросов на примерах

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров3.4K

Всем привет!

В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды планов друг от друга, что в них изменяется от запроса к запросу и разберем каждую строчку на примере партиционированной и непартиционированной таблицы.

Читать далее
Всего голосов 7: ↑7.5 и ↓-0.5+8
Комментарии4

Как создать изолированную среду для Nextcloud: полная инструкция

Время на прочтение4 мин
Количество просмотров5.8K

Привет, Хабр! Меня зовут Максим Анисимов, я главный инженер отдела технической поддержки в хостинг-провайдере SpaceWeb. В статье расскажу, как создать изолированный от внешней сети инстанс Nextcloud, который будет доступен только из-под VPN по IP-адресу. И объясню, чем именно и для кого такое решение будет полезно.

Читать далее
Всего голосов 6: ↑5 и ↓1+4
Комментарии8

Почему эксперты жалуются на низкую надежность дешевых USB-флешек

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров9.5K

Дешевые USB-флешки, которые и так никогда не считались эталонными запоминающими устройствами, в последнее время стали еще хуже, убедились исследователи CBL Datenrettung. По мнению экспертов, накопители этого типа быстро теряют в качестве, стабильности и долговечности, что не позволяет полагаться на них как на надежные средства записи и хранения данных. Спасибо нечистым на руку производителям, которые экономят на всем, чем только можно.

Читать далее
Всего голосов 10: ↑11 и ↓-1+12
Комментарии35

Векторные СУБД и другие инструменты для разработки ML-моделей

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров3.3K

На фоне развития генеративных и больших языковых моделей набирают обороты векторные базы данных. В прошлый раз в блоге beeline cloud мы обсудили, насколько этот тренд устойчив, а также предложили несколько книг для желающих погрузиться в тему. Сегодня же мы собрали компактную подборку открытых СУБД и поисковых движков, способных помочь в разработке систем ИИ. Обсуждаем такие инструменты, как Lantern, LanceDB, CozoDB, ArcadeDB, Dart Vector DB, Marqo и Orama.

Читать далее
Всего голосов 6: ↑6.5 и ↓-0.5+7
Комментарии3

Gmail исполнилось двадцать лет

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров5.6K

Когда выпущенный двадцать лет назад дурашливый пресс-релиз ознаменовал открытие Gmail, многие посчитали это розыгрышем. Обещалось, что сервис предоставит солидный по тем временам 1 гигабайт хранилища — огромная величина в эпоху 15-мегабайтных почтовых ящиков. Заявлялось, что он будет абсолютно бесплатным, хотя многие почтовые ящики в то время были платными. Смущала и дата: о запуске сервиса объявили первого апреля, что предвещало какую-то шутку.

Но вскоре действительно начали приходить приглашения в настоящую бету Gmail, ставшие желанной целью фанатов технологий. В моей «ботанской» старшей школе получение такого приглашения мгновенно делало тебя очень крутым. Я не знала, действительно ли мне понадобится Gmail, но все мои одноклассники говорили, что он изменит мою жизнь навсегда.

Подростки известны своей драматичностью, но Gmail действительно удалось совершить революцию в электронной почте. Он переосмыслил возможности наших почтовых ящиков и стал основной частью наших цифровых личностей. По оценкам, сейчас сервис насчитывает 1,2 миллиарда пользователей (примерно седьмую часть от мирового населения) и сегодня он стал практически необходимостью для выполнения любых действий онлайн. Часто кажется, что Gmail всегда был и всегда будет.
Читать дальше →
Всего голосов 32: ↑42.5 и ↓-10.5+53
Комментарии36

Ближайшие события

Ликбез по методологиям проектирования хранилищ данных

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров8.6K

Хранилище данных — это информационная система, в которой хранятся исторические и коммутативные данные из одного или нескольких источников. Он предназначен для анализа, составления отчетов и интеграции данных транзакций из разных источников.

Рассмотрим сильные и слабые стороны самых популярных методологий.

Читать далее
Всего голосов 8: ↑5 и ↓3+2
Комментарии8

Новая линейка СХД АЭРОДИСК ENGINE AQ

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.3K

Здравствуйте, Хабровчане!

Сегодня мы хотим рассказать о новых продуктах АЭРОДИСК в области систем хранения данных – моделях СХД ENGINE AQ Лайт, AQ 440 и AQ 450. Это очень значимое обновление линейки СХД в этом году, и, что немаловажно, оно связано не только с обновлением на программном уровне, но и с изменениями в аппаратном обеспечении.

Чтобы первым узнать про новую линейку СХД Engine АQ и функциональные возможности каждой модели – записывайтесь на наш вебинар «Синергия технологий: Обзор новой линейки СХД от Аквариус и АЭРОДИСК» 9 апреля в 15:00 (МСК).

Читать далее
Всего голосов 5: ↑4 и ↓1+3
Комментарии0

Жёсткие диски не сдаются: технологии записи данных совершенствуются, ёмкость HDD растёт

Время на прочтение3 мин
Количество просмотров12K

За последние пару лет не раз и не два приходилось слышать мнение, что HDD вскоре уступят место твердотельным накопителям. Они становятся всё более ёмкими и быстрыми, а цена на них падает. Но всё не так просто, поскольку технологии в мире HDD тоже не стоят на месте, а продолжают развиваться. На днях стало известно о новом достижении разработчиков из Seagate и учёных из Университета Тохоку. Подробности — под катом.

Читать далее
Всего голосов 23: ↑23.5 и ↓-0.5+24
Комментарии82

Настоящие российские коммутаторы, ИИ-ускорители и новые видеокарты от NVIDIA: новинки в мире железа за март

Время на прочтение7 мин
Количество просмотров6.8K

Если спросить у популярного GPT-бота, какое серверное железо появилось в марте 2024 года, — он расскажет о серверах на основе квантовых вычислений. А еще про сверхпроводящие интерференционные устройства и технологии ионных ловушек для хранения и обработки кубитов. Правда это или простая галлюцинация нейросети — оставим на обсуждение в комментариях. Но что точно настоящее, так это дайджест железа.

Привет! Меня зовут Сергей, я менеджер выделенных серверов в Selectel. В этой статье расскажу о новинках в мире железа за прошедший месяц. В программе — новые видеокарты от NVIDIA, коммутаторы, диски и СХД. Подробности под катом!
Читать дальше →
Всего голосов 51: ↑54.5 и ↓-3.5+58
Комментарии62

Выбор БД в новом проекте

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров5.9K

При разработке приложения, сервиса, системы и тп возникает один из главных вопросов: как мне хранить данные (какую БД выбрать). В связи с тем, что чаще всего в получите ответ “зависит” (it depends), предлагаю рассмотреть несколько стратегий, которые будут работать почти всегда.

Найти стратегии можно тут
Всего голосов 13: ↑4 и ↓9-5
Комментарии12

Как дисциплина управления мастер-данными влияет на продажи

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров688

Иногда это целая проблема — найти товар с редкими свойствами. Информация о товаре должна быть доступна для поиска, но в лучшем случае особые характеристики указываются в текстовом описании. Даже если для интересующего свойства сделали отдельное поле, то его заполняют левой задней пяткой без гарантий достоверности. В результате покупатель может плюнуть и уйти из магазина, так и не найдя то, что искал. А секрет прост: чтобы все получилось, нужно правильно приготовить мастер-данные.

Рассказываем, чем грамотно построенные процессы управления мастер-данными могут помочь продажам. 

Читать далее
Всего голосов 9: ↑8 и ↓1+7
Комментарии1

Как мы тестируем серверы

Время на прочтение26 мин
Количество просмотров6.4K

Привет! Меня зовут Олег Рябов, я главный эксперт Управления исследований и разработок новых решений компании «Ростелеком-ЦОД» и автор программы и методики испытаний (ПМИ) серверов.

В этой статье расскажу, как мы проводим тестирование серверов и какие утилиты и методы используем.

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии1
1
23 ...