Как стать автором
Обновить
160.87

Хранилища данных *

Публикации, рассказывающие о хранилищах данных

Сначала показывать
Порог рейтинга
Уровень сложности

Интеграция LLM в корпоративное хранилище данных

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров1.1K

В данной статье рассматриваются способы интеграции Large Language Models (LLM) в корпоративные системы хранения данных. Основное внимание уделено использованию LLM для автоматического извлечения информации из текстовых данных с последующим формированием SQL-запросов. В рамках исследования также изучаются методы пост-обработки результатов SQL-запросов с целью улучшения точности и адаптивности моделей к конкретным характеристикам и особенностям баз данных.

Работа включает в себя анализ существующих решений и методов оценки эффективности LLM в контексте их интеграции в корпоративные информационные системы. Особое внимание уделяется применению Preference Learning via Database Feedback — подхода, направленного на обучение моделей на основе обратной связи от баз данных, что способствует более точному и адаптивному выполнению запросов пользователей.

Исследование также охватывает разработку примеров интеграции LLM в реальные корпоративные хранилища данных с целью демонстрации практической применимости и эффективности предлагаемых подходов.

Читать далее
Всего голосов 6: ↑5 и ↓1+5
Комментарии3

Новости

Что нужно знать про объектные хранилища

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.2K

Цифровые хранилища данных изменили способы производства, обработки и хранения информации. Переломный момент наступил в 1996 году, когда цифровое хранилище стало более рентабельным, чем бумажное.

В 1999 году в мире появилось ≈1,5 эксабайт уникальной информации, которая хранилась на бумаге, пленке, оптических и магнитных носителях. Причем печатные материалы всех видов составили лишь 0,003% от общего объема хранимой информации.

По подсчетам IDC и Seagate, глобальная сфера данных к 2025 году достигнет 175 зеттабайт, то есть увеличится более чем в 100 тыс. раз за четверть века. А с развитием генеративных нейронных сетей данных может стать еще больше.

Возникают закономерные вопросы: где хранить информацию, в каком виде и как получать к ней доступ. Человечество изобретает новые накопители (например, жесткие диски с технологией разогрева магнитных пластин лазером) и строит дата-центры, хранящие эксабайты информации, часть из которых предоставляется заказчикам в виде объектных хранилищ. Цель этой статьи — рассказать об особенностях использования таких хранилищ.

Читать далее
Всего голосов 4: ↑4 и ↓0+6
Комментарии0

15 недорогих VPS/VDS-хостингов (2024)

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров14K

У многих людей и бизнесов возникает потребность в дешевом и надежном хостинге. Разместить сайт компании, блог, бот, виртуалку или просто в учебных целях. Для таких целей выбирают VPS-сервер.

В этой статье я собрал и сравнил 15 VPS-хостингов. Главные критерии для сравнения — цены, возможности хостингов и отзывы клиентов.

Читать далее
Всего голосов 18: ↑13 и ↓5+11
Комментарии69

Простая документация с dbt: Упрощение документирования хранилищ данных

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2K

Когда вы в последний раз впервые смотрели на хранилище данных? Помните то чувство фрустрации, когда вы не знали, что содержат таблицы orders_final_v1? Или как отличить user_uuid от user_id? Любой специалист по данным может понять эти ощущения.

К счастью, dbt (Data Build Tool) значительно упростил задачу документирования хранилищ данных. Все, что нужно сделать, это включить описание наших таблиц и колонок в YAML-файл схемы. Затем вся информация собирается в аккуратный HTML-файл.

Данная статья это перевод с английского с некоторыми адаптациями. Перевод сделан НЕшколой для инженеров Inzhenerka.Tech совместно с автором симулятора по DWH на dbt Павлом Рословцом. Больше материала в нашем сообществе.

Читать далее
Всего голосов 3: ↑3 и ↓0+4
Комментарии2

Миграция витрины данных с СУБД Teradata в СУБД Greenplum

Время на прочтение8 мин
Количество просмотров844

Миграция СУБД с одной технологии на другую — сложный процесс, который связан не только с конвертацией кода и переливкой данных из одной системы в другую, хотя и здесь есть неочевидные нюансы. Это часто и вопросы, связанные с совместимостью функциональности, производительностью, безопасностью данных, архитектурными особенностями новой системы и многими другими аспектами.

Меня зовут Станислав Свириденко и я DWH-разработчик AXENIX. В этой статье хочу рассказать об опыте миграции витрины данных с проприетарной СУБД Teradata на свободную СУБД GreenPlum. Поговорим о задачах, подводных камнях, на которые мы периодически натыкались, и способах решений, найденных  в процессе.

Читать далее
Всего голосов 15: ↑14 и ↓1+14
Комментарии8

Open source GreenPlum: а что дальше?

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров6.5K

Наверняка, многие уже слышали, что новый правообладатель GreenPlum — компания Broadcom — перевела репозитории с открытым исходным кодом на GitHub в архивный статус.

Новые версии оригинального ядра, вероятнее всего, уже не будут выкладываться в публичный доступ, а начнут появляться только в коммерческой версии продукта. Это касается и 6-й, и 7-й версии.

Версии ядра, которые были выложены в open source на момент закрытия репозитория, остались под лицензией Apache 2.0, и их можно легально использовать. Но в оригинальном репозитории не осталось веток, тегов и дистрибутивов.

Мы — ГК «ГлоуБайт» — уже больше двух лет развиваем инструменты над open source GreenPlum 6 и выкладываем их в открытый доступ под лицензией Apache 2.0. Об это мы писали статью, в которой прикладывали ссылки на все наши open source репозитории.

Для сборки исходных кодов GreenPlum и дополнительных утилит мы использовали свои пайплайны и зеркала оригинального репозитория GreenPlum.

Сегодня мы решили перевести эти репозитории в открытый доступ на нашем GitLab. 

Читать далее
Всего голосов 18: ↑18 и ↓0+22
Комментарии16

BananaNAS — портативный NAS из одноплатника

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров11K

В статье рассказывается о разработке портативного NAS с двумя дисками NVME на основе одноплатного компьютера. Даётся небольшая теория работы контроллера PCIe, рассказывается о проблемах интеграции своего модуля дисков, а также приводятся детали дизайна и результаты тестирования.

Детали разработки
Всего голосов 13: ↑13 и ↓0+15
Комментарии45

Пора оставить RAID-5 в далеком прошлом

Уровень сложностиСложный
Время на прочтение4 мин
Количество просмотров19K

Для ЛЛ: RAID-5 совершенно не подходит для современных массивов из дисков на 5-10 Тб по нескольким причинам.

Читать далее
Всего голосов 77: ↑66 и ↓11+81
Комментарии129

Вы пожалеете об использовании естественных ключей

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров19K

Хотя я живу в Копенгагене и в основном перемещаюсь по городу на велосипеде, у меня есть и машина, чтобы добираться до других частей страны. В Дании автомобили через каждые два года проходят обязательный официальный осмотр; я проходил его за свою жизнь несколько раз. Несколько лет назад механик, выполнявший осмотр, сообщил мне о том, что у машины неправильный номер кузова.

Я немного занервничал, потому что покупал машину с рук, и внезапно задался вопросом, действительно ли всё так, как я думал. Неужели я непреднамеренно купил краденную машину?

Но механик просто подошёл к своему компьютеру, чтобы исправить ошибку. И тогда у меня возникло совершенно другое опасение. Когда программируешь больше десятка лет, то учишься предвидеть разные типичные режимы отказа. Так как номер кузова — очевидный кандидат на должность естественного ключа, я заранее предвидел, что изменение этого номера будет или невозможно, или приведёт ко всевозможным каскадным эффектам, и в конечном итоге к уничтожению официальных записей, больше не признающих, что машина принадлежит мне.

Читать далее
Всего голосов 44: ↑41 и ↓3+54
Комментарии125

Коннектор ADB-TO-ADB

Время на прочтение14 мин
Количество просмотров1.4K

По опыту нашей продуктовой команды разработки и поддержки, пользователи, оперирующие большими объемами данных компании часто используют несколько разрозненных кластеров Greenplum. 

Мотивация такого решения может быть разной: организационная - разные команды-владельцы бизнес-данных выстраивают свои модели данных, обрабатывают их нужным для них образом; техническая - распределенные по различным датацентрам кластеры и т.п. Однако, рано или поздно возникает задача использовать данные из "соседних" хранилищ. Это могут быть как разовые сценарии единичных запросов, так и организация более сложных ETL-процессов. Реализация подобных механизмов опять-таки может быть разной со своими достоинствами и недостатками, исходя из возможностей и ограничений.

В этой статье рассматривается детали предлагаемой нами реализации коннектора для выполнения, так называемых,  гетерогенных запросов в рамках разных кластеров ArenadataDB и/или Greenplum - задача, которой наша команда разработки занималась в 2023 году. Этот коннектор позволяет объединять в запросах разные кластеры ADB, но при этом пользоваться возможностями установления соединений между сегментами. 

Но обо всем по порядку.

Читать далее
Всего голосов 17: ↑17 и ↓0+19
Комментарии2

Свой S3-server: что делать, если ваши десятки петабайт уже не лезут в коробочные объектные хранилища

Уровень сложностиСредний
Время на прочтение24 мин
Количество просмотров22K

В 2024 году уже незачем рассказывать об S3-интерфейсе и сравнивать его с другими вариантами организации объектного хранилища. Вот и мы в Ozon, конечно, предоставляем такое платформенное решение широкому спектру внутренних потребителей. От сервисов, которые хранят картинки товаров для каталога, до бэкапов баз данных. От собственных внутренних разработок, до open-source-решений, таких как Gitlab и Thanos.

Пока у вас десятки терабайт и сотни RPS, вас устраивают такие решения, как MinIO. Но по мере роста объёмов и запросов приходится смотреть в сторону таких решений, как Ceph с RGW (RADOS Gateway / Object Gateway). Ну, а когда у вас 3 дата-центра, десятки петабайт данных, миллиарды объектов и десятки тысяч запросов в секунду — в таких условиях и у RGW начинаются проблемы.

Эта история началась с того, что и мы с проблемами масштабирования столкнулись. Под хабракатом вы узнаете, как мы прошли через отрицание проблемы, гнев на Ceph, торг с CTO и разработку собственного решения. Как выбирали технологии, на какие грабли наступили, и что в итоге получилось.

Читать далее
Всего голосов 125: ↑125 и ↓0+141
Комментарии26

Погружаемся в S3 на Ceph. Как мы удаляли 460 млн мелких объектов

Время на прочтение4 мин
Количество просмотров3.5K

Недавно мы выпустили новый сервис — объектное хранилище S3 на базе нашего облака. Запустили его на Ceph. Перед этим провели множество тестов. В частности, решили выяснить, как на практике Ceph справляется с мелкими объектами — проблемой любого S3. И вот что из этого вышло.

Читать далее
Всего голосов 10: ↑10 и ↓0+16
Комментарии4

Реализация глобальных индексов в распределённой системе

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров4K

В этой статье я опишу наш путь реализации глобальных индексов в шардированной базе данных. Расскажу обо всех проблемах, с которыми столкнулись, и решениях, которые приняли, чтобы их обойти. Мы поговорим про реализацию на основе базы данных Tarantool, но общий подход применим и к другим шардированным базам данных без встроенной поддержки таких индексов, да и встроенная реализация часто строится по похожим принципам. Эта статья поможет разобраться в деталях, компромиссах и ограничениях работы глобальных индексов.

Читать далее
Всего голосов 22: ↑22 и ↓0+25
Комментарии3

Ближайшие события

Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург
Summer Merge
Дата28 – 30 июня
Время11:00
Место
Ульяновская область

Рецепт приготовления непрерывного профайлера в 2к24

Время на прочтение13 мин
Количество просмотров2K

Всем привет! Меня зовут Газимагомед, я занимаюсь разработкой внутреннего распределённого профайлера Vision в Ozon. В этой статье я раскрою понятие профиля, расскажу о том, что такое распределённый профайлинг, чем отличается автоматический сбор профилей от ручного. А также рассмотрим проблемы, возникающие при построении профайлера. Что ж, усаживайтесь поудобнее, мы начинаем.

Читать далее
Всего голосов 66: ↑66 и ↓0+68
Комментарии5

Держитесь подальше от холодных хранилищ Selectel

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров31K

От любви до ненависти — один шаг, это история об этом. Если вы используете или планируете использовать холодное хранилище Selectel для бэкапа, выбросьте эту идею из головы НЕМЕДЛЕННО!

Я был привлечен дешевыми тарифами холодного хранилища Selectel и настроил на них архивацию данных из 1С.

Мне так понравилось холодное хранилище Selectel, что я рекомендовал его и настроил на него у трех своих клиентов архив 1С. Ничто не предвещало БЕДЫ.

Читать далее
Всего голосов 103: ↑82 и ↓21+100
Комментарии241

Кибер Инфраструктура 5.5. Обзор новинок

Время на прочтение8 мин
Количество просмотров958

Привет Хабр!

Сегодня познакомимся с ключевыми новинками в версии 5.5 нашего продукта «Кибер Инфраструктура». Кибер Инфраструктура — это универсальное решение, которое представляет собой мультипротокольное программно‑определяемое хранилище и платформу виртуализации в одном продукте.

Читать далее
Всего голосов 2: ↑2 и ↓0+4
Комментарии2

Распределенная трассировка с Jaeger и Clickhouse

Время на прочтение13 мин
Количество просмотров4K

Привет! Меня зовут Филипп Бочаров, я руководитель центра мониторинга и наблюдаемости в МТС Digital. Мы делаем распределённую трассировку, чтобы контролировать качество наших сервисов и предотвращать аварии. В этой статье разберём, как добиться понятной и прозрачной работы от сложных распределённых систем.

За время, прошедшее с прошлого доклада, количество обрабатываемых в единицу времени спанов выросло в несколько раз. Рассмотрим, какие архитектурные решения начали «поджимать», и как команда МТС их исправляла.

Читать далее
Всего голосов 15: ↑15 и ↓0+19
Комментарии7

Почему люди до сих пор не отказались от дискет

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров16K
Музыкант Эспен Крафт хранит свои звуковые сэмплы на гибких дисках и использует их для создания музыки из-за их аутентичного звука

Последний гибкий диск был изготовлен больше десятка лет назад, сегодня на нём не хватит места даже для хранения фотографии с современного смартфона. Так почему же некоторые люди до сих пор любят ими пользоваться?

Когда в голову Эспена Крафта приходит идея нового музыкального произведения, он открывает одну из своих многочисленных коробок с дискетами. Открыв коробку, этот ютубер из Норвегии пробегает глазами по рядам разноцветных пластмассовых квадратов.

На одной из этикеток написано «Басовый звук Moog». Именно то, что нужно Крафту. Он достаёт диск и засовывает его в синтезатор. Машина подтверждает наличие диска приятным шумом. По словам Крафта, после этого начинается магия.

Сэмпл почти готов к воспроизведению, но именно предвкушение зарождает ностальгию Крафта по «тёплому и уютному месту». Идея уже висит в воздухе. Он нажимает на клавишу. Уши наполняются звуком.

Если вы помните времена, когда пользование гибкими дисками не казалось чем-то странным, то вам, вероятно, не меньше тридцати лет. Гибкие диски, или дискеты, появились примерно в 1970 году, и около трёх десятков лет были основным способом хранения и резервного копирования компьютерных данных. Всё приобретаемое людьми ПО и программы загружались на пачки таких дисков. Это технология из другой компьютерной эпохи, но по разным причинам дискеты по-прежнему привлекательны для некоторых людей, а значит, ещё не умерли.
Читать дальше →
Всего голосов 41: ↑36 и ↓5+52
Комментарии88

Управление нагрузкой, теплом и не только: неочевидные нюансы построения S3-хранилищ

Время на прочтение6 мин
Количество просмотров2.4K

Привет, Хабр! Меня зовут Антон Аплемах, и я владелец продукта cloudfort в облачном провайдере beeline cloud. В блоге на Хабре и в нашем медиа мы рассказываем про open source, тренды в разработке программного обеспечения и облачные технологии. И сегодня я хочу поговорить про хранилища S3, запуск и настройка которых — нетривиальная задача. Какие услуги на основе объектных хранилищ использует бизнес (включая наш новый продукт cloudfort), и что учитывать при выборе решения.

Читать далее
Всего голосов 6: ↑5 и ↓1+7
Комментарии0

CDC на примитивах

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2.9K

CDC вам не «Centers for Disease Control and Prevention» а «Change data capture». В статье рассказано какие есть виды CDC и как реализовать один из CDC при помощи Debezium.

Читать далее
Всего голосов 4: ↑3 и ↓1+5
Комментарии8
1
23 ...

Вклад авторов