Как стать автором
Поиск
Написать публикацию
Обновить
223.98

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга

Знакомьтесь с программой, выбирайте доклады и регистрируйтесь на GoCloud Tech 2025 🤖

Делимся программой IT-конференции про AI, облака и работу с данными — GoCloud Tech 2025.

10:00 – 11:00 Регистрация

11:00 – 11:30 Открытие конференции

12:00 – 17:00 Доклады. Четыре трека на выбор:

  • AI&ML — про AI-продукты нашей разработки и работу с GenAI. Узнаете, как устроены RAG-системы и мультиагентные ассистенты, а также, как они уже применяются в работе и как начать их использовать

  • Cloud Infrastructure — про построение устойчивой, масштабируемой и безопасной облачной инфраструктуры: нюансы сетевой архитектуры, проектирование IaaS‑кластеров на K8s, возможности балансировщиков и производительность SDN.

  • Data&Analytics — про современные подходы к Big Data и аналитике: тренды, возможности облачных сервисов, интеграцию с AI-агентами и инструменты для быстрого и эффективного решения задач хранения, обработки и анализа.

  • Dev Platform Services — в рамках трека разберем детали и заглянем «под капот» решений, чтобы затем облегчить повседневную рутину разработки и настройки сервисов, а еще — оптимизировать процессы в инженерных командах.

17:15 – 21:00 Afterparty и нетворкинг

Также вас ждут технические воркшопы, кастомный мерч, демо и интерактивные зоны новых AI-сервисов и сервисов платформы собственной разработки Cloud․ru Evolution.

📆 Когда: 3 сентября

📍 Где: приходите в Лофт-пространство Goelro в Москве или подключайтесь к онлайн-трансляции трека «AI&ML» в VK и на Twitch. Основная программа начнется в 11:00.

Зарегистрироваться 👈

И читайте про наши прошлые конференции:

Теги:
0
Комментарии0

Подключайтесь к вебинару про резервное копирование и автоматизацию бэкапов

В 12:00 (мск) в прямом эфире расскажем, как настроить резервное копирование виртуальных машин и облаков, а также рассмотрим практический пример интеграции рассмотрим интеграции S3-хранилища Selectel с системой Хайстекс Акура.

Программа вебинара

— Краткий обзор облака и S3-хранилища Selectel.

— Возможности интеграции хранилища с другими сервисами: зачем нужно и как это сделать.

— Демо интеграции S3 со сторонними партнерскими бэкап-сервисами на примере Хайстекс.

Рекомендуем присоединиться системным администраторам, DevOps-инженерам и руководителям технических команд.

Смотреть трансляцию

📱на YouTube

📱в VK

Теги:
+4
Комментарии0

Data Warehouse: сравниваем подходы к хранению данных

На примере Data Warehouse рассказываем о подходах к хранению корпоративных данных и сравниваем альтернативные решения. Data Warehouse (DWH) — это централизованное корпоративное хранилище данных, в котором собирается, обрабатывается и хранится информация из разных источников. Его цель — предоставить единую и структурированную базу данных для анализа и принятия решений. В основе DWH лежит концепция предметно-ориентированной базы данных.

Чем Data Warehouse отличается от баз данных, Data Lake и Data Mart:

  • базы данных хорошо справляются с транзакциями, заточены под быстрые действия и работают с текущими, постоянно изменяющимися данными;

  • Data Lake — это хранилище, куда можно складывать данные «как есть»: структурированные, полуструктурированные и неструктурированные. Например, логи, изображения, JSON-файлы и многое другое;

  • Data Warehouse (DWH) — это усиленный уровень, предназначенный для аналитики. Данные сюда попадают после подготовки: проходят через процессы очистки, нормализации, трансформации и объединения;

  • Data Mart — «мини-DWH» для конкретной задачи. Этот инструмент обычно проще и меньше по объему, но может обновляться чаще и работать с более узкой, оперативной аналитикой.

На старте проектирования архитектуры важно разобраться в разнице между разными типами хранилищ — у каждого своя специфика и уровень зрелости. Подробнее о Data Warehouse и подходах к построению DWH читайте в базе знаний Облака Рег.ру.

Теги:
+1
Комментарии0

Вывели S3 из беты и выпустили объекты в Облаке Рег.ру

В облачной платформе Рег.ру важный апдейт — объектное хранилище S3 вывели из бета-тестирования, и теперь облачный сервис готов к полноценному использованию. С момента запуска S3 в декабре 2024 года мы значительно расширили функциональность и увеличили объем хранения. За это время услугой уже воспользовалось более 1100 пользователей и разместили 130 ТБ данных.

Вот что удалось нам сделать за это время — краткий обзор ключевых релизов и фич с момента запуска:

  • добавили управление ключами доступа для создания различных профилей доступа к бакетам; 

  • подключили управление политиками, чтобы настраивать различные уровни прав доступа по ключам;

  • внедрили объекты в личном кабинете, и теперь появилась возможность просматривать содержимое бакета в веб-интерфейсе;

  • расширили пул задач для улучшения жизненного цикла услуги; 

  • масштабировали и увеличили объем хранилища на +33%.

Подробнее о том, как мы пронесли S3 от запуска до выхода из беты, читайте в статье

Напомним, что объектное хранилище S3 в Облаке Рег.ру использует стандартный тип хранения с репликацией по технологии Erasure Coding (кодирование с восстановлением). Тарификация производится только за фактически используемый объем данных, без дополнительных затрат за входящий/исходящий трафик и количество запросов. Подключить S3 можно в личном кабинете на сайте Рег.ру.

Теги:
+2
Комментарии0

Выпущена новая версия СУБД Picodata — Picodata 25.3 

Компания Picodata (входит в Группу Arenadata) выпустила новую версию СУБД Picodata — Picodata 25.3. Обновление включает расширенные возможности SQL, механизм автоматического обновления схемы данных, а также повышение стабильности кластера.

Улучшение обратной совместимости

В Picodata 25.3 реализовано автоматическое обновление схемы данных при переходе инстансов на новый релиз Picodata. Этот механизм учитывает сделанные изменения в системных таблицах и сохраняет обратную совместимость при обновлении на следующий релиз СУБД: при переводе кластера на новую версию Picodata необходимые DDL/DML-команды выполнятся без вмешательства администратора, а требуемые в новой схеме внутренние функции также будут созданы автоматически.

Новые возможности SQL

В релиз добавлены новые возможности языка SQL в Picodata, в частности:

  • поддержка NULLS FIRST/LAST при сортировке результатов запроса (ORDER BY);

  • обработка конфликтов при вставке данных в глобальные таблицы (INSERT INTOON CONFLICT DO FAIL/REPLACE/NOTHING);

  • новая встроенная оконная функция LAST_VALUE();

  • оператор % для определения остатка деления по модулю для целых чисел;

  • возможность определения лидера raft-группы через функции pico_raft_leader_id() и pico_raft_leader_uuid();

  • возможность определения версии текущего инстанса с помощью функции version();

  • изменение, связанное с совместимостью: вместо скалярной функции instance_uuid (которая теперь объявлена устаревшей), рекомендуется использовать новую функцию pico_instance_uuid.

Улучшенная совместимость с PostgreSQL

Picodata теперь поддерживает безопасное соединение при обращении к внешнему LDAP-серверу. При подключении через протокол PostgreSQL (например, с помощью клиента psql) с методом аутентификации LDAP можно задействовать TLS-шифрование (при условии, что оно включено на LDAP-сервере). На стороне Picodata для этого потребуется установить значения у трёх переменных окружения. Например:

export TT_LDAP_URL="ldap://127.0.0.1:1389"
export TT_LDAP_DN_FMT='cn=$USER,ou=users,dc=example,dc=org'
export TT_LDAP_ENABLE_TLS=true

Изменение в конфигурации

Добавлен новый параметр instance.pg.advertise — публичный адрес сервера для подключения по протоколу PostgreSQL. По умолчанию, его значение соответствует значению instance.pg.listen. Этот параметр пригодится в ситуации, когда снаружи инстанс доступен по адресу, отличающемуся от адреса во внутренней сети.

Улучшенный веб-интерфейс

Команда Picodata продолжает развивать компонент webui для Picodata. В версии Picodata 25.3 веб-интерфейс не просто выглядит лучше, он также стал удобнее и информативнее:

  • на панели Cluster ID отображается больше полезной информации, включая список включённых плагинов;

  • в области просмотра сведений об инстансе теперь присутствует адрес подключения по протоколу PostgreSQL.

Механизм плагинов

При подключении плагина к кластеру Picodata теперь допускается расхождение минорных версий плагина и инстанса (например, плагин, собранный для версии 25.3.1, будет работать в Picodata 25.3.2).

Полный список нововведений и список исправленных ошибок доступны в документе CHANGELOG.

Роль Picodata для Ansible

Выпущена новая версия роли Picodata для Ansible, которая совместима с Picodata 25.3. Изменения в роли:

  • при сборке информации при сбое (тег crash_dump) можно исключить сборку snap- и xlog-файлов;

  • добавлена возможность выполнять lua-команды на инстансах кластера (тег command);

  • исправлена работа с несколькими плагинами в инвентаризационном файле и ряд прочих ошибок.

Для установки Picodata 25.3 следуйте инструкциям на сайте. Готовые пакеты доступны для следующих дистрибутивов Linux:

  • Astra 1.8

  • Debian 12 (bookworm)

  • RHEL/Rocky 9

  • Fedora 41–42

Инструкции и руководства по установке, использованию и администрированию Picodata размещены на портале документации Picodata.

Теги:
0
Комментарии0

Три новых облачных сервиса теперь в общем доступе ☁️☁️☁️

Теперь для них доступны все конфигурации, полноценная поддержка, а также соблюдение тарифов и SLA.

Вы уже можете использовать:

  • Evolution Managed Metastore — для хранения метаданных.

  • Evolution Managed Trino — массивно-параллельный аналитический SQL-движок для обработки больших объемов данных из разных источников.

  • Evolution Managed Redis — для создания и управления кластерами Redis.

👉 А если хотите узнать больше о сервисах для работы с данными, спросите нашего AI-помощника в личном кабинете. Он расскажет обо всех нюансах и подберет подходящий вам вариант.

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии0

А что б не вспомнить такой носитель данных, как перфолента?

Вот смотрите: допустим, 5 мкм лавсан, потом 1 мкм алюминий и снова 5 мкм лавсан. УФ-лазер с механическим приводом перфорирует поперёк ленты дорожки с шагом, скажем, тот же 1 мкм (УФ может и лучше, но пока не будем пальцы гнуть). Поскольку механика позиционирует луч с точностью до «куда-то туда» — применяем старые добрые старт- и стоп-биты.

На ленте шириной в 5 мм мы легко пробьём 4096 бит, старты, стопы и ещё останется запас с краёв. А чтобы прочитать её значительно быстрее, чем мы это макраме вымучивали — берём линейную ПЗС-матрицу от сканера (разрешение 1×16384 или примерно того порядка), сканируем всю ширину ленты разом, ну и (ваш Кэп) просто её протягиваем. Перекосы головки чтения относительно головки записи решаются кольцевым буфером — там хранится несколько последних строчек и нет никаких проблем найти там реальное положение дорожек, я такие синхронизации за пучок пятачок делал, задача детская.

В результате наши 4 килобита на микрон дают 512 терабайт в габаритах кассеты C-90, минус Рид-Соломон. Если я, конечно, по причине крайней усталости в нулях не запутался. Вот такая вот перфоленточка…

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии21

В Облаке Рег.ру добавили управление политиками доступа в S3

В облачной платформе Рег.ру продолжаем развивать возможности объектного хранилища S3. Подготовили новый апдейт — теперь пользователи могут управлять политиками доступа к бакетам. Обновление особенно пригодится для работы с высоконагруженными задачами и над проектами, в которых важны усиленные требования к безопасности.

Ключевые обновления в S3:

  • индивидуальные политики для отдельных пользователей и сервисов;

  • ролевое управление доступом (с разделением по методам GET/PUT/POST/DELETE);

  • шаблоны для быстрой настройки;

  • 20+ параметров для тонкой конфигурации.

Новый пакет обновлений в S3 логично дополняет возможность управления ключами доступа, подключенную еще в мае. Напомним, что тогда при работе с S3 пользователям облака стали доступны новые действия: создание, генерация, удаление. 

Попробовать обновленные фичи в S3 уже можно на сайте.

Теги:
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

SpaceWeb запустил сервис объектного хранилища S3

В SpaceWeb расширили линейку облачных сервисов и подключили объектное хранилище S3. С новым сервисом можно работать напрямую из кода, CMS или через API. S3 не только хранит данные, но и снижает нагрузку на серверы, сохраняя контроль над данными, а также предлагает:

  • возможность шифрования;

  • гибкие механизмы управления доступом как на уровне бакетов, так и объектов;

  • безопасное хранение информации, независимо от объема данных.

Объектное хранилище S3 поможет, прежде всего, веб-разработчикам, для которых важны вопросы масштабирования и эффективного управления данными без использования сторонней инфраструктуры. Протестировать и заказать новый сервис можно на сайте.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Опыт сети гипермаркетов Hoff: перенести резервные копии данных в облако и оптимизировать затраты 🛒

Что за компания

Hoff — Home of furnishing — российская сеть гипермаркетов мебели и товаров для дома. 60 магазинов в разных форматах работают в крупных городах по всей России.

Какая была задача

У Hoff есть интернет-магазин и приложение, которые размещены в основном дата-центре. Компании были нужны резервные копии сайта и приложения на случай, если в работе локальной инфраструктуры произойдет сбой.

Основные требования Hoff к провайдеру и облачным ресурсам: отказоустойчивость, скорость реакции на запросы, круглосуточная связь с поддержкой, качество ответов и компетентность сотрудников.

Как ее решили

Вместо покупки дополнительных серверов и затрат на их содержание Hoff решила разместить копии в облаке. Так компания не только оптимизировала расходы на инфраструктуру, но и обеспечила непрерывную работу бизнеса.

Cloud.ru построила для Hoff инфраструктуру в Облаке VMware, подключила интернет-канал, настроила два выделенных канала связи, коммутацию и маршрутизацию сети, а еще предоставила доступ к API, чтобы автоматизировать процесс переключения между площадками.

Что в результате

В облаке развернута онлайн-реплика боевой площадки — она меньше по количеству вычислительных мощностей, но идентичная по данным и функционалу. При необходимости реплика мгновенно масштабируется по вычислительным мощностям в 10 раз (до 800 CPU, 2 TB RAM, 27 TB SSD), чтобы выдержать весь пользовательский трафик, который будет переключен с вышедшей из строя основной площадки.

Читать кейс полностью 💼

Теги:
Всего голосов 4: ↑3 и ↓1+2
Комментарии0

Можно ли самостоятельно расширить дисковое пространство при этом не выключая физический сервер? 💽 

Да, если речь о сервисе Evolution Bare Metal. Приходите на вебинар, и вы узнаете:

  • как работает Evolution Bare Metal и для каких задач он подходит;

  • примеры критических сценариев нехватки дискового пространства;

  • особенности архитектуры сервиса: почему наше решение отказоустойчивое;

  • подтвержденные метрики: скорость работы и эффективность.

Также проведем демо, на котором покажем, как за минуту расширить дисковое пространство в Evolution Bare Metal.

Будет полезно разработчикам и IT-менеджерам, дата-инженерам и аналитикам данных, а также для всем, кто только задумывается о переезде в облако и хочет узнать больше про его возможности.

📆 Когда: 3 июля в 11:00 мск

📍 Где: онлайн

Зарегистрироваться 👈

Теги:
Рейтинг0
Комментарии0

ITFB Group совместно с Nexign, Sber Tech и Arenadata приглашают на вебинар, посвященный теме Датацентричность как стратегический приоритет: какие ИТ-инструменты помогут бизнесу принимать обоснованные решения?

Когда: 10 июля, 11:00

Где: онлайн

В рамках вебинара вас ждет уникальный формат:

  • Экспертные доклады

  • Живой круглый стол

Что обсудим:

  • Лучшие российские платформы для управления данными (ETL, BI, BigData)

  • Практические кейсы внедрения от Nexign, Arenadata и СберТех

  • Как измерить ROI от дата-стратегии и ускорить цифровую трансформацию

Спикеры:

  • Дмитрий Лемеш (Nexign) – интеграция данных для бизнеса

  • Антон Близгарёв (Arenadata) – BigData без сложностей

  • Владимир Федосеев (СберТех) – аналитика на автомате Модератор: Николай Чекин (ITFB Group)

Для кого?

→ ИТ-директора и директора по данным
→ Руководители цифровой трансформации
→ Специалисты по работе с данными (ETL, DWH, BI)

Регистрируйтесь сейчас!

Зарегистрироваться

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

В Облаке Рег.ру добавили образ NextCloud + OnlyOffice

Запустили удобное корпоративное хранилище для совместной работы с документами в Облаке Рег.ру. Набор офисных приложений OnlyOffice теперь также доступен в облаке — добавили предустановленный образ NextCloud + OnlyOffice. Обновленное облачное решение предлагает универсальную экосистему для совместной работы: 

  • NextCloud подходит для хранения любых документов и файлов;

  • OnlyOffice позволяет редактировать документы и закрывает большинство стандартных задач пользователей.

Для заказа доступны облачные серверы во всех локациях. Минимальная конфигурация — 4 vCPU, 16 ГБ RAM, 40 ГБ диска. 

Новый образ NextCloud 31 + OnlyOffice 5 уже можно тестировать на нашем сайте.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии3

Ближайшие события

Как компания «Литрес» построила облачное аналитическое хранилище на базе КХД Cloud.ru и сократила время обработки и анализа данных 📚

Что за компания

Компания «Литрес», основанная в 2005 году, сегодня является лидером на рынке лицензионных электронных и аудиокниг в России и странах СНГ. Ежемесячная аудитория сервиса Литрес составляет 11 млн человек, которые скачивают более 2,7 млн книг в месяц. 

Какая была задача

«Литрес» подошла к этапу, когда мощностей для быстрого расчета витрин для аналитики и отчетности перестало хватать, поскольку был накоплен значительный объем данных — около 6 ТБ. Компания решила разработать собственное хранилище — создать надежную и масштабируемую платформу для хранения и обработки больших объемов данных, что позволило бы оптимизировать бизнес-процессы и повысить эффективность работы.

Как ее решили

Изначально у нас было два варианта, как можно сделать большую аналитическую базу. Первый и самый очевидный — запустить Greenplum. Но для этого нужно было выделять серверы, оптимизировать решение, нанимать администраторов — это сложно и долго. В качестве второго варианта можно было закупить готовое решение у подрядчика, однако выяснилось, что поддержка такого решения при приемлемом уровне производительности стоит космических денег. В итоге в Cloud.ru нам предложили альтернативу — КХД — облачное корпоративное хранилище, которое дает возможность быстро обрабатывать огромные массивы данных из разных систем хранения и источников. Решение нас заинтересовало.

Кирилл Шевченко

Руководитель отдела разработки информационно-аналитических систем группы компаний «Литрес»

Чтобы понять, какое решение выгоднее и эффективнее, «Литрес» провели исследование и сравнили работу КХД, ClickHouse в облаке и локального ClickHouse компании. Результат — КХД лучше всего справился с поставленными задачами (например, обработка больших запросов на таблицах с JOIN заняла всего 20 минут).

Что в результате

Команда «Литрес» создала собственное хранилище на базе КХД Cloud.ru и в результате сократила время на обработку и анализ данных:

  • обновление всего хранилища занимает 40 минут вместо 3 часов

  • среднее время выполнения процедур — 2 минуты вместо часа,

  • на обработку простого запроса при обновлении витрин хватает 5 секунд.

  • раньше на создание одной витрины требовалось несколько дней, а теперь можно создать 3 витрины в день.

Читать кейс полностью 💼

Теги:
Рейтинг0
Комментарии0

Как защитить данные без полных бэкапов: разбираем косвенную адресацию в СХД

Мгновенный снимок (снапшот) — это компактная с точки зрения дискового пространства копия данных, созданная в определенный момент времени. Снапшот способен моментально зафиксировать состояние тома, в отличие от резервной копии, создание которой при большом объеме данных может занять длительное время и требовать остановки записи для сохранения консистентности. Снапшот же не создает независимую копию данных, а лишь обеспечивает возможность обратиться к данным тома на момент создания снапшота.

В TATLIN.UNIFIED снапшоты создаются путем копирования карты блоков данных оригинального тома. Сами данные не копируются, поэтому снапшоты создаются очень быстро и не занимают дополнительного места в области данных.

Со временем в родительском томе заполняются новые блоки данных. Некоторые данные у родительского тома и снапшота начинают различаться, но данные, на которые уже ссылается снапшот, не перезаписываются и не освобождаются. Оригинальный физический блок данных считается занятым до тех пор, пока снапшот, который на него ссылается, не будет удален. После удаления снапшота блоки данных, которые он не разделял с другими ресурсами, освобождаются и могут быть использованы для последующих операций записи. Такой вариант реализации снапшотов называют Redirect-On-Write (RoW).

В своей статье Алексей Шушарин, главный эксперт по разработке ПО в департаменте СХД YADRO, подробно рассказал о снапшотах, клонах и всех процессах, связанных с косвенной адресацией. А также о том, как грамотно вписать эту функциональность в стек хранилища.

Теги:
Рейтинг0
Комментарии0

Работайте с большими данными в Evolution Data Platform 📊

❓ Что за инструмент? Evolution Data Platform — платформа для обработки больших данных, которая включает в себя несколько PaaS-сервисов. Среди них:

  1. Evolution Managed Trino — массивно-параллельный аналитический SQL-движок Trino с использованием распределенных запросов.

  2. Evolution Managed Metastore — сервис для хранения метаданных таблиц из разных источников. Metastore сообщает клиентским приложениям, где хранятся данные, как к ним обращаться и как их интерпретировать.

  3. Evolution Managed Spark — сервис для развертывания кластерного вычислительного решения на основе Apache Spark для распределенной обработки данных.

  4. Evolution Managed ArenadataDB — аналитическая база данных для хранения большого объема структурированных и полуструктурированных данных.

🖥 Особенности и преимущества. Вы можете выбрать любой сервис, который подходит под определенные задачи, или же комбинировать их. Из плюсов конкретных сервисов:

  1. Evolution Managed Trino способен работать с разными источниками в одном SQL-запросе, есть несколько конфигураций Trino. А еще можно создать приватный инстанс, недоступный из интернета.

  2. Evolution Managed Metastore прямо из интерфейса можно подключить к другим сервисам платформы Cloud.ru Evolution. Создание и обновление инстансов происходит за минуты, а данные для подключения к S3 — в безопасности, так как хранятся в сервисе Secret Management.

  3. Evolution Managed Spark позволяет отслеживать статусы выполнения задач, обрабатывать данные из Object Storage, а также из большинства доступных БД.

  4. Evolution Managed ArenadataDB дает возможность развертывать инстансы без обслуживания инфраструктуры, а кластеры Greenplum разворачиваются автоматически. Доступны конфигурации от 3 до 50 ТБ, что позволяет адаптировать систему под разные задачи.

👨‍💻 Кому будет полезно. PaaS-сервисы платформы Evolution Data Platform найдут применение во всех областях, где работают с большими объемами данных: финансовых учреждениях, ретейле, логистике, крупном и среднем бизнесе — и не только. Также сервисы будут полезны в машинном обучении и разработке. 

✍️ Где, как и для чего использовать. Для обработки структурированных, слабоструктурированных и неструктурированных данных, SQL-аналитики, ML, хранения метаданных таблиц, отправки сложных запросов, проверки гипотез, A/B-тестирований, построения приложений данных, интерактивного специального анализа данных.

В июне Evolution Managed Trino и Evolution Managed Metastore выйдут в коммерческий доступ, а еще станут доступны для тестирования сервисы Evolution Managed Airflow и Evolution Managed BI. Смотрите доклад с конференции GoCloud 2025, чтобы больше узнать о PaaS-сервисах для работы с данными 🌐

Теги:
Рейтинг0
Комментарии0

В Облаке Рег.ру запустили услугу резервного копирования

Добавили в облачной платформе возможность автоматизированного создания, хранения и восстановления резервных копий. Этот релиз — первый шаг по запуску полноценного Backup as a Service в Облаке Рег.ру.

Что внутри нового сервиса:

  • настройка расписания бэкапов и снапшотов;

  • удаленное хранение бэкапа;

  • восстановление сервера до нужного состояния, если возникнет такая необходимость;

  • создание снапшотов. 

Теперь пользователи могут сами настраивать политику хранения бэкапа — от ежемесячной до ежедневной. На случай локальных сбоев предусмотрели защиту от потери данных — консистентные резервные копии хранятся в удаленном объектном хранилище S3. Отсюда и повышенная катастрофоустойчивость инфраструктуры пользователей в целом. Тарификация происходит по модели pay-as-you-go за фактический объем хранения.

Следите за нашими новыми обновлениями!

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Храните и обрабатывайте данные в аналитической базе данных Evolution Managed ArenadataDB 🗄️

❓ Что за сервис? Evolution Managed ArenadataDB — аналитическая БД, которая поможет с хранением и обработкой структурированных и полуструктурированных данных. ArenadataDB развернута на базе open source СУБД Greenplum, а в основе лежит архитектура MPP. Это позволяет быстро и эффективно работать с большим объемом данных, в том числе в критически важных системах.

🖥 Особенности и преимущества. С Evolution Managed ArenadataDB можно развертывать инстансы без привлечения инженеров и обслуживания инфраструктуры, кластеры Greenplum разворачиваются автоматически. Конфигурации от 3 до 50 ТБ позволяют адаптировать систему под разные задачи, а высокая доступность (SLA 99,7%) гарантирует надежную работу.

ADB способна обрабатывать сложные SQL-запросы. Сервис предлагает надежные инструменты для резервного копирования и восстановления данных, включая полное и дифференциальное резервное копирование, а также восстановление на момент времени. Есть возможность создать приватный инстанс, недоступный из интернета.

👨‍💻 Кому будет полезно. Финансовым и страховым организациям, ретейлу, логистике, бизнесу и любым другим отраслям, где важна работа с большими объемами данных. Также сервис будет полезен в научно-исследовательских учреждениях и компаниях, занимающихся разработкой искусственного интеллекта, машинным обучением.

✍️ Где, как и для чего использовать. Evolution Managed ArenadataDB подойдет, чтобы создавать корпоративные хранилища данных для бизнес-аналитики и отчетности. Сервис позволяет анализировать и прогнозировать действия клиентов, сегментировать аудиторию, персонализировать акции. Еще можно хранить и обрабатывать большие объемы данных для работы с AI и ML, быстро выполнять сложные аналитические запросы.

Хотите больше узнать о сервисе? Заглядывайте в документацию, а еще смотрите дискуссию об аналитике данных в облаке с конференции GoCloud 2025.

Теги:
Всего голосов 1: ↑1 и ↓0+2
Комментарии0

Разведка по 2GIS: как отзывы выдают ваши секреты

Перед тем как пойти в новое место, многие лезут в отзывы. Казалось бы — обычное дело. Но что, если я скажу, что ваш безобидный отзыв на шаурму у метро может раскрыть о вас гораздо больше, чем вы думаете?

Сегодня разберём, почему стоит дважды подумать, прежде чем писать отзывы, если вам важна приватность. И заодно — как эти отзывы могут использовать злоумышленники.

Причем здесь 2GIS?
В приложении у каждого авторизованного пользователя есть профиль, на который можно подписаться и следить за всеми отзывами. Многие думают: «Ну и что? Я же под ником "Аноним Анонимов"!»

Но вот в чём подвох:
➜ Если кто-то добавит ваш номер телефона в контакты, 2GIS подсветит ваш профиль — со всеми отзывами, фотками и активностью.

Что можно узнать из ваших отзывов?
1️⃣ Интересы — кафе, бары, магазины, кинотеатры… Всё, что вы оцениваете, рисует ваш цифровой портрет.
2️⃣ Место жительства — некоторые пишут отзывы на свои ЖК, ТЦ рядом с домом и даже на подъезды.
3️⃣ Круг общения — если вы и ваши друзья ходите в одни и те же места и оставляете отзывы, связь легко отследить.
4️⃣ Фотографии — машина, питомец, случайно попавшие в кадр документы… Мелочи, которые могут стоить дорого.

Вывод

Интернет ничего не забывает. Даже невинный отзыв может стать кусочком пазла, который сложит вашу жизнь перед злоумышленником.

Больше контента в моем авторском telegram-канале: https://t.me/ru_vm (BritLab)

Теги:
Всего голосов 6: ↑5 и ↓1+4
Комментарии4

Хранилище для данных или катастрофа на миллион строк? Видео-гайд по оптимизации запросов в Greenplum

Немного про нашу data-реальность в Сравни: мы используем Greenplum как аналитическую платформу для обработки терабайтов данных — пользовательских, продуктовых и маркетинговых. Это не просто хранилище, но один из основополагающих инструментов для команды DWH и аналитиков. 

О применении Greenplum на практике наш дата-инженер Владимир Шустиков выпустил трилогию обучающих видео. С их помощью можно ознакомиться с азами самой БД и узнать, как дата-инженеры Сравни переписывают запросы для более высокой эффективности.

Если интересуетесь в целом Greenplum и вопросом оптимизации запросов в частности — вот все три выпуска гайда!

1. Greenplum. Что такое и как работает?

Видео о сути и архитектуре GP, основных понятиях и возможностях (реплицирование сегментов, дистрибуция, партицирование, индексы, загрузка и выгрузка данных, оптимизация запросов).

2. Простая оптимизация запросов в GreenPlum (+ кейсы)

Автор отвечает на вопрос, как именно стоит оптимизировать запросы в GP и на что обращать внимание.

3. Кейс оптимизации запроса в GreenPlum 

Автор разбирает реальный кейс из практики Сравни, в котором применяются подходы и техники из видео №2.

Предыдущий видео-цикл Владимира, о самых распространенных вопросах на собеседованиях по SQL (с ответами!), доступен в этом посте.

Также ранее мы провели курс лекций в Бауманке: рассказали о техниках оптимизации аналитических SQL-запросов. Видео — здесь.

ТГ-канал инженерного сообщества Sravni Tech

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Как добиться надежности, гибкости и экономии в условиях растущих объемов данных? Расскажем на вебинаре.

📆 Когда: 29 мая в 11:00 мск

📍 Где: онлайн

В условиях стремительного роста объема информации возникают требования к использованию новых подходов к управлению и защите данных. Но облачные технологии меняют правила игры. На вебинаре вы узнаете, как перенести операционные расходы по управлению данными на облачных провайдеров, оптимизируя процессы резервного копирования и аварийного восстановления. 

В программе:

  • что такое резервное копирование и аварийное восстановление: отличия и необходимость в разных сценариях;

  • важность резервного копирования и аварийного восстановления в рамках концепции непрерывности данных;

  • причины использовать облако для обеспечения непрерывности данных;

  • дополнительные концепты для защиты информации;

  • демо: как настроить резервное копирование и аварийное восстановление в облаке.

Вебинар будет полезен всем, кого волнует обеспечение непрерывности и отказоустойчивости бизнеса: IT-директорам, системным администраторам, инженерам и архитекторам инфраструктуры.

Зарегистрироваться 👈

Теги:
Рейтинг0
Комментарии0

BI-проекты: 5 причин, почему они выходят за рамки бюджета (и как этого избежать)

Если вы хоть раз участвовали во внедрении BI-системы — знаете, как легко проект может уйти не туда:
– бюджет трещит по швам,
– сроки съедены интеграцией и доработками,
– пользователи по-прежнему делают аналитику в Excel.

Мы в GlowByte собрали в статье практический разбор типичных ошибок, которые чаще всего приводят к перерасходу бюджета и снижению отдачи от BI-проектов.

Плюс: даём самодиагностический чек-лист и PDF-гайд, где перечислены все организационные, финансовые и технические риски BI-проектов.

Заходите почитать! Статья здесь → Скрытая стоимость BI: что не учитывают 8 из 10 компаний при внедрении аналитических систем.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Мы официально преодолели отметку в 1 500 000 000 объектов. Представьте: если бы каждый пятый житель планеты загрузил по одному файлу — получили бы такую же цифру. Или все статьи с русской Википедии решили сохранить 750 раз.

Наше S3 — это:

➖ хранение любых файлов: от картинок и документов до логов и бэкапов
➖ тройная репликация данных
➖ защищенное соединение
➖ безграничное масштабирование: сколько нужно бакетов, столько и будет
➖ два класса хранения: стандартное и «холодное»

Совсем скоро доедут еще два крутых апдейта — работа с доп пользователями и упрощенная загрузка статических сайтов прямо из панели. Stay tuned!

Загрузить файлы в бакет →

Теги:
Всего голосов 8: ↑8 и ↓0+11
Комментарии3

На пределе железа: протестировали резервное копирование 32 виртуальных машин с дедупликацией «на лету»

Один из сценариев тестирования СХД TATLIN.BACKUP и СРК Кибер Бэкап, в котором резервное копирование производилось с inline-дедупликацией внутри каждой ВМ.

В каждую из 32 виртуальных машин установлены агенты Кибер Бэкапа, а также агенты Tboost, протокола дедупликации в TATLIN.BACKUP. Каждый агент сохраняет резервную копию в локальную папку, подключенную к целевому хранилищу через протокол T‑BOOST (точка монтирования /mnt/esxboost)​. В качестве хранилища резервных копий в Кибер Бэкапе указано 32 хранилища — по числу ВМ.

Чтение на источнике TATLIN.UNIFIED
Чтение на источнике TATLIN.UNIFIED

График показывает, что мы достигли ограничений оборудования: пропускной способности четырех портов Ethernet по 25 Гбит/с, через которые подключен диск TATLIN.UNIFIED к хостам виртуализации. 

Совокупный объем данных, переданных Кибер Бэкапом для полного резервного копирования всех ВМ, составил ~ 4 192 ГБ (32 × 131 ГБ). Параллельно выполнялись 32 операции резервного копирования. Время выполнения операций — от 8 до 11 минут.

Про совместное использование TATLIN.BACKUP и Кибер Бэкапа читайте в статье с результатами тестирования трех сценариев резервного копирования 32 виртуальных машин.

Теги:
Всего голосов 3: ↑3 и ↓0+4
Комментарии0

🏖 Рассказываем про миграционные каникулы для данных в Selectel

Сейчас многие компании заняты реорганизацией своей инфраструктуры. Миграция данных устроена так, что бизнес вынужден платить несколько раз:

  • за исходное хранилище данных,

  • за трафик при переносе данных,

  • за запросы в целевое хранилище,

  • за объем целевого хранилища.

Чтобы помочь компаниям сократить затраты, мы проводим миграционные каникулы для переноса данных в объектное хранилище.

Миграционные каникулы позволяют не оплачивать запросы и хранение 30 дней с момента одобрения заявки. Этот период полностью покрывает время на подготовительные работы и снижает нагрузку на бизнес.

Наше хранилище поддерживает точки присутствия в Москве и Санкт-Петербурге. Вы можете распределять данные между разными географическими зонами, повышая катастрофоустойчивость инфраструктуры.

Участвовать просто: достаточно подать заявку на сайте.

Условия каникул подходят клиентам, которые не использовали объектное хранилище Selectel ранее. 

Теги:
Всего голосов 4: ↑4 и ↓0+5
Комментарии0

Как сохранить данные в S3 при работе с Evolution Container Apps — расскажем на конференции GoCloud 2025 ☁️

Покажу, как запустить ваши приложения в два клика, при этом сэкономив ресурсы, и как управлять важными данными с помощью S3. Все это на примере сервиса, работающего со статическим контентом.

Никита Корольков — менеджер продукта в Cloud.ru 

Трек:  Инфраструктура и сервисы — про новые и популярные инструменты платформы Cloud.ru Evolution и то, как они помогают в решении задач.

📅 Когда: 10 апреля в 15:35 мск

👉 Зарегистрироваться

А еще, пока ждете выступление, можно почитать в нашем блоге по теме: Запускаем приложения в облаке с помощью Evolution Container Apps и Evolution Artifact Registry.

Теги:
Рейтинг0
Комментарии0

Как оптимизировать расходы на резервное копирование

10 апреля в 13:00 подключайтесь к вебинару, где специалисты YADRO и Киберпротект расскажут об эффективном использовании системы резервного копирования (СРК) в связке с системой хранения данных (СХД). СРК занимается резервным копированием и восстановлением данных, а СХД — их надежным хранением, компрессией и дедупликацией. 

В прямом эфире вы сможете:

  • узнать о возможностях СРК Кибер Бэкап и СХД TATLIN.BACKUP,

  • выбрать подходящий сценарий их совместного использования,

  • посмотреть в реальном времени, как происходит резервное копирование средствами Кибер Бэкапа на TATLIN.BACKUP с помощью T-BOOST,

  • задать вопросы экспертам.

Одной из тем вебинара станет технология T-BOOST. Она позволяет выполнять дедупликацию данных на источнике: защищенном хосте или узле хранения Кибер Бэкапа. После дедупликации в хранилище передаются только уникальные данные. Это позволяет минимизировать объем передаваемых данных (снизить нагрузку на сеть) и ускорить резервное копирование.

Принять участие в вебинаре →

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии0

Как автоматизированно извлекать текст из видео на YouTube?

Пример кода
Пример кода

Знакомо: нашёл на YouTube ролики, в которых есть тонна полезной информации, а тратить часы на просмотр — нет времени?

В 2018 году появился проект youtube-transcript-api (GitHub) — Python-модуль, который за пару секунд извлекает субтитры из видео.

Но есть нюансы:
⚠️ Требует сетевого доступа к YouTube (может не работать в некоторых странах)
⚠️ Использует неофициальное API
Вот что пишет создатель проекта:

Этот код использует недокументированную часть API YouTube, которая вызывается веб-клиентом YouTube. Поэтому нет гарантии, что он не перестанет работать завтра, если они изменят то, как все работает. Однако я сделаю все возможное, чтобы все заработало как можно скорее, если это произойдет. Так что если он перестанет работать, дайте мне знать!

Как использовать?
1️⃣ Установить библиотеку youtube-transcript-api (PYPI)
2️⃣ Взять ID интересующего видео (поддается автоматизации)
3️⃣ Запустить скрипт (📖 официальная документация)

Если вам понравился пост и вы хотите узнавать больше о подобных инструментах, то можете подписаться на мой авторский Telegram-канал BritLab!

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Какие проблемы решает алгоритм FastCDC при дедупликации данных

FastCDC — это алгоритм разбиения данных на блоки переменной длины (Content Defined Chunking, CDC). В отличие от нарезки с фиксированной длиной блока, FastCDC решает проблему смещения границ (boundary-shift problem), которая возникает при вставке новых данных в файл. Например, если в начало файла добавить байт, то при использовании разбиения с фиксированной длиной все последующие блоки изменятся.

Алгоритмы с переменной длиной блока, такие как FastCDC, устраняют эту проблему, поскольку устанавливают границы блоков на основе содержимого данных, используя хеш-функцию для определения неких избранных последовательностей байтов. Впрочем, если байт будет добавлен в середину какого-то блока, то этот блок будет потерян, а граница будет корректно определена уже для следующего от него блока.

FastCDC выделяется среди других алгоритмов высокой скоростью обработки потока байтов. Основная вычислительная нагрузка на систему создается операциями разбиения данных на блоки и их сжатия, поэтому оптимизация алгоритма разбиения напрямую влияет на общую производительность.

Основная идея FastCDC заключается в следующем: среди всех возможных последовательностей байтов (множество A) выделяется подмножество B. Когда в файле обнаруживается последовательность из множества B, алгоритм устанавливает границу блока (anchor) сразу после этой последовательности.

Так как хранение подмножества B напрямую невозможно из-за огромного количества возможных последовательностей, используется хеш-функция. Она преобразует каждую последовательность байтов в числовое значение, которое определяет класс этой последовательности. 

После нахождения опорного байта (anchor) алгоритм проверяет, удовлетворяет ли он дополнительным условиям. Например, FastCDC не создаст новый блок, если точка находится слишком близко к границе предыдущего блока и минимальный размер блока еще не достигнут. Если опорные байты не найдены, система отрежет блок по его максимально допустимому размеру. 

Добавление всего одного нового байта 0 сдвигает все предыдущие байты вправо, что приводит к изменению содержимого каждого блока:

Эксперт по разработке ПО отдела систем обработки данных в YADRO Ростислав Ефремов в статье подробно объяснил, что такое дедупликация данных, какую роль она играет в системах резервного копирования и как работает в СХД TATLIN.BACKUP

Теги:
Всего голосов 3: ↑3 и ↓0+5
Комментарии0

Радио-серфинг: как исследовать короткие волны без спецоборудования

http://websdr.ewi.utwente.nl:8901/

В университете Твенте [1] есть коротковолновый приемник, к которому можно подключиться через обычный браузер [ссылка] и исследовать ответы тысяч радиостанций по всему миру (в режиме реального времени).

С помощью ресурса можно:
1️⃣ Слушать радиолюбительские передачи, авиационные каналы, морскую связь и многое другое
2️⃣ Исследовать разные частоты и находить интересные сигналы
3️⃣ Делать записи эфиров, чтобы потом прогонять их через декодеры
4️⃣ Погрузиться в мир радио, даже если у вас нет собственного оборудования

Этот ресурс — настоящий портал в мир радио. Даже если вы, как и я, не станете радиолюбителем, это отличный способ узнать что-то новое.

Вот несколько интересных частот с которых можно начать:
🇳🇱 1008.00 кГц — Radio Twenty Gold (Нидерланды)
🇷🇺 4625.00 кГц — легендарная "Жужжалка" (УВБ-76). Загадочный сигнал, о котором ходят легенды. Подробнее можно почитать здесь (https://www.rbc.ru/base/18/12/2024/6762bb5c9a7947e14d132352)
🇫🇷 9790.00 кГц — Radio France
🇷🇴11930 кГц — Radio Romania International

Если вам понравился пост и вы хотите узнавать больше о подобных инструментах, то можете подписаться на мой авторский Telegram-канал!

P.S. ещё на ресурсе есть онлайн чат, в котором вы можете общаться с другими радиолюбителями

Теги:
Всего голосов 6: ↑6 и ↓0+7
Комментарии1

Какие темы можно послушать на конференции GoCloud 2025? ☁️

Трек: Инфраструктура и сервисы — про новые и популярные инструменты платформы Cloud.ru Evolution и то, как они помогают в решении задач.

Тема: Увеличиваем дисковое пространство физического сервера за 1 минуту.

На выступлении вы узнаете:

- про возможные риски потери данных и способы их предотвращения;

- как подключить блочные хранилища к железным серверам;

- про эффективный подход к защите данных и его применение.

📅 Когда: 10 апреля в 16:30 мск

👉 Зарегистрироваться

Что еще интересного будет на GoCloud 2025, смотрите в программе конференции.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

13 марта 16:00 CET (18:00 Мск) Андрей Квапил, более известный в инженерном сообществе как @kvaps будет травить байки о том, как правильно готовить LINSTOR и Talos Linux — на этот раз на комьюнити-мите LINBIT (создатели LINSTOR и DRBD). Основано на реальных событиях, приключившихся в Cozystack:)

Программа комьюнити-мита:

  • Andrei Kvapil: LINSTOR on Talos Linux: A robust base for Cozystack

  • Joel Colledge: DRBD resync without replication

  • Johannes Khoshnazar-Thoma: WinDRBD 1.2 news

Присоединяйтесь к трансляции:

Кроме того, будем транслировать встречу в телеграм-чате @drbd_ru.

Теги:
Рейтинг0
Комментарии0

Как работает современный RAID-массив: разбираем реализацию YADRO

Чтобы обеспечить доступность данных, T-RAID решает определенный набор задач.

Построение пула хранения на несколько петабайт. Эту возможность обеспечивает архитектура T-RAID: схемы расположения данных, реализация страйпов и allocation-групп дисков.

Оптимизация ребилда дисков и нагрузки на них. T-RAID проводит ребилд только реальных данных, а также распределяет нагрузку ребилда на несколько дисков. Здесь задействована обработка ошибок через блоки, а также фоновые процессы recovery и balancer. В распределении нагрузки помогает фоновый воркер rate limiter и адаптивный троттлер фоновых процессов.

Защита от выхода из строя аппаратных компонентов СХД (процессора, материнской платы, блока питания, контроллера, системного диска). Достигается посредством двухконтроллерной работы в режиме active-active. Тома блоков доступны на запись и чтение одновременно с двух контроллеров при балансировке нагрузки к лунам. Реализацию active-active мы раскроем в отдельной части материала.

Обеспечение отказоустойчивой работы с самими данными от получения запроса до записи в диск. Это реализуется с помощью integrity-механизмов.

Отработка отказов оборудования. Здесь возможно несколько сценариев разного масштаба — от потери отдельного диска до потери целого контроллера или интерконнекта.

О том, как в T-RAID реализованы все перечисленные технические средства, в своей статье подробно рассказал Вячеслав Пачков, ведущий инженер по разработке ПО в департаменте СХД YADRO.

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии0

1 год DBaaS в облаке Рег.ру

Привет, Хабр! На связи команда Облака Рег.ру. Сегодня нашему сервису DBaaS исполняется год с момента его выхода из статуса βeta. Давайте вместе посмотрим, чего мы достигли за это время. Начнем с видимых изменений в панели управления:

  • Обновили версии PostgreSQL, добавив текущие ветки 16 и 17.

  • Добавили возможность для пользователей кастомизировать настройки кластеров под их собственную нагрузку для PostgreSQL и MySQL.

  • Добавили возможность для пользователей выбирать локали в PostgreSQL.

  • Расширили возможности управления доступом для пользователей кластеров баз данных.

  • Обновили список доступных расширений в PostgreSQL.

Но это, конечно же, далеко не всё! Кроме того, что пользователи могут увидеть напрямую через личный кабинет, у нас есть огромное количество новшеств «под капотом» DBaaS, среди них:

  • Изменения способа хождения трафика клиента к кластерам баз данных, чтобы увеличить стабильность сетевых соединений.

  • Добавили поддержку SSL/TLS для DBaaS.

  • Оптимизировали работу autovacuuma'а по умолчанию в кластерах PostgreSQL.

  • Оптимизировали работу с WAL в PostgreSQL, чтобы меньше влиять на распределение доступного места между данными пользовательской БД и служебными данными.

  • Увеличили общую надежность операций над кластерами PostgreSQL и MySQL, требующих переключение активного мастера.

И еще, на самом деле, много всего, включая новые фичи, которые проходят внутреннее тестирование. Stay tuned!

Теги:
Всего голосов 3: ↑3 и ↓0+5
Комментарии0

Горячая новость про холодное хранилище 🧊

Добавили «холодный» класс хранения данных в S3. Теперь их два — стандартный и, собственно, холодный. Разбираемся что к чему👇

Стандартное хранение подходит для данных, которые нужны здесь и сейчас. Например, операции биллинга, логи для аналитики в реалтайме, медиафайлы для стриминговых сервисов и др. Поэтому база этого хранения — быстрый диск.

Для данных, к которым вы обращаетесь редко, подойдет холодное хранение. Например, чтобы складывать туда резервные копии, архивные документы и многое другое, про которое можно сказать «залил и забыл». Они хранятся на диске помедленнее, за счет чего стоимость хранения в разы дешевле.

А именно 1 ГБ — 1 руб/мес

Плюс полностью бесплатный входящий трафик и 100 ГБ бесплатного исходящего в месяц. С платой за превышение последнего 1.5 руб/ГБ.

Также для холодного хранилища мы сделали гибкий конфигуратор бакетов. От 1 ГБ до 50 ТБ с шагом в 1 ГБ. Можно и больше, через менеджера.

«Охладить» свои данные в S3 →

Теги:
Всего голосов 7: ↑7 и ↓0+9
Комментарии0

Как работать с Apache Spark? Практический гайд (видео + материалы на GitHub)

В Сравни мы используем Apache Spark для загрузки сырых данных из источников.

У нас есть два вида загрузки:

  1. Batch-загрузка — когда данные грузятся один раз в какой-то период (час, день и так далее). Актуальна она, например, для данных по курсам валют: аналитикам достаточно знать курс валют на конкретный день, поэтому читаем раз в день данные по API с сайта ЦБ и грузим их в S3 (объектное хранилище) при помощи Python. Таких API достаточно много, они могут сильно различаться по количеству данных, поступающих с каждой. 

    Уже из S3 в Greenplum мы грузим все эти данные при помощи Spark. Фреймворк позволяет быстро трансформировать данные одновременно на нескольких машинах, так как все вычисления происходят в оперативной памяти.

  2. Потоковая загрузка, которая работает 24/7 (на то она и стриминг). Здесь мы имеем дело с данными, изменения в которых нам нужно видеть несколько раз в день. Данные в этом случае читаются из Kafka посредством Spark и сразу пишутся в Greenplum (параллельно скидываем файлы в S3, чтобы был бэкап).  

Порог входа в Spark выше, чем в SQL или Python, поскольку он требует знания и того, и другого. Плюс, когда начинаешь заниматься написанием трансформаций на Spark, возникают вопросы по оптимизации кода и правильной настройке ресурсов. Так как Spark — приложение, которое запускается на наших серверах, его надо уметь настраивать: примерно понимать, сколько потребуется выделить ядер процессора, оперативной памяти и количества executors (процессов для параллельной обработки).

Наш дата-инженер Евгений Виндюков полагает, что изучать Spark сразу с выделения ресурсов не стоит: лучше сперва научиться крутить таблички локально на одном компьютере. И только потом переходить на параллельную обработку на нескольких машинах.

Специально для тех, кто планирует ознакомиться с Apache Spark на практике, Евгений подготовил видео-гайд, который можно посмотреть здесь:

Плюс материалы на GitHub, чтобы вы могли не просто разобраться в Spark, но и запустить его на своём локальном ПК в режиме библиотеки или режиме кластера через docker compose.

Смотрите, изучайте, осваивайте Spark на практике. Надеемся, будет полезно!

Теги:
Всего голосов 6: ↑6 и ↓0+6
Комментарии0

🗓 07.02.1920 - Родился Ван Ань [вехи_истории]

🗓 07.02.1920 - Родился Ван Ань
🗓 07.02.1920 - Родился Ван Ань

Выдающийся американский инженер-электронщик и предприниматель китайского происхождения. Он стал известен своими достижениями в области компьютерных технологий. В 1951 году Ван запатентовал инновационную систему магнитной памяти, которая впоследствии стала ключевой технологией для первых компьютеров.

В 1957 году он основал Wang Laboratories, компанию, сыгравшую важную роль в развитии вычислительной техники. Под его руководством были созданы одни из первых компактных программируемых калькуляторов и текстовых процессоров, что сделало компьютеры доступнее для бизнеса и образования.

💙 Ставь лайк, если знаешь что такое "дискета" и даже применял их по назначению)
А еще они хорошо летают😄

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

Проекты на базе продуктов Arenadata стали победителями конкурса «Проект года»

Участники профессионального сообщества лидеров цифровой трансформации Global CIO подвели итоги ежегодного конкурса для ИТ-директоров и топ-менеджеров «Проект года». В этом году его провели уже в тринадцатый раз, а в числе победителей вошли проекты, реализованные на базе продуктов Arenadata. 

На конкурс номинировали 12 проектов с продуктами Arenadata. В номинации «Управление и хранение данных» победил проект «Корпоративная дата-платформа» ПАО «Газпром нефть», а в спецноминации «Банки/Финансы» — проект импортозамещения ИТ-инфраструктуры АО «Газпромбанк».

В конкурсе участвовали шесть проектов ПАО ВТБ, пять из которых стали победителями. Среди них: система прогнозирования процентного риска (ALM-платформа), RWA-калькулятор 2.0, импортозамещение витрин данных для ФОИВ, управление финансами на основе трансфертного ценообразования и система мотивации сети продаж и СМБ.

Подробнее о победивших проектах

Проект ПАО «Газпром нефть». Цель — создать единую платформу для работы с данными на базе отечественных решений, оптимизировать процесс обработки и анализа данных, повысить эффективность и снизить стоимость проектов за счёт использования общей инфраструктуры. Уникальность заключалась в построении единого конвейера, где всё базируется на общих бизнес- и технических метаданных. Использовались Arenadata DB (ADB) и Arenadata QuickMarts (ADQM).

Проект АО «Газпромбанк». Проект по импортозамещению ИТ-инфраструктуры и переводу значимых объектов критической информационной инфраструктуры на суверенные решения. Важными задачами стали сохранение высокого уровня удобства, доступности и безопасности цифровых услуг, а также формирование технологических стандартов для рынка. Обработка больших данных ведётся на базе продуктов Arenadata.

Главной целью проекта ПАО ВТБ «Реализация прогноза метрик процентного риска банковской книги в ALM-платформе» стала реализация системы сценарного анализа риск метрик в части процентного риска банковской книги, чистого процентного дохода, маржинальности банка. В качестве одного из элементов ALM-системы использован дистрибутив распределённой платформы хранения больших данных Arenadata Hadoop (ADH).

Другой проект ПАО ВТБ был посвящён импортозамещению продукта SAS RRM для корпоративного контура банка, SAS ECL для розничного бизнеса, Oracle Exadata в части автоматизации расчета RWA по кредитному риску и расчета резервов по МСФО ФЛ и разработке собственного решения. В качестве одного из продуктов для хранения данных была выбрана Arenadata DB.

В проекте «Импортозамещение витрин данных для ответов на запросы Федеральных Органов Исполнительной Власти (ФОИВ)» от ПАО ВТБ важной целью стало развитие ФОИВ и развитие слоя источника данных для предоставления ответов на запросы ведомства. В рамках проекта было перенесено 22 витрины с данными, начиная с 2017 года, по более чем 1300 атрибутам. Проектирование и построение витрин, а также ETL-процессы по их обновлению выполнены на Arenadata Hadoop и Arenadata DB.

Проект ПАО ВТБ «Управление финансами на основе трансфертного ценообразования» был направлен на формирование на импортозамещенном стеке технологий витрины данных по расчету внутреннего аналитического финансового результата. Это улучшило «time to market» по доступности данных на 2 рабочих дня и позволило глубже анализировать доходность банковских продуктов. Использованы Arenadata DB и Arenadata Hadoop.

Ещё один проект ВТБ — «Система мотивации Сети продаж и Стримов блока СМБ» (номинация «Управление маркетингом и продажами») — был направлен на внедрение автоматизированной системы работы с большими данными для новой модели продаж и обслуживания клиентов сегмента СМБ. В числе используемых технологий — Arenadata DB.

Подробнее о конкурсе «Проект года»

«Проект года» — ежегодный конкурс ИТ-проектов от Global CIO, ключевая площадка для обмена опытом в цифровизации. Среди победителей разных лет — проекты на базе Arenadata от «Газпром нефть», ВТБ, X5 Retail Group и других.

Теги:
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Я разверну этот мониторинг «с трех нот»: система для инсталляций с десятками СХД

Инженеры YADRO включили в состав продукта TATLIN.SATELLITES интегрированное решение для мониторинга — система получила название Monitoring Appliance. Она включает в себя компоненты для сбора и хранения метрик со множества массивов, а также их визуализацию и алертинг.

Возможности Monitoring Appliance

Система мониторинга, разворачиваемая из Docker Compose, может: 

  • Собрать метрики производительности компонентов СХД по протоколу SNMP.

  • Принять и обработать SNMP traps от СХД.

  • Принять и обработать Syslog-сообщения от СХД.

  • Мониторить состояние сервера, на котором установлен Monitoring Appliance.

  • Отображать данные мониторинга в виде дашбордов.

  • Оповещать о внештатных ситуациях и пороговых состояниях.

Главная страница визуализации мониторинг. На ней отображаются основные метрики «здоровья» систем хранения данных, на которых хочет сфокусироваться пользователь. Можно выбрать нужную СХД и получить данные конкретно по ней. Также этот дашборд легко пересобрать, исходя из своих целей. 

Дашборд на главной странице
Дашборд на главной странице

Из чего состоит мониторинг и как его повторить, читайте по ссылке →

Теги:
Всего голосов 1: ↑1 и ↓0+2
Комментарии0

Запустили ленточную систему хранения данных

В Рег.ру доступна новая услуга безопасного хранения данных — ленточная СХД. Решение позволяет хранить большие массивы данных объемом от десятков терабайт до нескольких петабайт и защитить информацию от кибератак и несанкционированного доступа. Сервис будет особенно полезен для размещения критичной информации с чувствительными данными.

Ленточное хранилище представляет собой устройство, записывающее информацию на специальные картриджи стандарта LTO с магнитной лентой. Информация на ленточных носителях может храниться до 30 лет без перезаписи. Каждый картридж вмещает от 10 до 40 терабайт данных.

Ленточная СХД обеспечивает высокую степень безопасности и изоляцию информации от киберугроз и сетевых атак. В отличие от традиционных облачных решений, где данные могут быть уязвимы для внешних вмешательств, ленточные носители физически не подключены к внешней сети, что значительно повышает защищенность и сохранность ИТ-инфраструктуры. При необходимости ленточную систему хранения можно подключить к серверу или облаку.

В рамках услуги пользователям в том числе доступны приватное хранилище с индивидуальными параметрами и ленточная библиотека, совмещающая устройство для записи и независимые ячейки для хранения нескольких десятков картриджей. 

Подключить ленточую СХД можно на сайте.

Теги:
Всего голосов 3: ↑3 и ↓0+4
Комментарии0

Вклад авторов