👉 А если хотите узнать больше о сервисах для работы с данными, спросите нашего AI-помощника в личном кабинете. Он расскажет обо всех нюансах и подберет подходящий вам вариант.
А что б не вспомнить такой носитель данных, как перфолента?
Вот смотрите: допустим, 5 мкм лавсан, потом 1 мкм алюминий и снова 5 мкм лавсан. УФ-лазер с механическим приводом перфорирует поперёк ленты дорожки с шагом, скажем, тот же 1 мкм (УФ может и лучше, но пока не будем пальцы гнуть). Поскольку механика позиционирует луч с точностью до «куда-то туда» — применяем старые добрые старт- и стоп-биты.
На ленте шириной в 5 мм мы легко пробьём 4096 бит, старты, стопы и ещё останется запас с краёв. А чтобы прочитать её значительно быстрее, чем мы это макраме вымучивали — берём линейную ПЗС-матрицу от сканера (разрешение 1×16384 или примерно того порядка), сканируем всю ширину ленты разом, ну и (ваш Кэп) просто её протягиваем. Перекосы головки чтения относительно головки записи решаются кольцевым буфером — там хранится несколько последних строчек и нет никаких проблем найти там реальное положение дорожек, я такие синхронизации за пучок пятачок делал, задача детская.
В результате наши 4 килобита на микрон дают 512 терабайт в габаритах кассеты C-90, минус Рид-Соломон. Если я, конечно, по причине крайней усталости в нулях не запутался. Вот такая вот перфоленточка…
В Облаке Рег.ру добавили управление политиками доступа в S3
В облачной платформе Рег.ру продолжаем развивать возможности объектного хранилища S3. Подготовили новый апдейт — теперь пользователи могут управлять политиками доступа к бакетам. Обновление особенно пригодится для работы с высоконагруженными задачами и над проектами, в которых важны усиленные требования к безопасности.
Ключевые обновления в S3:
индивидуальные политики для отдельных пользователей и сервисов;
ролевое управление доступом (с разделением по методам GET/PUT/POST/DELETE);
шаблоны для быстрой настройки;
20+ параметров для тонкой конфигурации.
Новый пакет обновлений в S3 логично дополняет возможность управления ключами доступа, подключенную еще в мае. Напомним, что тогда при работе с S3 пользователям облака стали доступны новые действия: создание, генерация, удаление.
Попробовать обновленные фичи в S3 уже можно на сайте.
В SpaceWeb расширили линейку облачных сервисов и подключили объектное хранилище S3. С новым сервисом можно работать напрямую из кода, CMS или через API. S3 не только хранит данные, но и снижает нагрузку на серверы, сохраняя контроль над данными, а также предлагает:
возможность шифрования;
гибкие механизмы управления доступом как на уровне бакетов, так и объектов;
безопасное хранение информации, независимо от объема данных.
Объектное хранилище S3 поможет, прежде всего, веб-разработчикам, для которых важны вопросы масштабирования и эффективного управления данными без использования сторонней инфраструктуры. Протестировать и заказать новый сервис можно на сайте.
Опыт сети гипермаркетов Hoff: перенести резервные копии данных в облако и оптимизировать затраты 🛒
Что за компания
Hoff — Home of furnishing — российская сеть гипермаркетов мебели и товаров для дома. 60 магазинов в разных форматах работают в крупных городах по всей России.
Какая была задача
У Hoff есть интернет-магазин и приложение, которые размещены в основном дата-центре. Компании были нужны резервные копии сайта и приложения на случай, если в работе локальной инфраструктуры произойдет сбой.
Основные требования Hoff к провайдеру и облачным ресурсам: отказоустойчивость, скорость реакции на запросы, круглосуточная связь с поддержкой, качество ответов и компетентность сотрудников.
Как ее решили
Вместо покупки дополнительных серверов и затрат на их содержание Hoff решила разместить копии в облаке. Так компания не только оптимизировала расходы на инфраструктуру, но и обеспечила непрерывную работу бизнеса.
Cloud.ru построила для Hoff инфраструктуру в Облаке VMware, подключила интернет-канал, настроила два выделенных канала связи, коммутацию и маршрутизацию сети, а еще предоставила доступ к API, чтобы автоматизировать процесс переключения между площадками.
Что в результате
В облаке развернута онлайн-реплика боевой площадки — она меньше по количеству вычислительных мощностей, но идентичная по данным и функционалу. При необходимости реплика мгновенно масштабируется по вычислительным мощностям в 10 раз (до 800 CPU, 2 TB RAM, 27 TB SSD), чтобы выдержать весь пользовательский трафик, который будет переключен с вышедшей из строя основной площадки.
особенности архитектуры сервиса: почему наше решение отказоустойчивое;
подтвержденные метрики: скорость работы и эффективность.
Также проведем демо, на котором покажем, как за минуту расширить дисковое пространство в Evolution Bare Metal.
Будет полезно разработчикам и IT-менеджерам, дата-инженерам и аналитикам данных, а также для всем, кто только задумывается о переезде в облако и хочет узнать больше про его возможности.
ITFB Group совместно с Nexign, Sber Tech и Arenadata приглашают на вебинар, посвященный теме Датацентричность как стратегический приоритет: какие ИТ-инструменты помогут бизнесу принимать обоснованные решения?
Когда: 10 июля, 11:00
Где: онлайн
В рамках вебинара вас ждет уникальный формат:
Экспертные доклады
Живой круглый стол
Что обсудим:
Лучшие российские платформы для управления данными (ETL, BI, BigData)
Практические кейсы внедрения от Nexign, Arenadata и СберТех
Как измерить ROI от дата-стратегии и ускорить цифровую трансформацию
Спикеры:
Дмитрий Лемеш (Nexign) – интеграция данных для бизнеса
Антон Близгарёв (Arenadata) – BigData без сложностей
Владимир Федосеев (СберТех) – аналитика на автомате Модератор: Николай Чекин (ITFB Group)
Для кого?
→ ИТ-директора и директора по данным → Руководители цифровой трансформации → Специалисты по работе с данными (ETL, DWH, BI)
В Облаке Рег.ру добавили образ NextCloud + OnlyOffice
Запустили удобное корпоративное хранилище для совместной работы с документами в Облаке Рег.ру. Набор офисных приложений OnlyOffice теперь также доступен в облаке — добавили предустановленный образ NextCloud + OnlyOffice. Обновленное облачное решение предлагает универсальную экосистему для совместной работы:
NextCloud подходит для хранения любых документов и файлов;
OnlyOffice позволяет редактировать документы и закрывает большинство стандартных задач пользователей.
Для заказа доступны облачные серверы во всех локациях. Минимальная конфигурация — 4 vCPU, 16 ГБ RAM, 40 ГБ диска.
Новый образ NextCloud 31 + OnlyOffice 5 уже можно тестировать на нашем сайте.
Как компания «Литрес» построила облачное аналитическое хранилище на базе КХД Cloud.ru и сократила время обработки и анализа данных 📚
Что за компания
Компания «Литрес», основанная в 2005 году, сегодня является лидером на рынке лицензионных электронных и аудиокниг в России и странах СНГ. Ежемесячная аудитория сервиса Литрес составляет 11 млн человек, которые скачивают более 2,7 млн книг в месяц.
Какая была задача
«Литрес» подошла к этапу, когда мощностей для быстрого расчета витрин для аналитики и отчетности перестало хватать, поскольку был накоплен значительный объем данных — около 6 ТБ. Компания решила разработать собственное хранилище — создать надежную и масштабируемую платформу для хранения и обработки больших объемов данных, что позволило бы оптимизировать бизнес-процессы и повысить эффективность работы.
Как ее решили
Изначально у нас было два варианта, как можно сделать большую аналитическую базу. Первый и самый очевидный — запустить Greenplum. Но для этого нужно было выделять серверы, оптимизировать решение, нанимать администраторов — это сложно и долго. В качестве второго варианта можно было закупить готовое решение у подрядчика, однако выяснилось, что поддержка такого решения при приемлемом уровне производительности стоит космических денег. В итоге в Cloud.ru нам предложили альтернативу — КХД — облачное корпоративное хранилище, которое дает возможность быстро обрабатывать огромные массивы данных из разных систем хранения и источников. Решение нас заинтересовало.
Кирилл Шевченко
Руководитель отдела разработки информационно-аналитических систем группы компаний «Литрес»
Чтобы понять, какое решение выгоднее и эффективнее, «Литрес» провели исследование и сравнили работу КХД, ClickHouse в облаке и локального ClickHouse компании. Результат — КХД лучше всего справился с поставленными задачами (например, обработка больших запросов на таблицах с JOIN заняла всего 20 минут).
Что в результате
Команда «Литрес» создала собственное хранилище на базе КХД Cloud.ru и в результате сократила время на обработку и анализ данных:
обновление всего хранилища занимает 40 минут вместо 3 часов,
среднее время выполнения процедур — 2 минуты вместо часа,
на обработку простого запроса при обновлении витрин хватает 5 секунд.
раньше на создание одной витрины требовалось несколько дней, а теперь можно создать3 витрины в день.
Как защитить данные без полных бэкапов: разбираем косвенную адресацию в СХД
Мгновенный снимок (снапшот) — это компактная с точки зрения дискового пространства копия данных, созданная в определенный момент времени. Снапшот способен моментально зафиксировать состояние тома, в отличие от резервной копии, создание которой при большом объеме данных может занять длительное время и требовать остановки записи для сохранения консистентности. Снапшот же не создает независимую копию данных, а лишь обеспечивает возможность обратиться к данным тома на момент создания снапшота.
В TATLIN.UNIFIED снапшоты создаются путем копирования карты блоков данных оригинального тома. Сами данные не копируются, поэтому снапшоты создаются очень быстро и не занимают дополнительного места в области данных.
Со временем в родительском томе заполняются новые блоки данных. Некоторые данные у родительского тома и снапшота начинают различаться, но данные, на которые уже ссылается снапшот, не перезаписываются и не освобождаются. Оригинальный физический блок данных считается занятым до тех пор, пока снапшот, который на него ссылается, не будет удален. После удаления снапшота блоки данных, которые он не разделял с другими ресурсами, освобождаются и могут быть использованы для последующих операций записи. Такой вариант реализации снапшотов называют Redirect-On-Write (RoW).
В своей статье Алексей Шушарин, главный эксперт по разработке ПО в департаменте СХД YADRO, подробно рассказал о снапшотах, клонах и всех процессах, связанных с косвенной адресацией. А также о том, как грамотно вписать эту функциональность в стек хранилища.
Работайте с большими данными в Evolution Data Platform 📊
❓ Что за инструмент? Evolution Data Platform — платформа для обработки больших данных, которая включает в себя несколько PaaS-сервисов. Среди них:
Evolution Managed Trino — массивно-параллельный аналитический SQL-движок Trino с использованием распределенных запросов.
Evolution Managed Metastore — сервис для хранения метаданных таблиц из разных источников. Metastore сообщает клиентским приложениям, где хранятся данные, как к ним обращаться и как их интерпретировать.
Evolution Managed Spark — сервис для развертывания кластерного вычислительного решения на основе Apache Spark для распределенной обработки данных.
Evolution Managed ArenadataDB — аналитическая база данных для хранения большого объема структурированных и полуструктурированных данных.
🖥 Особенности и преимущества. Вы можете выбрать любой сервис, который подходит под определенные задачи, или же комбинировать их. Из плюсов конкретных сервисов:
Evolution Managed Trino способен работать с разными источниками в одном SQL-запросе, есть несколько конфигураций Trino. А еще можно создать приватный инстанс, недоступный из интернета.
Evolution Managed Metastore прямо из интерфейса можно подключить к другим сервисам платформы Cloud.ru Evolution. Создание и обновление инстансов происходит за минуты, а данные для подключения к S3 — в безопасности, так как хранятся в сервисе Secret Management.
Evolution Managed Spark позволяет отслеживать статусы выполнения задач, обрабатывать данные из Object Storage, а также из большинства доступных БД.
Evolution Managed ArenadataDB дает возможность развертывать инстансы без обслуживания инфраструктуры, а кластеры Greenplum разворачиваются автоматически. Доступны конфигурации от 3 до 50 ТБ, что позволяет адаптировать систему под разные задачи.
👨💻 Кому будет полезно. PaaS-сервисы платформы Evolution Data Platform найдут применение во всех областях, где работают с большими объемами данных: финансовых учреждениях, ретейле, логистике, крупном и среднем бизнесе — и не только. Также сервисы будут полезны в машинном обучении и разработке.
✍️ Где, как и для чего использовать. Для обработки структурированных, слабоструктурированных и неструктурированных данных, SQL-аналитики, ML, хранения метаданных таблиц, отправки сложных запросов, проверки гипотез, A/B-тестирований, построения приложений данных, интерактивного специального анализа данных.
В июне Evolution Managed Trino и Evolution Managed Metastore выйдут в коммерческий доступ, а еще станут доступны для тестирования сервисы Evolution Managed Airflow и Evolution Managed BI. Смотрите доклад с конференции GoCloud 2025, чтобы больше узнать о PaaS-сервисах для работы с данными 🌐
В Облаке Рег.ру запустили услугу резервного копирования
Добавили в облачной платформе возможность автоматизированного создания, хранения и восстановления резервных копий. Этот релиз — первый шаг по запуску полноценного Backup as a Service в Облаке Рег.ру.
Что внутри нового сервиса:
настройка расписания бэкапов и снапшотов;
удаленное хранение бэкапа;
восстановление сервера до нужного состояния, если возникнет такая необходимость;
создание снапшотов.
Теперь пользователи могут сами настраивать политику хранения бэкапа — от ежемесячной до ежедневной. На случай локальных сбоев предусмотрели защиту от потери данных — консистентные резервные копии хранятся в удаленном объектном хранилище S3. Отсюда и повышенная катастрофоустойчивость инфраструктуры пользователей в целом. Тарификация происходит по модели pay-as-you-go за фактический объем хранения.
Храните и обрабатывайте данные в аналитической базе данных Evolution Managed ArenadataDB 🗄️
❓ Что за сервис?Evolution Managed ArenadataDB — аналитическая БД, которая поможет с хранением и обработкой структурированных и полуструктурированных данных. ArenadataDB развернута на базе open source СУБД Greenplum, а в основе лежит архитектура MPP. Это позволяет быстро и эффективно работать с большим объемом данных, в том числе в критически важных системах.
🖥 Особенности и преимущества. С Evolution Managed ArenadataDB можно развертывать инстансы без привлечения инженеров и обслуживания инфраструктуры, кластеры Greenplum разворачиваются автоматически. Конфигурации от 3 до 50 ТБ позволяют адаптировать систему под разные задачи, а высокая доступность (SLA 99,7%) гарантирует надежную работу.
ADB способна обрабатывать сложные SQL-запросы. Сервис предлагает надежные инструменты для резервного копирования и восстановления данных, включая полное и дифференциальное резервное копирование, а также восстановление на момент времени. Есть возможность создать приватный инстанс, недоступный из интернета.
👨💻 Кому будет полезно. Финансовым и страховым организациям, ретейлу, логистике, бизнесу и любым другим отраслям, где важна работа с большими объемами данных. Также сервис будет полезен в научно-исследовательских учреждениях и компаниях, занимающихся разработкой искусственного интеллекта, машинным обучением.
✍️ Где, как и для чего использовать. Evolution Managed ArenadataDB подойдет, чтобы создавать корпоративные хранилища данных для бизнес-аналитики и отчетности. Сервис позволяет анализировать и прогнозировать действия клиентов, сегментировать аудиторию, персонализировать акции. Еще можно хранить и обрабатывать большие объемы данных для работы с AI и ML, быстро выполнять сложные аналитические запросы.
Перед тем как пойти в новое место, многие лезут в отзывы. Казалось бы — обычное дело. Но что, если я скажу, что ваш безобидный отзыв на шаурму у метро может раскрыть о вас гораздо больше, чем вы думаете?
Сегодня разберём, почему стоит дважды подумать, прежде чем писать отзывы, если вам важна приватность. И заодно — как эти отзывы могут использовать злоумышленники.
Причем здесь 2GIS? В приложении у каждого авторизованного пользователя есть профиль, на который можно подписаться и следить за всеми отзывами. Многие думают: «Ну и что? Я же под ником "Аноним Анонимов"!»
Но вот в чём подвох: ➜ Если кто-то добавит ваш номер телефона в контакты, 2GIS подсветит ваш профиль — со всеми отзывами, фотками и активностью.
Что можно узнать из ваших отзывов? 1️⃣ Интересы — кафе, бары, магазины, кинотеатры… Всё, что вы оцениваете, рисует ваш цифровой портрет. 2️⃣ Место жительства — некоторые пишут отзывы на свои ЖК, ТЦ рядом с домом и даже на подъезды. 3️⃣ Круг общения — если вы и ваши друзья ходите в одни и те же места и оставляете отзывы, связь легко отследить. 4️⃣ Фотографии — машина, питомец, случайно попавшие в кадр документы… Мелочи, которые могут стоить дорого.
Вывод
Интернет ничего не забывает. Даже невинный отзыв может стать кусочком пазла, который сложит вашу жизнь перед злоумышленником.
Больше контента в моем авторском telegram-канале: https://t.me/ru_vm (BritLab)
Хранилище для данных или катастрофа на миллион строк? Видео-гайд по оптимизации запросов в Greenplum
Немного про нашу data-реальность в Сравни: мы используем Greenplum как аналитическую платформу для обработки терабайтов данных — пользовательских, продуктовых и маркетинговых. Это не просто хранилище, но один из основополагающих инструментов для команды DWH и аналитиков.
О применении Greenplum на практике наш дата-инженер Владимир Шустиков выпустил трилогию обучающих видео. С их помощью можно ознакомиться с азами самой БД и узнать, как дата-инженеры Сравни переписывают запросы для более высокой эффективности.
Если интересуетесь в целом Greenplum и вопросом оптимизации запросов в частности — вот все три выпуска гайда!
Видео о сути и архитектуре GP, основных понятиях и возможностях (реплицирование сегментов, дистрибуция, партицирование, индексы, загрузка и выгрузка данных, оптимизация запросов).
Как добиться надежности, гибкости и экономии в условиях растущих объемов данных? Расскажем на вебинаре.
📆 Когда: 29 мая в 11:00 мск
📍 Где: онлайн
В условиях стремительного роста объема информации возникают требования к использованию новых подходов к управлению и защите данных. Но облачные технологии меняют правила игры. На вебинаре вы узнаете, как перенести операционные расходы по управлению данными на облачных провайдеров, оптимизируя процессы резервного копирования и аварийного восстановления.
В программе:
что такое резервное копирование и аварийное восстановление: отличия и необходимость в разных сценариях;
важность резервного копирования и аварийного восстановления в рамках концепции непрерывности данных;
причины использовать облако для обеспечения непрерывности данных;
дополнительные концепты для защиты информации;
демо: как настроить резервное копирование и аварийное восстановление в облаке.
Вебинар будет полезен всем, кого волнует обеспечение непрерывности и отказоустойчивости бизнеса: IT-директорам, системным администраторам, инженерам и архитекторам инфраструктуры.
BI-проекты: 5 причин, почему они выходят за рамки бюджета (и как этого избежать)
Если вы хоть раз участвовали во внедрении BI-системы — знаете, как легко проект может уйти не туда: – бюджет трещит по швам, – сроки съедены интеграцией и доработками, – пользователи по-прежнему делают аналитику в Excel.
Мы в GlowByte собрали в статье практический разбор типичных ошибок, которые чаще всего приводят к перерасходу бюджета и снижению отдачи от BI-проектов.
Плюс: даём самодиагностический чек-лист и PDF-гайд, где перечислены все организационные, финансовые и технические риски BI-проектов.
Мы официально преодолели отметку в 1 500 000 000 объектов. Представьте: если бы каждый пятый житель планеты загрузил по одному файлу — получили бы такую же цифру. Или все статьи с русской Википедии решили сохранить 750 раз.
Наше S3 — это:
➖ хранение любых файлов: от картинок и документов до логов и бэкапов ➖ тройная репликация данных ➖ защищенное соединение ➖ безграничное масштабирование: сколько нужно бакетов, столько и будет ➖ два класса хранения: стандартное и «холодное»
Совсем скоро доедут еще два крутых апдейта — работа с доп пользователями и упрощенная загрузка статических сайтов прямо из панели. Stay tuned!
На пределе железа: протестировали резервное копирование 32 виртуальных машин с дедупликацией «на лету»
Один из сценариев тестирования СХД TATLIN.BACKUP и СРК Кибер Бэкап, в котором резервное копирование производилось с inline-дедупликацией внутри каждой ВМ.
В каждую из 32 виртуальных машин установлены агенты Кибер Бэкапа, а также агенты Tboost, протокола дедупликации в TATLIN.BACKUP. Каждый агент сохраняет резервную копию в локальную папку, подключенную к целевому хранилищу через протокол T‑BOOST (точка монтирования /mnt/esxboost). В качестве хранилища резервных копий в Кибер Бэкапе указано 32 хранилища — по числу ВМ.
Чтение на источнике TATLIN.UNIFIED
График показывает, что мы достигли ограничений оборудования: пропускной способности четырех портов Ethernet по 25 Гбит/с, через которые подключен диск TATLIN.UNIFIED к хостам виртуализации.
Совокупный объем данных, переданных Кибер Бэкапом для полного резервного копирования всех ВМ, составил ~ 4 192 ГБ (32 × 131 ГБ). Параллельно выполнялись 32 операции резервного копирования. Время выполнения операций — от 8 до 11 минут.
Про совместное использование TATLIN.BACKUP и Кибер Бэкапа читайте в статье с результатами тестирования трех сценариев резервного копирования 32 виртуальных машин.
🏖 Рассказываем про миграционные каникулы для данных в Selectel
Сейчас многие компании заняты реорганизацией своей инфраструктуры. Миграция данных устроена так, что бизнес вынужден платить несколько раз:
за исходное хранилище данных,
за трафик при переносе данных,
за запросы в целевое хранилище,
за объем целевого хранилища.
Чтобы помочь компаниям сократить затраты, мы проводим миграционные каникулы для переноса данных в объектное хранилище.
Миграционные каникулы позволяют не оплачивать запросы и хранение 30 дней с момента одобрения заявки. Этот период полностью покрывает время на подготовительные работы и снижает нагрузку на бизнес.
Наше хранилище поддерживает точки присутствия в Москве и Санкт-Петербурге. Вы можете распределять данные между разными географическими зонами, повышая катастрофоустойчивость инфраструктуры.