Как стать автором
Обновить
65.85

Хранилища данных *

Публикации, рассказывающие о хранилищах данных

Сначала показывать
Порог рейтинга

Как защитить данные без полных бэкапов: разбираем косвенную адресацию в СХД

Мгновенный снимок (снапшот) — это компактная с точки зрения дискового пространства копия данных, созданная в определенный момент времени. Снапшот способен моментально зафиксировать состояние тома, в отличие от резервной копии, создание которой при большом объеме данных может занять длительное время и требовать остановки записи для сохранения консистентности. Снапшот же не создает независимую копию данных, а лишь обеспечивает возможность обратиться к данным тома на момент создания снапшота.

В TATLIN.UNIFIED снапшоты создаются путем копирования карты блоков данных оригинального тома. Сами данные не копируются, поэтому снапшоты создаются очень быстро и не занимают дополнительного места в области данных.

Со временем в родительском томе заполняются новые блоки данных. Некоторые данные у родительского тома и снапшота начинают различаться, но данные, на которые уже ссылается снапшот, не перезаписываются и не освобождаются. Оригинальный физический блок данных считается занятым до тех пор, пока снапшот, который на него ссылается, не будет удален. После удаления снапшота блоки данных, которые он не разделял с другими ресурсами, освобождаются и могут быть использованы для последующих операций записи. Такой вариант реализации снапшотов называют Redirect-On-Write (RoW).

В своей статье Алексей Шушарин, главный эксперт по разработке ПО в департаменте СХД YADRO, подробно рассказал о снапшотах, клонах и всех процессах, связанных с косвенной адресацией. А также о том, как грамотно вписать эту функциональность в стек хранилища.

Теги:
0
Комментарии0

Хранилище для данных или катастрофа на миллион строк? Видео-гайд по оптимизации запросов в Greenplum

Немного про нашу data-реальность в Сравни: мы используем Greenplum как аналитическую платформу для обработки терабайтов данных — пользовательских, продуктовых и маркетинговых. Это не просто хранилище, но один из основополагающих инструментов для команды DWH и аналитиков. 

О применении Greenplum на практике наш дата-инженер Владимир Шустиков выпустил трилогию обучающих видео. С их помощью можно ознакомиться с азами самой БД и узнать, как дата-инженеры Сравни переписывают запросы для более высокой эффективности.

Если интересуетесь в целом Greenplum и вопросом оптимизации запросов в частности — вот все три выпуска гайда!

1. Greenplum. Что такое и как работает?

Видео о сути и архитектуре GP, основных понятиях и возможностях (реплицирование сегментов, дистрибуция, партицирование, индексы, загрузка и выгрузка данных, оптимизация запросов).

2. Простая оптимизация запросов в GreenPlum (+ кейсы)

Автор отвечает на вопрос, как именно стоит оптимизировать запросы в GP и на что обращать внимание.

3. Кейс оптимизации запроса в GreenPlum 

Автор разбирает реальный кейс из практики Сравни, в котором применяются подходы и техники из видео №2.

Предыдущий видео-цикл Владимира, о самых распространенных вопросах на собеседованиях по SQL (с ответами!), доступен в этом посте.

Также ранее мы провели курс лекций в Бауманке: рассказали о техниках оптимизации аналитических SQL-запросов. Видео — здесь.

ТГ-канал инженерного сообщества Sravni Tech

Теги:
+2
Комментарии0

BI-проекты: 5 причин, почему они выходят за рамки бюджета (и как этого избежать)

Если вы хоть раз участвовали во внедрении BI-системы — знаете, как легко проект может уйти не туда:
– бюджет трещит по швам,
– сроки съедены интеграцией и доработками,
– пользователи по-прежнему делают аналитику в Excel.

Мы в GlowByte собрали в статье практический разбор типичных ошибок, которые чаще всего приводят к перерасходу бюджета и снижению отдачи от BI-проектов.

Плюс: даём самодиагностический чек-лист и PDF-гайд, где перечислены все организационные, финансовые и технические риски BI-проектов.

Заходите почитать! Статья здесь → Скрытая стоимость BI: что не учитывают 8 из 10 компаний при внедрении аналитических систем.

Теги:
+1
Комментарии0

Мы официально преодолели отметку в 1 500 000 000 объектов. Представьте: если бы каждый пятый житель планеты загрузил по одному файлу — получили бы такую же цифру. Или все статьи с русской Википедии решили сохранить 750 раз.

Наше S3 — это:

➖ хранение любых файлов: от картинок и документов до логов и бэкапов
➖ тройная репликация данных
➖ защищенное соединение
➖ безграничное масштабирование: сколько нужно бакетов, столько и будет
➖ два класса хранения: стандартное и «холодное»

Совсем скоро доедут еще два крутых апдейта — работа с доп пользователями и упрощенная загрузка статических сайтов прямо из панели. Stay tuned!

Загрузить файлы в бакет →

Теги:
Всего голосов 8: ↑8 и ↓0+11
Комментарии3

На пределе железа: протестировали резервное копирование 32 виртуальных машин с дедупликацией «на лету»

Один из сценариев тестирования СХД TATLIN.BACKUP и СРК Кибер Бэкап, в котором резервное копирование производилось с inline-дедупликацией внутри каждой ВМ.

В каждую из 32 виртуальных машин установлены агенты Кибер Бэкапа, а также агенты Tboost, протокола дедупликации в TATLIN.BACKUP. Каждый агент сохраняет резервную копию в локальную папку, подключенную к целевому хранилищу через протокол T‑BOOST (точка монтирования /mnt/esxboost)​. В качестве хранилища резервных копий в Кибер Бэкапе указано 32 хранилища — по числу ВМ.

Чтение на источнике TATLIN.UNIFIED
Чтение на источнике TATLIN.UNIFIED

График показывает, что мы достигли ограничений оборудования: пропускной способности четырех портов Ethernet по 25 Гбит/с, через которые подключен диск TATLIN.UNIFIED к хостам виртуализации. 

Совокупный объем данных, переданных Кибер Бэкапом для полного резервного копирования всех ВМ, составил ~ 4 192 ГБ (32 × 131 ГБ). Параллельно выполнялись 32 операции резервного копирования. Время выполнения операций — от 8 до 11 минут.

Про совместное использование TATLIN.BACKUP и Кибер Бэкапа читайте в статье с результатами тестирования трех сценариев резервного копирования 32 виртуальных машин.

Теги:
Всего голосов 3: ↑3 и ↓0+4
Комментарии0

🏖 Рассказываем про миграционные каникулы для данных в Selectel

Сейчас многие компании заняты реорганизацией своей инфраструктуры. Миграция данных устроена так, что бизнес вынужден платить несколько раз:

  • за исходное хранилище данных,

  • за трафик при переносе данных,

  • за запросы в целевое хранилище,

  • за объем целевого хранилища.

Чтобы помочь компаниям сократить затраты, мы проводим миграционные каникулы для переноса данных в объектное хранилище.

Миграционные каникулы позволяют не оплачивать запросы и хранение 30 дней с момента одобрения заявки. Этот период полностью покрывает время на подготовительные работы и снижает нагрузку на бизнес.

Наше хранилище поддерживает точки присутствия в Москве и Санкт-Петербурге. Вы можете распределять данные между разными географическими зонами, повышая катастрофоустойчивость инфраструктуры.

Участвовать просто: достаточно подать заявку на сайте.

Условия каникул подходят клиентам, которые не использовали объектное хранилище Selectel ранее. 

Теги:
Всего голосов 4: ↑4 и ↓0+5
Комментарии0

Как сохранить данные в S3 при работе с Evolution Container Apps — расскажем на конференции GoCloud 2025 ☁️

Покажу, как запустить ваши приложения в два клика, при этом сэкономив ресурсы, и как управлять важными данными с помощью S3. Все это на примере сервиса, работающего со статическим контентом.

Никита Корольков — менеджер продукта в Cloud.ru 

Трек:  Инфраструктура и сервисы — про новые и популярные инструменты платформы Cloud.ru Evolution и то, как они помогают в решении задач.

📅 Когда: 10 апреля в 15:35 мск

👉 Зарегистрироваться

А еще, пока ждете выступление, можно почитать в нашем блоге по теме: Запускаем приложения в облаке с помощью Evolution Container Apps и Evolution Artifact Registry.

Теги:
Рейтинг0
Комментарии0

Как оптимизировать расходы на резервное копирование

10 апреля в 13:00 подключайтесь к вебинару, где специалисты YADRO и Киберпротект расскажут об эффективном использовании системы резервного копирования (СРК) в связке с системой хранения данных (СХД). СРК занимается резервным копированием и восстановлением данных, а СХД — их надежным хранением, компрессией и дедупликацией. 

В прямом эфире вы сможете:

  • узнать о возможностях СРК Кибер Бэкап и СХД TATLIN.BACKUP,

  • выбрать подходящий сценарий их совместного использования,

  • посмотреть в реальном времени, как происходит резервное копирование средствами Кибер Бэкапа на TATLIN.BACKUP с помощью T-BOOST,

  • задать вопросы экспертам.

Одной из тем вебинара станет технология T-BOOST. Она позволяет выполнять дедупликацию данных на источнике: защищенном хосте или узле хранения Кибер Бэкапа. После дедупликации в хранилище передаются только уникальные данные. Это позволяет минимизировать объем передаваемых данных (снизить нагрузку на сеть) и ускорить резервное копирование.

Принять участие в вебинаре →

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии0

Какие проблемы решает алгоритм FastCDC при дедупликации данных

FastCDC — это алгоритм разбиения данных на блоки переменной длины (Content Defined Chunking, CDC). В отличие от нарезки с фиксированной длиной блока, FastCDC решает проблему смещения границ (boundary-shift problem), которая возникает при вставке новых данных в файл. Например, если в начало файла добавить байт, то при использовании разбиения с фиксированной длиной все последующие блоки изменятся.

Алгоритмы с переменной длиной блока, такие как FastCDC, устраняют эту проблему, поскольку устанавливают границы блоков на основе содержимого данных, используя хеш-функцию для определения неких избранных последовательностей байтов. Впрочем, если байт будет добавлен в середину какого-то блока, то этот блок будет потерян, а граница будет корректно определена уже для следующего от него блока.

FastCDC выделяется среди других алгоритмов высокой скоростью обработки потока байтов. Основная вычислительная нагрузка на систему создается операциями разбиения данных на блоки и их сжатия, поэтому оптимизация алгоритма разбиения напрямую влияет на общую производительность.

Основная идея FastCDC заключается в следующем: среди всех возможных последовательностей байтов (множество A) выделяется подмножество B. Когда в файле обнаруживается последовательность из множества B, алгоритм устанавливает границу блока (anchor) сразу после этой последовательности.

Так как хранение подмножества B напрямую невозможно из-за огромного количества возможных последовательностей, используется хеш-функция. Она преобразует каждую последовательность байтов в числовое значение, которое определяет класс этой последовательности. 

После нахождения опорного байта (anchor) алгоритм проверяет, удовлетворяет ли он дополнительным условиям. Например, FastCDC не создаст новый блок, если точка находится слишком близко к границе предыдущего блока и минимальный размер блока еще не достигнут. Если опорные байты не найдены, система отрежет блок по его максимально допустимому размеру. 

Добавление всего одного нового байта 0 сдвигает все предыдущие байты вправо, что приводит к изменению содержимого каждого блока:

Эксперт по разработке ПО отдела систем обработки данных в YADRO Ростислав Ефремов в статье подробно объяснил, что такое дедупликация данных, какую роль она играет в системах резервного копирования и как работает в СХД TATLIN.BACKUP

Теги:
Всего голосов 3: ↑3 и ↓0+5
Комментарии0

Радио-серфинг: как исследовать короткие волны без спецоборудования

http://websdr.ewi.utwente.nl:8901/

В университете Твенте [1] есть коротковолновый приемник, к которому можно подключиться через обычный браузер [ссылка] и исследовать ответы тысяч радиостанций по всему миру (в режиме реального времени).

С помощью ресурса можно:
1️⃣ Слушать радиолюбительские передачи, авиационные каналы, морскую связь и многое другое
2️⃣ Исследовать разные частоты и находить интересные сигналы
3️⃣ Делать записи эфиров, чтобы потом прогонять их через декодеры
4️⃣ Погрузиться в мир радио, даже если у вас нет собственного оборудования

Этот ресурс — настоящий портал в мир радио. Даже если вы, как и я, не станете радиолюбителем, это отличный способ узнать что-то новое.

Вот несколько интересных частот с которых можно начать:
🇳🇱 1008.00 кГц — Radio Twenty Gold (Нидерланды)
🇷🇺 4625.00 кГц — легендарная "Жужжалка" (УВБ-76). Загадочный сигнал, о котором ходят легенды. Подробнее можно почитать здесь (https://www.rbc.ru/base/18/12/2024/6762bb5c9a7947e14d132352)
🇫🇷 9790.00 кГц — Radio France
🇷🇴11930 кГц — Radio Romania International

Если вам понравился пост и вы хотите узнавать больше о подобных инструментах, то можете подписаться на мой авторский Telegram-канал!

P.S. ещё на ресурсе есть онлайн чат, в котором вы можете общаться с другими радиолюбителями

Теги:
Всего голосов 6: ↑6 и ↓0+7
Комментарии1

13 марта 16:00 CET (18:00 Мск) Андрей Квапил, более известный в инженерном сообществе как @kvaps будет травить байки о том, как правильно готовить LINSTOR и Talos Linux — на этот раз на комьюнити-мите LINBIT (создатели LINSTOR и DRBD). Основано на реальных событиях, приключившихся в Cozystack:)

Программа комьюнити-мита:

  • Andrei Kvapil: LINSTOR on Talos Linux: A robust base for Cozystack

  • Joel Colledge: DRBD resync without replication

  • Johannes Khoshnazar-Thoma: WinDRBD 1.2 news

Присоединяйтесь к трансляции:

Кроме того, будем транслировать встречу в телеграм-чате @drbd_ru.

Теги:
Рейтинг0
Комментарии0

Как работает современный RAID-массив: разбираем реализацию YADRO

Чтобы обеспечить доступность данных, T-RAID решает определенный набор задач.

Построение пула хранения на несколько петабайт. Эту возможность обеспечивает архитектура T-RAID: схемы расположения данных, реализация страйпов и allocation-групп дисков.

Оптимизация ребилда дисков и нагрузки на них. T-RAID проводит ребилд только реальных данных, а также распределяет нагрузку ребилда на несколько дисков. Здесь задействована обработка ошибок через блоки, а также фоновые процессы recovery и balancer. В распределении нагрузки помогает фоновый воркер rate limiter и адаптивный троттлер фоновых процессов.

Защита от выхода из строя аппаратных компонентов СХД (процессора, материнской платы, блока питания, контроллера, системного диска). Достигается посредством двухконтроллерной работы в режиме active-active. Тома блоков доступны на запись и чтение одновременно с двух контроллеров при балансировке нагрузки к лунам. Реализацию active-active мы раскроем в отдельной части материала.

Обеспечение отказоустойчивой работы с самими данными от получения запроса до записи в диск. Это реализуется с помощью integrity-механизмов.

Отработка отказов оборудования. Здесь возможно несколько сценариев разного масштаба — от потери отдельного диска до потери целого контроллера или интерконнекта.

О том, как в T-RAID реализованы все перечисленные технические средства, в своей статье подробно рассказал Вячеслав Пачков, ведущий инженер по разработке ПО в департаменте СХД YADRO.

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии0

Горячая новость про холодное хранилище 🧊

Добавили «холодный» класс хранения данных в S3. Теперь их два — стандартный и, собственно, холодный. Разбираемся что к чему👇

Стандартное хранение подходит для данных, которые нужны здесь и сейчас. Например, операции биллинга, логи для аналитики в реалтайме, медиафайлы для стриминговых сервисов и др. Поэтому база этого хранения — быстрый диск.

Для данных, к которым вы обращаетесь редко, подойдет холодное хранение. Например, чтобы складывать туда резервные копии, архивные документы и многое другое, про которое можно сказать «залил и забыл». Они хранятся на диске помедленнее, за счет чего стоимость хранения в разы дешевле.

А именно 1 ГБ — 1 руб/мес

Плюс полностью бесплатный входящий трафик и 100 ГБ бесплатного исходящего в месяц. С платой за превышение последнего 1.5 руб/ГБ.

Также для холодного хранилища мы сделали гибкий конфигуратор бакетов. От 1 ГБ до 50 ТБ с шагом в 1 ГБ. Можно и больше, через менеджера.

«Охладить» свои данные в S3 →

Теги:
Всего голосов 7: ↑7 и ↓0+9
Комментарии0

Ближайшие события

Как работать с Apache Spark? Практический гайд (видео + материалы на GitHub)

В Сравни мы используем Apache Spark для загрузки сырых данных из источников.

У нас есть два вида загрузки:

  1. Batch-загрузка — когда данные грузятся один раз в какой-то период (час, день и так далее). Актуальна она, например, для данных по курсам валют: аналитикам достаточно знать курс валют на конкретный день, поэтому читаем раз в день данные по API с сайта ЦБ и грузим их в S3 (объектное хранилище) при помощи Python. Таких API достаточно много, они могут сильно различаться по количеству данных, поступающих с каждой. 

    Уже из S3 в Greenplum мы грузим все эти данные при помощи Spark. Фреймворк позволяет быстро трансформировать данные одновременно на нескольких машинах, так как все вычисления происходят в оперативной памяти.

  2. Потоковая загрузка, которая работает 24/7 (на то она и стриминг). Здесь мы имеем дело с данными, изменения в которых нам нужно видеть несколько раз в день. Данные в этом случае читаются из Kafka посредством Spark и сразу пишутся в Greenplum (параллельно скидываем файлы в S3, чтобы был бэкап).  

Порог входа в Spark выше, чем в SQL или Python, поскольку он требует знания и того, и другого. Плюс, когда начинаешь заниматься написанием трансформаций на Spark, возникают вопросы по оптимизации кода и правильной настройке ресурсов. Так как Spark — приложение, которое запускается на наших серверах, его надо уметь настраивать: примерно понимать, сколько потребуется выделить ядер процессора, оперативной памяти и количества executors (процессов для параллельной обработки).

Наш дата-инженер Евгений Виндюков полагает, что изучать Spark сразу с выделения ресурсов не стоит: лучше сперва научиться крутить таблички локально на одном компьютере. И только потом переходить на параллельную обработку на нескольких машинах.

Специально для тех, кто планирует ознакомиться с Apache Spark на практике, Евгений подготовил видео-гайд, который можно посмотреть здесь:

Плюс материалы на GitHub, чтобы вы могли не просто разобраться в Spark, но и запустить его на своём локальном ПК в режиме библиотеки или режиме кластера через docker compose.

Смотрите, изучайте, осваивайте Spark на практике. Надеемся, будет полезно!

Теги:
Всего голосов 6: ↑6 и ↓0+6
Комментарии0

🗓 07.02.1920 - Родился Ван Ань [вехи_истории]

🗓 07.02.1920 - Родился Ван Ань
🗓 07.02.1920 - Родился Ван Ань

Выдающийся американский инженер-электронщик и предприниматель китайского происхождения. Он стал известен своими достижениями в области компьютерных технологий. В 1951 году Ван запатентовал инновационную систему магнитной памяти, которая впоследствии стала ключевой технологией для первых компьютеров.

В 1957 году он основал Wang Laboratories, компанию, сыгравшую важную роль в развитии вычислительной техники. Под его руководством были созданы одни из первых компактных программируемых калькуляторов и текстовых процессоров, что сделало компьютеры доступнее для бизнеса и образования.

💙 Ставь лайк, если знаешь что такое "дискета" и даже применял их по назначению)
А еще они хорошо летают😄

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

Проекты на базе продуктов Arenadata стали победителями конкурса «Проект года»

Участники профессионального сообщества лидеров цифровой трансформации Global CIO подвели итоги ежегодного конкурса для ИТ-директоров и топ-менеджеров «Проект года». В этом году его провели уже в тринадцатый раз, а в числе победителей вошли проекты, реализованные на базе продуктов Arenadata. 

На конкурс номинировали 12 проектов с продуктами Arenadata. В номинации «Управление и хранение данных» победил проект «Корпоративная дата-платформа» ПАО «Газпром нефть», а в спецноминации «Банки/Финансы» — проект импортозамещения ИТ-инфраструктуры АО «Газпромбанк».

В конкурсе участвовали шесть проектов ПАО ВТБ, пять из которых стали победителями. Среди них: система прогнозирования процентного риска (ALM-платформа), RWA-калькулятор 2.0, импортозамещение витрин данных для ФОИВ, управление финансами на основе трансфертного ценообразования и система мотивации сети продаж и СМБ.

Подробнее о победивших проектах

Проект ПАО «Газпром нефть». Цель — создать единую платформу для работы с данными на базе отечественных решений, оптимизировать процесс обработки и анализа данных, повысить эффективность и снизить стоимость проектов за счёт использования общей инфраструктуры. Уникальность заключалась в построении единого конвейера, где всё базируется на общих бизнес- и технических метаданных. Использовались Arenadata DB (ADB) и Arenadata QuickMarts (ADQM).

Проект АО «Газпромбанк». Проект по импортозамещению ИТ-инфраструктуры и переводу значимых объектов критической информационной инфраструктуры на суверенные решения. Важными задачами стали сохранение высокого уровня удобства, доступности и безопасности цифровых услуг, а также формирование технологических стандартов для рынка. Обработка больших данных ведётся на базе продуктов Arenadata.

Главной целью проекта ПАО ВТБ «Реализация прогноза метрик процентного риска банковской книги в ALM-платформе» стала реализация системы сценарного анализа риск метрик в части процентного риска банковской книги, чистого процентного дохода, маржинальности банка. В качестве одного из элементов ALM-системы использован дистрибутив распределённой платформы хранения больших данных Arenadata Hadoop (ADH).

Другой проект ПАО ВТБ был посвящён импортозамещению продукта SAS RRM для корпоративного контура банка, SAS ECL для розничного бизнеса, Oracle Exadata в части автоматизации расчета RWA по кредитному риску и расчета резервов по МСФО ФЛ и разработке собственного решения. В качестве одного из продуктов для хранения данных была выбрана Arenadata DB.

В проекте «Импортозамещение витрин данных для ответов на запросы Федеральных Органов Исполнительной Власти (ФОИВ)» от ПАО ВТБ важной целью стало развитие ФОИВ и развитие слоя источника данных для предоставления ответов на запросы ведомства. В рамках проекта было перенесено 22 витрины с данными, начиная с 2017 года, по более чем 1300 атрибутам. Проектирование и построение витрин, а также ETL-процессы по их обновлению выполнены на Arenadata Hadoop и Arenadata DB.

Проект ПАО ВТБ «Управление финансами на основе трансфертного ценообразования» был направлен на формирование на импортозамещенном стеке технологий витрины данных по расчету внутреннего аналитического финансового результата. Это улучшило «time to market» по доступности данных на 2 рабочих дня и позволило глубже анализировать доходность банковских продуктов. Использованы Arenadata DB и Arenadata Hadoop.

Ещё один проект ВТБ — «Система мотивации Сети продаж и Стримов блока СМБ» (номинация «Управление маркетингом и продажами») — был направлен на внедрение автоматизированной системы работы с большими данными для новой модели продаж и обслуживания клиентов сегмента СМБ. В числе используемых технологий — Arenadata DB.

Подробнее о конкурсе «Проект года»

«Проект года» — ежегодный конкурс ИТ-проектов от Global CIO, ключевая площадка для обмена опытом в цифровизации. Среди победителей разных лет — проекты на базе Arenadata от «Газпром нефть», ВТБ, X5 Retail Group и других.

Теги:
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Приглашаем на бесплатный вебинар «Как построить домик у озера данных: табличные форматы Iceberg, Delta, Hudi».

В современном мире данных Data Lakehouse становится все более популярной архитектурой, объединяющей масштабируемость и экономичность озера данных с надежностью и производительностью хранилища данных. Ключевой элемент построения Data Lakehouse — выбор подходящего табличного формата. 

Вебинар посвящен трем ведущим форматам: Apache Iceberg, Delta Lake и Apache Hudi. Мы рассмотрим их архитектуру, особенности, плюсы и минусы, а также дадим рекомендации по выбору оптимального решения для конкретных задач. 

📅 Дата: 23.01.2025

Время: 15:00-16:00 (Мск)

Эфир будет полезен начинающим и опытным специалистам в области обработки данных, желающих построить современную и эффективную платформу для работы с большими объемами данных.

👨‍🎓 Спикер: Брейман Александр — эксперт Учебного центра IBS, кандидат технических наук, доцент департамента программной инженерии ФКН ВШЭ.

👉Записаться👈

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Новых нервных клеток мы вам подарить не можем, но интересную подборку подкастов — всегда пожалуйста!

Слушайте, лайкайте, сохраняйте :)

Путь от отклика до оффера: советы рекрутера
В подкасте рекрутер КОРУСа Ксюша Державина рассказала, какие специалисты сейчас востребованы, где искать вакансии, как проходить собеседования, а еще поделились несколькими рекрутерскими секретами :)

Из инженера судостроения в дата-инженера за полгода
Паша Хлопотин, дата-инженером Департамента аналитических решений (ДАР), рассказал о том, как решиться сменить профессию в 32 года и что для этого нужно.

Про DWH, карьерное развитие и работу в разных форматах
В подкасте с Сашей Зеньковичем, руководителем направления DWH&ML ДАРа, говорим про работу с Data Warehouse в разных форматах — in-house и в консалтинге и подробно рассказываем про плюсы и минусы каждого.

Как эффективно взаимодействовать с заказчиком
Как эффективно взаимодействовать с заказчиком и командами проекта обсудили с Димой Смирновым, директором по консалтингу департамента CRM и BPM, и Таней Веселовой, руководителем направления ELMA. Как работает индивидуальный подход, как его найти, и есть ли какие-то универсальные инструменты для выстраивания отношений на проекте. Дима рассказал про то, как это работает в командах продаж, а Таня — в командах производства.

Про личные и профессиональные кризисы и их преодоление
Очень честный и даже личный подкаст с Мариной Кузнецовой, руководителем направления в Департаменте EPM, про то, как справляться с кризисными ситуациями на работе и в жизни.

Продажи в ИТ: ожидание vs реальность
В этом выпуске подкаста Talk it Easy поговорили с Алексеем Кучиным, директором по развитию бизнеса департамента бизнес-планирования. Обсудили, как прийти в продажи, почему ожидания часто не совпадают с реальностью и как преодолеть кризисы на разных этапах развития.

Вопросы, которые вы хотели, но стеснялись задать
Задаем глупые вопросы Альфии Селезеневой, инженеру третьей линии поддержки и узнаем, как устроена работа техподдержки, как происходит процесс работы над заявками и кому подойдет работа в этой сфере.

Ну и отдельно про наш видкаст!
Развитие: взгляд эксперта и руководителя
Сразу два эксперта из Департамента 1С КОРУСа на личном опыте расскажут о том, как угнаться за постоянно меняющейся ИТ-сферой и как всегда оставаться востребованным специалистом. Евгений Бородин руководитель проектов, и Анна Аджемян, консультант, рассказывают о факапах, страхах, о том, как можно много стараться и не достичь цели и как не опускать при этом руки.
К вопросу развития коллеги подходят с разных сторон. Женя – РП, ему важно не только развивать себя, но и помогать в этом своим коллегам. Аня – консультант, в самом начале карьеры ей пришлось переучиваться на работу с новой системой из-за ухода вендора.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Представляем YDB DWH компонент для аналитической обработки данных в СУБД Яндекса

В YDB появилась новая функциональность: теперь СУБД Яндекса поддерживает работу со сложными аналитическими запросами (OLAP). Благодаря этому компании смогут не только хранить и обрабатывать в YDB сотни терабайт транзакционных данных, но и выполнять над этими данными запросы и создавать системы для поддержки принятия решений — корпоративные хранилища данных.

Система горизонтально масштабируется за счёт шардирования — автоматического партиционирования по объёму и нагрузке, — а также обеспечивает быстрое выполнение запросов благодаря массивно‑параллельной архитектуре (МРР).

Аналитическая функциональность компонента YDB DWH включает колоночные таблицы с консистентным хранением данных и управление смешанной нагрузкой. В платформу СУБД Яндекса также входит движок выполнения запросов со спиллингом данных на диск, стоимостный оптимизатор, федеративные SQL‑запросы к внешним источникам данных (S3, PostgreSQL, Greenplum, Oracle, Microsoft SQL), что позволяет создавать корпоративные хранилища данных. В планах реализация поддержки SQL-диалекта PostgreSQL для интеграции как в OLAP‑, так и в OLTP‑сценарии.

Платформа распространяется по коммерческой лицензии. Её можно и установить в собственной инфраструктуре (on‑premise), и использовать как управляемый сервис в Yandex Cloud.

Теги:
Всего голосов 5: ↑5 и ↓0+5
Комментарии5

Проверьте точность ваших вычислений 🧮

Привет, Хабр! Мы продолжаем рубрику для тех, кто хочет поразмять мозги. На этот раз предлагаем вам решить задачу посложнее: 

Как нам поведал Дуглас Адамс в «Путеводитель для путешествующих автостопом по галактике», «сверхразумная раса существ создала компьютер Думатель (Deep Thought) — второй по производительности за всё существование времени и вселенной, — чтобы найти окончательный ответ на величайший вопрос жизни, вселенной и всего такого. После семи с половиной миллионов лет вычислений Думатель выдал ответ: «Сорок два».

Оцените накопленное количество ошибок вычислений ответа «Сорок два» под воздействием космической радиации при следующих условиях:

  • Сверхразумная раса – Земляне;

  • Думатель находится на орбите Плутона;

  • размер Думателя 1 * 1 * 1 км;

  • Думатель сделан из водяного льда;

Каждая молекула является вычислительной ячейкой, которая может поменять свое состояние.

Каждая частица галактического излучения, попавшая в Думатель, приводит к изменению состояния вычислительной ячейки (одной ошибке) с вероятностью 100%.

Варианты ответов оставляйте в комментариях 👇 В пятницу Павел Бузин (@pbuzin) — эксперт Cloud.ru по AI и машинному обучению, раскроет правильный ответ под этим постом.

И оставляйте реакции — как вам в целом такой формат, хотите еще задач в будущем?

Вам может быть интересно:

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии10

Тестирование систем и движков массивно-параллельных вычиcлений

Все о подходах к тестированию, которые использует команда Data Sapience, и результатах сравнения движков и систем — в партнерском материале технического идеолога Lakehouse-платформы данных Data Ocean Nova. В центре внимания — гонка зайца Trino и антилопы Impala.

Гонка зайца Trino и антилопы Impala
Гонка зайца Trino и антилопы Impala

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Практический курс по работе с объектным хранилищем

В новом бесплатном курсе рассказываем, что такое S3 и как применить его в своих проектах. Вас ждет 10 материалов, изучение которых займет чуть менее трех часов.

В рамках курса вы научитесь:

  • использовать хранилище в Kubernetes,

  • подключаться к нему из платформы для дата-аналитики,

  • интегрировать хранилище с Tilda,

  • сохранять бэкапы, в том числе игровых серверов,

  • монтировать контейнеры S3 в Windows и Linux.

Переходите в Академию Selectel и изучайте курс.

Теги:
Всего голосов 5: ↑5 и ↓0+8
Комментарии0

Как мы сделали высокоскоростной RPC с помощью RDMA для собственного SDS — доклад на IT-конференции GoCloud Tech 🦾

На конференции GoCloud Tech расскажем, почему выбрали RDMA RoCE v2 — программный блок для потоковой передачи данных. Посмотрим на внутреннее устройство транспорта с позиции разработчика. Покажем, как изменилась производительность RPC между сервисами SDS. Обсудим недостатки и перспективы решения.

Приходите послушать доклад и обсудить тему в неформальной обстановке.

🕚 Когда: 24 октября с 17:40 до 18:05

📍 Где: онлайн и офлайн в Москве в лофт-пространстве Goelro

👉 Зарегистрироваться на GoCloud Tech

Полезное в блоге:

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Data Ocean Nova. Next-gen платформа данных класса Lakehouse.

Что такое Data Ocean Nova? Ответ — в партнерском материале технического идеолога платформы. Вы узнаете об архитектуре, системе хранения данных, возможностях управления ресурсами и других особенностях решения, благодаря которым Data Ocean Nova стала одним из технологических лидеров рынка больших данных.

Читайте по ссылке

Data Lakehouse (Gemeni AI Generated)
Data Lakehouse (Gemeni AI Generated)

Теги:
Всего голосов 3: ↑3 и ↓0+5
Комментарии0

Всем привет!

Вопрос - где применяется подход DDD?
Аналитика, разработка, тестирование. Конечно архитектура АС, с нее все начинается.
Но это еще не все.
Есть такой класс систем как Data Warehouse (DWH) или аналитическое хранилище данных. В это хранилище попадают данные из всех бизнес-сервисов компании для дальнейшего анализа. Т.об. мы разделяем оперативную БД и аналитическую, снимая лишнюю нагрузку с оперативной БД. Особенность Data Warehouse - технологии обработки и хранения данных отличаются от используемых в системах оперативной обработки данных. Hadoop, Greenplum, ClickHouse... А значит нужны специалисты, которые подготовят хранилище под ваши данные и настроят синхронизацию с оперативной БД. Но эти специалисты не знают ваш домен, в отличие от команды. Плюс они часто становятся "бутылочным горлышком". Плюс структура данных постоянно меняется...
Что делать?
Data Warehouse специалисты готовят инфраструктуру, а за подготовку и синхронизацию данных, актуальность их структуры и способ предоставления этих данных потребителям отвечает бизнес команда. Это же ее bounded context. Подход называется Data Mesh. Вот неплохая статья на эту тему.
P.S. На самом деле DevOps в своем идеальном виде о том же - DevOps инженеры готовят инфраструктуру, а за сборку и деплой отвечает команда.

Теги:
Всего голосов 2: ↑2 и ↓0+6
Комментарии0

Amazon планирует вложить $148 млрд в центры обработки данных в течение следующих 15 лет, чтобы справиться со спросом на приложения с искусственным интеллектом и другие цифровые услуги. Компания стремится сохранить своё влияние на рынке облачных услуг, где ей принадлежит доля примерно вдвое больше второго игрока — Microsoft.

В 2024 году рост продаж Amazon Web Services возобновился после прошлогоднего спада, поэтому Amazon стремится обеспечить землю и электричество для своих дата-центров. Компания намерена расширить существующие ЦОДы в Северной Виргинии и Орегоне, а также построить новые в Миссисипи, Саудовской Аравии и Малайзии.

Amazon создаёт собственные ИИ-инструменты, чтобы конкурировать с ChatGPT от OpenAI, а также сотрудничает с другими компаниями для поддержки ИИ-услуг на своих серверах. В результате Amazon рассчитывает получить десятки миллиардов долларов доходов, связанных с ИИ.

Однако Amazon, Microsoft и другие компании сталкиваются с проблемой нехватки электроэнергии, а также выступлениями жителей штатов, которые жалуются на шум серверных ферм.

Теги:
Всего голосов 6: ↑6 и ↓0+6
Комментарии0

Как организовать в облаке безопасное хранилище данных, запустить собственные ML-модели и системы скоростной аналитики — обсудим на Union All 

20 марта в Москве и онлайн состоится большая конференция Yandex Cloud для руководителей дата‑проектов и дата‑офисов, а также разработчиков и архитекторов баз данных.

Программа Union All будет посвящена технологиям и эффективным решениям для работы с данными: от создания корпоративных хранилищ в облаке до монетизации данных в конкретных отраслях.

Вместе с приглашёнными докладчиками мы обсудим:

  • возможности работы с YandexGPT и запуск собственных ML‑моделей;

  • безопасное хранение данных в облаке;

  • новые возможности сервиса для визуализации данных DataLens.

Будем рады встрече уже в эту среду на площадке «Синема Парк Мосфильм» и в прямом эфире. Подробная программа и регистрация открыты на сайте Union All.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Когда строишь потоки обработки в Apache Nifi в основном требуется результат записать в базу данных. Бывают случаи, когда запись в целевую таблицу не проходит по причине несоответствия данных в записи и полей в таблице. Это возникает в случае, если на источнике размер поля увеличился, либо изменился порядок знаков после занятой, либо вы ожидаете "uniqueidentifier" а приходит пустая строка.

Ситуаций много, а решение обычно одно - локализовать ошибку, найти поле, которое не соответствует S2T, внести корректировки в таблицы, либо дополнить трасформации. В случае, если полей в записи две три, понять причину не сложно. Когда же их много приходится тратить время на разбор записи по отдельным полям и проверку каждого потенциального источника ошибки.

Для этого предлагаю скрипт для ScriptedTransformRecord, позволяющий разобрать запись на массив записей, каждая из которых содержит только одно значение, остальные проставляются "null".

results = []

fields = record.getRawFieldNames()
schema = record.getSchema()
fields.each{key -> {
    log.debug("Got key: ${key}")
    nMap = new java.util.HashMap<String, Object>()
    log.debug("create map")
    nMap.put(key,record.getValue(key))
    log.debug("Put to map value")
    newrecord = new org.apache.nifi.serialization.record.MapRecord(schema, nMap)
    log.debug("Сreate new record with field ${key}")
    results.add(newrecord)
}}

results

Полезные ссылки:

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Запускаем бесплатный курс по работе с Managed Service for Greenplum

Наша образовательная программа по работе с данными пополнилась курсом Managed Service for Greenplum на платформе Яндекс Практикум. Обучение рассчитано на Data-архитекторов, DevOps-инженеров, разработчиков и администраторов баз данных.

В курсе семь модулей. Вводные лекции дают общее представление о Greenplum и показывают, для каких задач он подходит. Вторая половина курса помогает решить более сложные прикладные задачи. Например, можно узнать, как проводить диагностику запросов, использовать разные опции хранения данных, загружать и выгружать данные с помощью внешних таблиц.

Курс научит:

  • создавать инсталляцию Greenplum на облачной платформе и работать с ней;

  • использовать особенности СУБД для эффективной работы с Managed Greenplum;

  • правильно писать и оптимизировать запросы с учетом специфики Greenplum;

  • разбираться в архитектуре Greenplum;

  • проектировать оптимальную физическую модель данных.

О программе:

  • Обучение рассчитано на 50–80 часов.

  • Курс состоит из двух частей: теории с закреплением в коротких квизах и самостоятельных практических заданий. Обе части не привязаны к расписанию — можно учиться когда угодно.

  • Все материалы доступны бесплатно.

Теги:
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_10

?Вопрос_10: Что такок Tarantool и как он устроен ? (Часть_3)

  1. Транзакции: В более новых версиях Tarantool была добавлена поддержка механизма транзакций. Транзакции позволяют группировать несколько операций в единую атомарную операцию, что обеспечивает целостность данных.

  2. Разрешение конфликтов: Tarantool предоставляет механизм разрешения конфликтов при работе с репликацией и шардингом. Возможности разрешения конфликтов включают автоматическое разрешение конфликтов на основе временных меток и возможность управления конфликтами пользовательским кодом.

t.me/DenoiseLAB (Еесли вы хотите быть в курсе всех последних новостей и знаний в области анализа данных)

Теги:
Рейтинг0
Комментарии0

Яндекс почта для организации сказала, что "Скоро сервисы организации перейдут в режим просмотра" и предложила три тарифа на выбор БАЗОВЫЙ ОПТИМАЛЬНЫЙ РАСШИРЕННЫЙ

а вы знали, что менеджеру надо сказать: "Я ЗНАЮ ПРО ЗАКРЫТЫЙ ТАРИФ "СТАРТОВЫЙ", для тех кто еще никакой тариф не подключал, там будет только почта, но будет в 2 раза дешевле Базового?

Вот такие они ....

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии2

ГК «Астра» и ГК Key Point подписали соглашение о сотрудничестве. В рамках соглашения, планируется проведение пилотных проектов по построению инфраструктуры центров обработки данных на базе технологических решений участников. Подписание соглашения состоялось в рамках Восточного экономического форума, проходящего во Владивостоке с 10 по 13 сентября 2023 года. Об этом рассказали информационной службе Хабра в пресс‑службе ГК «Астра».

С 2021 года ГК Key Point занимается проектом по созданию региональной сети дата‑центров. В первую очередь проекта был создан ЦОД уровня надёжности Tier III на 440 стоек во Владивостоке, запущенный в эксплуатацию в феврале 2023 года. Сейчас идёт строительство второй очереди проекта, всего в проекте создание 35 объектов на 10 тысяч стоек. Из этих объектов 4 ЦОДа будут размером от 400 до 1,2 тысячи стоек. Кроме Владивостока, в города, где будут находиться ЦОДы, вошли Новосибирск, Екатеринбург и Ставрополь. Также ЦОДы меньшим количеством, от 50 до 400 стоек, заявлены в других не озвученных городах России.

По словам представителей ГК «Астра», в этих ЦОДах инфраструктура создана на основе серверной OC Astra Linux, комплекса средств виртуализации «Брест» и ПО для администрирования IT‑инфраструктур ALD Pro.

Теги:
Всего голосов 6: ↑6 и ↓0+6
Комментарии0
1