Как стать автором
Обновить
94.12

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга
Уровень сложности

Инженер-аналитик или дата-инженер: Как выбрать нужного специалиста? | Census

Время на прочтение 9 мин
Количество просмотров 318

Мэдисон — инженер-аналитик, увлекающаяся данными, предпринимательством, писательством и образованием. Ее цель — преподавать так, чтобы это было полезно для каждого, независимо от того, начинает ли он карьеру или уже работает в инженерии 20 с лишним лет.

И так вы поняли, что вам не помешала бы дополнительная помощь в работе с данными. Но кого конкретно следует искать, вы не знаете, ведь существуют дата-аналитики, дата-инженеры, а теперь… и инженеры-аналитики?!

Не разобравшись, можно подумать, что дата-инженеры и инженеры-аналитики — это одно и то же. Звучит-то ведь похоже, верно? Но на самом деле у инженеров-аналитиков и дата-инженеров разные обязанности. Поэтому выбор подходящего для вас и вашей организации специалиста зависит от ваших потребностей, места, которое он занимает по отношению к бизнесу, и навыков, необходимых для работы.

Читать далее
Всего голосов 9: ↑6 и ↓3 +3
Комментарии 0

Новости

Её величество Плоская таблица

Уровень сложности Простой
Время на прочтение 8 мин
Количество просмотров 7.2K

Слева красиво! Но ничего не понятно. Куча объектов с непонятными связями. Каша, какая-то.

Справа техническая красота :) Всё разложено по полочкам, всё находится под контролем. Никакие детали не могут ускользнуть от нашего внимания.

Переход к плоской таблице и понимание её архитектуры напоминает переход слева-направо. Из зоны тумана, в зону ясности. В статье мы поговорим об этом подробнее. Также увидим какие инструменты нам помогают в этом.

Читать далее
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 8

Проверь себя: Ты — знаток мира BI?

Уровень сложности Сложный
Время на прочтение 2 мин
Количество просмотров 1.5K

Привет, Хабр! А сейчас у нас на кону интересное развлечение. Мы предлагаем вам угадать двух тайных экспертов марафона по визуализции “Ничего Лишнего”, которые будут принимать участие в двух днях работы с участниками. Под катом — краткие характеристики наших героев, а также варианты ответов. Проверьте себя, насколько вы знаете мир BI (или проверьте свою интуицию, что тоже забавно).

Читать далее
Всего голосов 9: ↑6 и ↓3 +3
Комментарии 0

Клонируем ноутбук при помощи NVME over TCP

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 12K

Недавно я купил новый ноутбук и мне нужно было настроить его перед использованием. Но у меня не было настроения выполнять все те привычные шаги, о которых я рассказывал в предыдущем посте. Я пожаловался на это своему коллеге, и в ответ он предложил целиком копировать диск на новый ноутбук. Хотя эта идея показалась мне интересной, у меня возникли сомнения, которыми я поделился с ним.

Читать далее
Всего голосов 22: ↑21 и ↓1 +20
Комментарии 25

Истории

Марафон DataYoga “Ничего лишнего” — кому будет полезна неделя лучших практик визуализации данных

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 1.6K

Привет, Хабр! Сегодня мы хотим поделиться одним интересным событием, которое не может оставить равнодушным никого из сферы BI и визуализации данных. Марафон  будет проходить с 18 по 22 марта в онлайн-режиме (разумеется бесплатно) и включит в себя наработки ведущих визуализаторов и дата-йогов. Это будет настоящее погружение для тех, кто уже в BI и аналитике, а также для тех, кто еще только думает о расширении своих компетенций (или пока вообще не понимает, почему за “построение диаграмм” сегодня обещают хорошие зарплаты). Все подробности о Марафоне и ссылка на регистрацию — под катом.

Хочу стать дата-йогом!
Всего голосов 8: ↑6 и ↓2 +4
Комментарии 1

6 важных принципов GDPR

Уровень сложности Простой
Время на прочтение 8 мин
Количество просмотров 1.3K

Привет, Хабр!

Сегодня я хочу поговорить о GDPR – регуляции, которая изменила понимание приватности данных в Европе и за ее пределами. На первый взгляд, GDPR может показаться очередной бюрократической головной болью, но на самом деле это очень большой шаг в сторону уважения и защиты личной информаций.

GDPR выступает не как какой-то набор ограничений, а как стимул для повышения качества работы с данными.

Санкции за несоблюдение GDPR могут быть очень большими, в некоторых случаях доходя до 10 миллионов евро или 2% от общего мирового годового оборота за предыдущий финансовый год, а в других случаях — до 20 миллионов евро или до 4% от общего мирового годового оборота. Размер штрафа оценивается индивидуально и зависит от множества факторов, как серьезность нарушения, степень причиненного ущерба, наличие умысла, и многое другое​​.

В этой статье мы рассмотрим несколько основных принципов GDPR.

Читать далее
Всего голосов 11: ↑10 и ↓1 +9
Комментарии 6

G2 Market Research vs Gartner: слон или тигр?

Время на прочтение 7 мин
Количество просмотров 186

Мы в Кругах Громова любим исследования. Можно было бы даже сказать «собаку на них съели», но собакенов мы любим не меньше, чем исследования, и, конечно, есть никого не собираемся. Как бы там ни было, нам интересно – и, конечно, познавательно – наблюдать и изучать работу крупных мировых игроков. Сегодня решили поделиться с вами результатами сравнения двух «рапторов» – Gartner и G2 Market Research.

Читать далее
Всего голосов 7: ↑4 и ↓3 +1
Комментарии 0

Резервное копирование на дешёвом VPS-сервере

Уровень сложности Средний
Время на прочтение 6 мин
Количество просмотров 6.4K


Мы уже рассказывали, как можно использовать ультрадешёвый VPS за 130 рублей в месяц. На самом деле 512 МБ оперативной памяти вполне достаточно для нормальной работы Linux (без GUI) и множества приложений, таких как VPN, веб-хостинг, некоторые игровые серверы, а также для резервного копирования файлов.

Конечно, в интернете куча облачных хостингов, но всё-таки приватные файлы спокойнее хранить на личном сервере, который полностью под нашим контролем.
Читать дальше →
Всего голосов 37: ↑36 и ↓1 +35
Комментарии 15

Квест по синхронизации аналитического и оперативного хранилищ в реальном времени без потерь на сотнях терабайт данных

Уровень сложности Средний
Время на прочтение 12 мин
Количество просмотров 1.7K

Я работаю в компании STM Labs, где мы строим большие высоконагруженные системы класса Big Data. Эта статья написана по мотивам моего выступления на конференции Saint Highload 2023. Хочу рассказать вам увлекательную историю про то, как мы искали лучшее решение по синхронизации аналитического и оперативного хранилищ в реальном времени. Нам важно было сделать это без потерь, потому что на кону стояли сотни и более терабайт данных.

Сразу обозначу, чего в этой статье не будет:

• Я не буду подробно говорить о типах СУБД и их различиях.
• Я не буду делать обзор аналитических СУБД. Тут каждый выбирает сам.
• Я не буду подробно останавливаться на архитектуре, отказоустойчивости и масштабировании СУБД MongoDB.
• Я не буду делать обзор отличий OLAP и OLTP.
• Я не буду делать обзор и сравнение реализаций CDC в различных СУБД.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 6

Российские СХД, очень много платформ для ML, новые GPU и коммутаторы. Дайджест серверного железа за февраль

Время на прочтение 6 мин
Количество просмотров 5K

Привет! Меня зовут Сергей, в этой статье я расскажу о новинках в мире железа за прошедший месяц. Многие из них показали на выставке Mobile World Congress 2024 в Барселоне. Бонус — обзор нового оборудования российских вендоров. Уже присматриваете железо для своих серверов? Подробности под катом!
Читать дальше →
Всего голосов 28: ↑26 и ↓2 +24
Комментарии 4

Сможет ли IPFS полностью заменить HTTP?

Время на прочтение 6 мин
Количество просмотров 12K

Меня зовут Виталий Киреев, я руководитель R&D в SpaceWeb. В начале прошлого года мы внедрили IPFS-технологию в работу своего хостинга, и все наши клиенты получили возможность размещать контент в IPFS-сети. Решились на такой шаг не сразу: IPFS — технология пока еще экспериментальная, к ней и у R&D-команды полно вопросов.

В статье расскажем об основных принципах устройства IPFS, обсудим преимущества и недостатки. А еще поделимся, зачем вообще классическому хостинг-провайдеру было внедрять IPFS-технологию и с какими трудностями мы столкнулись в процессе. Статья будет полезна тем, кто только начинает знакомиться с IPFS или планирует использовать технологию для своих проектов.

Читать далее
Всего голосов 29: ↑28 и ↓1 +27
Комментарии 13

1С или СБИС: что выбрать предпринимателю

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 4.4K

Решили сравнить СБИС и 1С по трем критериям: простоте операций, удобству интерфейса и дополнительным фичам. Рассказываем, какая система лучше и кому она подойдёт.

Читать далее
Всего голосов 10: ↑6 и ↓4 +2
Комментарии 18

Автоматизированная настройка СХД АЭРОДИСК с помощью REST API

Уровень сложности Средний
Время на прочтение 8 мин
Количество просмотров 629

Привет, Хабр.

В одном из наших недавних постов мы немного затронули тему автоматизации, которую мы активно продвигаем в наших продуктах. По различным каналам мы получили много положительных откликов и дополнительных вопросов о том, как можно использовать наши API для различных интеграций.

В рейтинге наиболее популярных «хотелок» – интеграция системы хранения данных с внешними отечественными или opensource продуктами: системы мониторинга, системы управления и планирования ёмкостей или сложные автоматизированные метрокластеры с классическим набором серверов приложений, СУБД и систем виртуализации.

Решив, что краткого упоминания о REST API в системах хранения данных АЭРОДИСК явно недостаточно, в этой статье мы расскажем о том, как автоматизировать создание классических репликации, конфигурации метрокластера и управлять переключением сайтов с использованием REST API и Python. А послушать про это можно будет на вебинаре «ОколоИТ», который пройдёт 12 марта  в 15:00 – регистрируйтесь по ссылке.

Читать далее
Рейтинг 0
Комментарии 1

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн

Путь от монолита к разделению Compute и Storage: пример поиска «хранилища мечты» для большой аналитической платформы

Уровень сложности Средний
Время на прочтение 10 мин
Количество просмотров 2.2K

Для запуска и эксплуатации высоконагруженных ИТ-решений с петабайтами данных в активе, нужно проработанное решение, позволяющее гибко управлять ресурсами. Одним из критичных аспектов этого решения, является разделение Compute & Storage — разделение ресурсов инфраструктуры под вычисление и хранение соответственно. Если не реализовать такое разделение в крупном проекте, инфраструктура рискует превратиться в «чемодан без ручки» — эффективность использования ресурсов будет низкой, а сложность управления ресурсами и средами будет высока. На примере команды SberData и их корпоративной аналитической платформы я расскажу, когда требуется разделение Compute & Storage и как это реализовать максимально нативно.

Статья подготовлена по мотивам доклада на VK Data Meetup «Как разделить Compute & Storage в Hadoop и не утонуть в лавине миграций».

Читать далее
Всего голосов 15: ↑15 и ↓0 +15
Комментарии 4

Timeweb Cloud CLI. Часть 1: S3

Уровень сложности Средний
Время на прочтение 2 мин
Количество просмотров 616


Салют! Не так давно компания Timeweb Cloud выпустила новую версию своего CLI (twc), который позволяет легко и удобно управлять всеми предоставляемыми ресурсами облачной платформы. В этой серии статей рассмотрим основные сценарии применения этого инструмента.

В данном материале речь пойдёт о работе с облачным объектным хранилищем S3 — это сервис для хранения любых данных в виде объектов, работа с которым осуществляется через программный интерфейс S3 API, в нём можно размещать любые типы статических данных.
Они будут храниться в одном месте и едином формате, и вы сможете в любой момент получать к ним доступ через API или графический интерфейс. Удобно размещать там, например, бэкапы, статические и медиа файлы, архивы, логи.
Читать дальше →
Всего голосов 16: ↑14 и ↓2 +12
Комментарии 0

DIY: Ваше собственное облако на базе Kubernetes (часть 2)

Уровень сложности Средний
Время на прочтение 7 мин
Количество просмотров 6.8K

Продолжаем серию постов про то как построить своё собственное облако в экосистеме Kubernetes. В прошлой статье мы разобрали как можно подготовить базовый дистрибутив Kubernetes на базе Talos Linux и Flux CD. Теперь нам предстоит обсудить возможность запуска виртуальных машин и всего что для этого необходимо, а это в первую очередь хранилище и сеть.

Мы поговорим про такие технологии как KubeVirt, LINSTOR и Kube-OVN

Для начала мне стоит рассказать зачем вообще нужны виртуальные машины, почему бы нам не ограничиться только-лишь контейнерами?

Всё дело в том, что контейнеры в ядре Linux не дают должного уровня изоляции. Несмотря на то, что с каждым годом ситуация становится всё лучше, тем не менее довольно часто мы сталкиваемся с уязвимостями, позволяющими покинуть песочницу контейнера и повысить свои привилегии в системе.

Читать далее
Всего голосов 13: ↑12 и ↓1 +11
Комментарии 6

Что такое СУБД Greenplum? Зачем она нужна в больших проектах DWH? Чем отличается от ClickHouse?

Время на прочтение 9 мин
Количество просмотров 10K

Ошибки в построении DWH возникают не только в результате того, что первоначально не были учтены возможные изменения в бизнес-процессах, потребностях и целях компании, но и из-за некорректного выбора стека технологий и СУБД. 

Порядок хранения данных выбирается в соответствии с разными сценариями работы - запросами, разным объемом данных, количеством транзакций, необходимостью обновлений данных.

В статье читайте о СУБД Greenplum и о том, в каких случаях строить хранилища на ее основе.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 5

Как мы построили систему анализа утечек паролей с хранением в ScyllaDB

Уровень сложности Средний
Время на прочтение 8 мин
Количество просмотров 1.3K

В статье я расскажу о том, как мы построили систему для получения, анализа и сохранения утечек паролей. Рассмотрим архитектуру нашей системы, опишем основные компоненты и расскажем о нашем опыте использования ScyllaDB для задач оперативной загрузки большого количества накопленных утечек.

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Комментарии 15

Распределённые облачные системы хранения Filecoin и Storj

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 906

Когда-то файлы хранили на дискетах, потом на дисках, потом на флэшках. Закончилось всё облаками. Тогда встал ряд различных вопросов по надёжности и приватности. С одной стороны можно просто доверить файлы гуглу или яндексу, но тогда о приватности можно забыть. C другой стороны можно завести собственное облачное хранилище, будь то дорогое железное решение от Synology, или оперсорсное на арендованной vps на nextcloud, но тут требуется вовлечение, что бы облако оставалось в рабочем состоянии (следить за апдейтами, своевременно обновлять оборудование, поддерживать резервное железо). Вместе с развитием блокчейна и развитием децентрализованных технологий web 3.0, появились и облачные хранилища, обещающие приватность, доступность и низкую цену. Предлагаю к рассмотрению 2 проекта, которые появились более 10 лет назад, и до сих пор существуют - Filecoin и Storj.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 0

Особенности и проблемы mock-сервера Swordfish API Emulator

Время на прочтение 13 мин
Количество просмотров 607

Эта статья — продолжение истории про разработку Ansible-модулей для взаимодействий с системами хранения данных (СХД) через API, которое удовлетворяет спецификации Swordfish. Эти модули в перспективе облегчат управление парком СХД от разных производителей.

Чтобы тестировать работоспособность созданных модулей, нужен настоящий сервер СХД (или тестовый mock-сервер), который предоставляет необходимый REST API. Получить настоящий сервер от производителя СХД — сложная задача, которая требует финансовых и временных затрат на получение программно-аппаратного обеспечения. В случае open-source разработки такая опция доступна не всем командам. 

Компания SNIA, разработчик спецификации Swordfish, подумала об этом и предоставляет разработчикам свободно распространяемый mock-сервер — Swordfish API Emulator. В рамках проекта Лаборатории YADRO на базе СПбПУ Петра Великого мы протестировали его в работе. В статье расскажем, как он устроен и как с ним взаимодействовать в задачах.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 0

Вклад авторов