Как стать автором
Обновить
1
0

Пользователь

Отправить сообщение

Apache Atlas – доступный data catalog

Время на прочтение14 мин
Количество просмотров13K

В задачах построения и развития Data Platform с течением времени мы всегда приходим к вопросу эффективного управления данными.

Chief Data Officer, задавшись целью развить, вывести на новый уровень функцию управления данными, склоняются к “тяжеловесным” шагам, внедряя дорогостоящее вендорское ПО или начиная собственную разработку инструментов.

В то же время в открытом доступе есть законченные, испытанные временем продукты, с которых можно начать испытывать и развивать процессы и компетенции в области Data Governance, применив минимум затрат на внедрение и двигаясь поступательно методом “маленьких побед”.

Apache Atlas является одним из таких доступных open source-инструментов класса Data Catalog, который нам удалось полноценно опробовать и успешно замкнуть на него ряд процессов управления данными.

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Комментарии9

Как мы Elasticsearch в порядок приводили: разделение данных, очистка, бэкапы

Время на прочтение8 мин
Количество просмотров30K
Эта статья — практическая история о том, как мы столкнулись с проблемой разделения логов, хранимых в Elasticsearch, из-за которой пришлось поменять подход к бэкапам и управлению индексами.



Всё началось вскоре после того, как было поднято production-окружение. У нас был «боевой» кластер Kubernetes, все логи из которого собирал fluentd и направлял их напрямую в индексы logstash-yyy.mm.dd
Читать дальше →
Всего голосов 35: ↑34 и ↓1+45
Комментарии17

Zip-файлы: история, объяснение и реализация

Время на прочтение76 мин
Количество просмотров96K


Мне давно было интересно, как сжимаются данные, в том числе в Zip-файлах. Однажды я решил удовлетворить своё любопытство: узнать, как работает сжатие, и написать собственную Zip-программу. Реализация превратилась в захватывающее упражнение в программировании. Получаешь огромное удовольствие от создания отлаженной машины, которая берёт данные, перекладывает их биты в более эффективное представление, а затем собирает обратно. Надеюсь, вам тоже будет интересно об этом читать.

В статье очень подробно объясняется, как работают Zip-файлы и схема сжатия: LZ77-сжатие, алгоритм Хаффмана, алгоритм Deflate и прочее. Вы узнаете историю развития технологии и посмотрите довольно эффективные примеры реализации, написанные с нуля на С. Исходный код лежит тут: hwzip-1.0.zip.
Читать дальше →
Всего голосов 133: ↑132 и ↓1+174
Комментарии45

Информация

В рейтинге
Не участвует
Работает в
Зарегистрирован
Активность