Как стать автором
Обновить
51.32

Хранилища данных *

Публикации, рассказывающие о хранилищах данных

Сначала показывать
Порог рейтинга
Уровень сложности

Нужно ли нам озеро данных? А что делать с хранилищем данных?

Время на прочтение7 мин
Количество просмотров30K
Это статья перевод моей статьи на medium — Getting Started with Data Lake, которая оказалась довольно популярной, наверное из-за своей простоты. Поэтому я решил написать ее на русском языке и немного дополнить, чтобы простому человеку, который не является специалистом по работе с данными стало понятно, что такое хранилище данных (DW), а что такое озеро данных (Data Lake), и как они вместе уживаются.

Почему я захотел написать про озеро данных? Я работаю с данными и аналитикой больше 10 лет, и сейчас я точно работаю с большими данными в Amazon Alexa AI в Кембридже, который в Бостоне, хотя сам живу в Виктории на острове Ванкувер и часто бываю и в Бостоне, и в Сиэтле, и в Ванкувере, а иногда даже и в Москве выступаю на конференциях. Так же время от времени я пишу, но пишу в основном на английском, и написал уже несколько книг, так же у меня есть потребность делиться трендами аналитики из Северной Америке, и я иногда пишу в телеграмм.

Я всегда работал с хранилищами данных, и с 2015 года стал плотно работать с Amazon Web Services, да и вообще переключился на облачную аналитику (AWS, Azure, GCP). Я наблюдал эволюцию решений для аналитики с 2007 года и сам даже поработал в вендоре хранилищ данных Терадата и внедрял ее в Сбербанке, тогда-то и появилась Big Data с Hadoop. Все стали говорить, что прошла эра хранилищ и теперь все на Hadoop, а потом уже стали говорить про Data Lake, опять же, что теперь уж точно хранилищу данных пришел конец. Но к счастью (может для кого и к несчастью, кто зарабатывал много денег на настройке Hadoop), хранилище данных не ушло.
Читать дальше →
Всего голосов 8: ↑7 и ↓1+6
Комментарии31

Битва двух якодзун, или Cassandra vs HBase. Опыт команды Сбербанка

Время на прочтение17 мин
Количество просмотров12K
Это даже не шутка, похоже, что именно эта картинка наиболее точно отражает суть этих БД, и в конце будет понятно почему:



Согласно DB-Engines Ranking, две самых популярных NoSQL колоночных базы — это Cassandra (далее CS) и HBase (HB).



Волею судеб наша команда управления загрузки данных в Сбербанке уже давно и плотно работает с HB. За это время мы достаточно хорошо изучили её сильные и слабые стороны и научились её готовить. Однако наличие альтернативы в виде CS все время заставляло немного терзать себя сомнениями: а правильный ли выбор мы сделали? Тем более, что результаты сравнения, выполненного DataStax, говорили, что CS легко побеждает HB практически с разгромным счетом. С другой стороны, DataStax — заинтересованное лицо, и верить на слово тут не стоит. Также смущало достаточно малое количество информации об условиях тестирования, поэтому мы решили выяснить самостоятельно, кто же является королем BigData NoSql, и полученные результаты оказались весьма интересны.
Читать дальше →
Всего голосов 19: ↑17 и ↓2+15
Комментарии135

Avito Kafka meetup: коннекторы, интеграция, облака

Время на прочтение2 мин
Количество просмотров3.8K

Привет! В четверг, 23 января, пройдёт наш первый митап про Apache Kafka. Будем говорить об интеграции, source коннекторах и запуске масштабируемых приложений в Kubernetes. С докладами выступят инженеры Booking.com, Confluent и Авито.


Встречаемся в 18:00. Регистрируйтесь сами и приглашайте коллег. Под катом — анонсы выступлений, ссылка на регистрацию и видеотрансляцию митапа.


Читать дальше →
Всего голосов 9: ↑9 и ↓0+9
Комментарии4

СХД AERODISK на отечественных процессорах Эльбрус 8С

Время на прочтение15 мин
Количество просмотров28K


Привет, читатели Хабра. Хотим поделиться крайне приятной новостью. Мы, наконец-то, дождались реального серийного выпуска нового поколения российских процессоров Эльбрус 8С. Официально серийный выпуск должен был стартовать аж в 2016 году, но, по факту, именно массовое производство началось только в 2019 году и на текущий момент выпущено уже около 4000 процессоров.


Практически сразу после старта серийного производства данные процессоры появились и у нас в Аэродиске, за что хотим отдельно поблагодарить компанию НОРСИ-ТРАНС, которая любезно предоставила нам свою аппаратную платформу Яхонт УВМ, поддерживающую процессоры Эльбрус 8С, для выполнения портирования программной части СХД. Это современная, отвечающая всем требованиям МЦСТ универсальная платформа. На данный момент платформа используется спец.потребителями и операторами связи для обеспечения выполнения установленных действий при проведении оперативно-розыскных мероприятий.


На текущий момент портирование успешно завершено, и уже сейчас СХД AERODISK доступна в варианте с отечественными процессорами Эльбрус.


В этой статье мы расскажем о самих процессорах, об их истории, архитектуре и, конечно же, о нашей реализации СХД на Эльбрусе.

Читать дальше →
Всего голосов 53: ↑46 и ↓7+39
Комментарии181

Истории

Выбираем хранилище данных для Prometheus: Thanos vs VictoriaMetrics

Время на прочтение14 мин
Количество просмотров36K

Всем привет. Ниже представлена расшифровка доклада с Big Monitoring Meetup 4.


Prometheus – система мониторинга различных систем и сервисов, с помощью которой системные администраторы могут собирать информацию о текущих параметрах систем и настраивать оповещения для получения уведомлений об отклонениях в работе систем.


В докладе будет сравнение Thanos и VictoriaMetrics — проектов для долгосрочного хранения метрик Prometheus.

Всего голосов 17: ↑14 и ↓3+11
Комментарии9

Переходим на Pure Storage: наше новое хранилище

Время на прочтение5 мин
Количество просмотров4.3K


Недавно мы перенесли наши высоконагруженные базы данных — централизованные офисные сервисы, почту, виртуальные рабочие станции, а также торговые системы и сайты mvideo.ru и eldorado.ru — на флэш-массивы Pure Storage. И сегодня расскажем, почему мы решили это сделать и как переходили на новые.
Читать дальше →
Всего голосов 8: ↑6 и ↓2+4
Комментарии6

Бюджетные VPS с видеоадаптерами: сравнение российских провайдеров

Время на прочтение6 мин
Количество просмотров27K
Считается, будто виртуальные серверы с vGPU стоят дорого. В небольшом обзоре я попробую опровергнуть этот тезис.

Читать дальше →
Всего голосов 31: ↑31 и ↓0+31
Комментарии2

7 дней, 15 инженеров и 600 серверов: Яндекс.Деньги переехали в новый дата-центр

Время на прочтение7 мин
Количество просмотров16K


Недавно у департамента эксплуатации Яндекс.Денег прошло значимое событие. Наша компания быстро растет, и оказалось, что перемен требуют не только наши сердца, но и дата-центр. А точнее, перемен требовала его локация. И вот уже три месяца, как один из дата-центров живет в новом месте.

О том, как Яндекс.Деньги переезжали в новый дата-центр, расскажу я, руководитель департамента эксплуатации, и Иван, начальник отдела ИТ-инфраструктуры и внутренних систем.

Под катом — хронология событий, важные вехи переезда, неожиданные повороты и разбор полетов. Делимся, как мы пережили это.
Читать дальше →
Всего голосов 41: ↑39 и ↓2+37
Комментарии45

Redux Toolkit как средство эффективной Redux-разработки

Время на прочтение13 мин
Количество просмотров101K

image
В настоящее время разработка львиной доли веб-приложений, основанных на фреймворке React, ведется с использованием библиотеки Redux. Данная библиотека является самой популярной реализацией FLUX-архитектуры и, несмотря на ряд очевидных преимуществ, имеет весьма существенные недостатки, такие как:


  • сложность и “многословность” рекомендованных паттернов для написания и организации кода, что влечет за собой большое количество бойлерплейта;
  • отсутствие встроенных средств управления асинхронным поведением и побочными эффектами, что приводит к необходимости выбора подходящего инструмента из множества аддонов, написанных сторонними разработчиками.

Для устранения этих недостатков разработчики Redux представили библиотеку Redux Toolkit. Этот инструмент представляет собой набор практических решений и методов, предназначенных для упрощения разработки приложений с использованием Redux. Разработчики данной библиотеки преследовали цель упростить типичные случаи использования Redux. Данный инструмент не является универсальным решением в каждом из возможных случаев использования Redux, но позволяет упростить тот код, который требуется написать разработчику.


В данной статье мы расскажем об основных инструментах, входящих в Redux Toolkit, а также, на примере фрагмента нашего внутреннего приложения, покажем, как их использовать в уже имеющемся коде.

Читать дальше →
Всего голосов 12: ↑12 и ↓0+12
Комментарии38

И снова о защите виртуальных инфраструктур

Время на прочтение12 мин
Количество просмотров9.2K
В этом посте мы постараемся вывести наших читателей из распространённых заблуждений относительно безопасности виртуальных серверов и рассказать, как надо правильно защищать свои арендованные облака на исходе 2019 года. Статья рассчитана в основном на наших новых и потенциальных клиентов, конкретнее тех, кто только приобрёл или хочет приобрести виртуальные серверы RUVDS, но пока не очень разбираются в вопросах кибербезопасности и работе VPS. Надеемся, что и для знающих пользователей она окажется чем-то полезной.

Читать дальше →
Всего голосов 29: ↑27 и ↓2+25
Комментарии2

Клиентоориентированный Data Lake в игровой компании

Время на прочтение13 мин
Количество просмотров7.5K

Источник

Привет, Хабр! Меня зовут Максим Пчелин, и я руковожу разработкой BI-DWH в MyGames (игровое подразделение Mail.ru Group). В этой статье по мотивам нашего с Диной Сафиной выступления на HighLoad++ Moscow 2019 я расскажу о том, как и зачем мы строили клиентоориентированное DataLake-хранилище.

Статья состоит из трех частей. Сперва я расскажу, почему мы решили реализовывать DataLake. Во второй части я опишу, какие технологии и решения мы используем, чтобы хранилище могло работать и наполняться данными. И в третьей части опишу, что мы делаем для улучшения качества наших сервисов.
Читать дальше →
Всего голосов 53: ↑53 и ↓0+53
Комментарии14

Настройка домашнего роутера + NAS на unRAID (часть 2)

Время на прочтение6 мин
Количество просмотров22K

В первой части я довольно кратко рассказал о самой сборке, которая позволяет сделать компьютер, на котором можно запустить unRAID для создания NAS и MikroTik RouterOS в виртуальной машине KVM в качестве замены обычном роутеру.


В комментариях получились довольно полезные дискуссии, по результатам которых нужно исправлять ошибки в первоначальной сборке и писать уже третью часть! Кое-что из предложенного я опробую на себе и, надеюсь, напишу третью часть.

Читать дальше →
Всего голосов 4: ↑3 и ↓1+2
Комментарии19

Установка распределённого отказоустойчивого хранилища объектов LeoFS, совместимого с клиентами, использующими S3, NFS

Время на прочтение11 мин
Количество просмотров5.9K

Я из компании Luxoft.
Согласно Opennet: LeoFS — распределённое отказоустойчивое хранилище объектов LeoFS, совместимое с клиентами, использующими API Amazon S3 и REST-API, а также поддерживающего режим работы в роли NFS-сервера. Имеются оптимизации для хранение как мелких, так и очень больших объектов, присутствует встроенный механизм кэширования, возможна репликация хранилищ между дата-центрами. Среди целей проекта отмечается достижение надёжности 99.9999999% за счёт избыточного реплицирования дубликатов и исключения единой точки отказа. Код проекта написан на языке Erlang.


LeoFS состоит из трёх компонентов:


  • LeoFS Storage — обслуживает операции добавления, извлечения и удаления объектов и метаданных, отвечает за выполнение репликации, восстановления и формирования очереди запросов клиентов.
  • LeoFS Gateway — обслуживает HTTP-запросы и перенаправляет ответы клиентам с использованием REST-API или S3-API, обеспечивает кэширование наиболее востребованных данных в памяти и на диске.
  • LeoFS Manager — отслеживает работу узлов LeoFS Gateway и LeoFS Storage, ведёт мониторинг состояния узлов и проверяет контрольные суммы. Гарантирует целостность данных и высокую доступность хранилища.

В этом посте установим Leofs c помощью ansible-playbook, протестируем S3, NFS.

Читать дальше →
Всего голосов 11: ↑11 и ↓0+11
Комментарии6

Ближайшие события

Опыт разработки и внедрения систем объектовой видеоаналитики на СХД

Время на прочтение3 мин
Количество просмотров3.8K
СХД – это системы хранения данных, сервера или иные устройства с большим количеством установленных дисков и системами быстрого доступа к ним с гарантией сохранности информации (например, аппаратные или программные RAID-контроллеры). Если речь идёт про хранение видео с нескольких камер, то специализированных решений не требуется. СХД или обычные диски будут использоваться для хранения видеоархива и там же или на отдельном носителе будут храниться события (результат детекции, например, нарушения ПДД или пресечение запретных зон) для дальнейшего доступа к ним и анализа. Но если камер много, например, 80 штук и мы рассматриваем поток RTSP Full HD, 15 FPS с дорожных камер, то зарегистрированных событий в сутки будет уже около 100 Гб. Для хранения таких объемов данных требуются уже специализированные решения. Мы остановили свой выбор на СХД от компании QNAP, куда смогли встроить свой собственный продукт Cumulator. Цель и задача этого продукта – сбор событий с множества устройств: серверов для инференса (исполнения нейронных сетей), камер или микрокомпьютеров, установленных в непосредственной близости от камер.

Сервер на базе Intel NUC, который осуществляет обработку данных с 80 камер с агрегацией этих данных через ПО Cumulator
Сервер на базе Intel NUC, который осуществляет обработку данных с 80 камер с агрегацией этих данных через ПО Cumulator
Читать дальше →
Всего голосов 12: ↑6 и ↓60
Комментарии15

Microsoft SQL Server 2019 и флэш-массивы Dell EMC Unity XT

Время на прочтение27 мин
Количество просмотров6.4K
Сегодня мы познакомим вас с особенностями использования SQL Server 2019 с системой хранения Unity XT, а также дадим рекомендации по виртуализации SQL Server с помощью технологии VMware, по настройке и управлению базовыми компонентами инфраструктуры Dell EMC.


В 2017 году Dell EMC и VMware опубликовали результаты опроса о тенденциях и эволюции SQL Server — «Трансформация SQL Server: на пути к гибкости и отказоустойчивости» (SQL Server Transformation: Toward Agility and Resiliency), в котором использовался опыт сообщества членов Профессиональной ассоциации SQL Server (Professional Association of SQL Server, PASS). Результаты показывают, что среды баз данных SQL Server растут как по размеру, так и по сложности, что обусловлено увеличивающимися объемами данных и новыми бизнес-требованиями. Базы данных SQL Server в настоящее время развернуты во многих компаниях, обеспечивая работу критически важных приложений, и нередко служат основой цифровой трансформации. 

За время, прошедшего с момента проведения данного опроса, Microsoft выпустила следующее поколение СУБД — SQL Server 2019. В дополнение улучшению основных функций реляционного движка и хранения данных появились новые сервисы и функции. Например, SQL Server 2019 включает поддержку рабочих нагрузок больших данных с использованием Apache Spark и распределенной файловой системы Hadoop (Hadoop Distributed File System, HDFS).
Читать дальше →
Всего голосов 19: ↑17 и ↓2+15
Комментарии3

Европа будет развивать собственную облачную инфраструктуру — не все считают, что это хорошая идея

Время на прочтение3 мин
Количество просмотров3.8K
Немецкие и французские политики предлагают создать локальное облако для хранения данных граждан ЕС, чтобы ослабить позиции американских провайдеров на европейском рынке. Обсуждаем мнения представителей ИТ-индустрии, правозащитных организаций и простых пользователей облака.

Читать дальше →
Всего голосов 12: ↑11 и ↓1+10
Комментарии10

Делаем маршрутизатор и NAS на одном процессоре

Время на прочтение6 мин
Количество просмотров32K

У этой статьи есть продолжение.


У меня появился «домашний сервер» на Linux всего через несколько лет, как мне купили компьютер. Сейчас, с того момента прошло уже более пятнадцати лет и большинство этого времени у меня был какой-то второй дополнительный компьютер дома. Однажды, когда пришла пора его обновлять, я задумался: а зачем мне отдельный роутер, если у меня и так уже есть свободный компьютер? Ведь тогда давно, в нулевые, для многих это была стандартная конфигурация.


Действительно: сегодня для этого можно завести отдельную виртуалку, пробросить туда USB или PCI карту Wi-Fi. А в качестве ОС можно одним махом использовать MikroTik RouterOS, получая за небольшие деньги ПО enterprise уровня.

Читать дальше →
Всего голосов 26: ↑18 и ↓8+10
Комментарии72

TabPy для работы с данными в ClickHouse из Tableau

Время на прочтение6 мин
Количество просмотров5.4K
Выстраивание коммуникаций между брендами и людьми — то, чем мы в Dentsu Aegis Network занимаемся каждый день, и неотъемлемой частью этой работы является анализ данных. В ряде случаев этот процесс не требует data science (хотя и он у нас есть), тогда мы используем BI платформу Tableau. Ее основная цель — дать нашим сотрудникам и клиентам удобный интерфейс для потребления данных без написания скриптов, SQL запросов и т.п.

В этой статье мы расскажем, как нам удалось решить проблему взаимодействия Tableau с ClickHouse.
Читать дальше →
Всего голосов 7: ↑7 и ↓0+7
Комментарии0

Как мы тестировали WD ActiveScale P100 для нашего S3-хранилища

Время на прочтение7 мин
Количество просмотров2.9K
Мы периодически тестируем новое оборудование и ПО для использования в наших сервисах. Всегда хочется больше возможностей за разумные деньги. Сегодня расскажу, как мы разбирались в устройстве Western Digital ActiveScale P100 и пытались примерить его под наше S3-хранилище.

Сразу небольшой дисклеймер: мы тестировали продукт с точки зрения его использования в публичном сервисе. Возможно, какие-то функции, интересные и важные для приватного использования, остались за кадром.


Это ActiveScale P100 в апреле 2019 перед установкой в дата-центре OST.

Сейчас наш S3 работает на Cloudian HyperStore 7.1.5. Эта версия обеспечивает 98% совместимости с API Amazon. В нынешнем решении есть все необходимое для нас как сервис-провайдера и наших клиентов, поэтому в альтернативах мы искали никак не меньше.
Читать дальше →
Всего голосов 15: ↑15 и ↓0+15
Комментарии0

Данные на границе: как построить новую ИТ-архитектуру

Время на прочтение9 мин
Количество просмотров2.8K
С каждым днём всё большее число устройств создаёт всё больше данных. Управлять ими приходится во множестве точек, а не в нескольких централизованных облачных ЦОД. Иными словами, процесс управления выходит за пределы традиционных центров обработки данных и смещается к тому месту, где данные создаются, — на периферию сети, ближе к конечным пользователям. Здесь данные генерируются различными датчиками, камерами, гаджетами и устройствами интернета вещей (IoT). Когда результаты их работы собираются и обрабатываются непосредственно на границе сети, их можно анализировать и использовать гораздо быстрее.



По мнению экспертов Gartner, к 2020 году более 50% всех данных, генерируемых предприятиями, будут обрабатываться за пределами традиционных ЦОД или облачной среды (сегодня этот показатель составляет лишь 10%). В такой архитектуре будут работать 5,6 млрд устройств интернета вещей (IoT). При этом объёмы продуцируемых устройствами данных исчисляются терабайтами, а интерпретировать и анализировать их зачастую нужно в реальном времени.

Чтобы помочь партнёрам и клиентам изучить этот тренд, Seagate объединилась с консорциумом компаний, которые специализируются на периферийных вычислениях, и выпустила отчёт «Data at the Edge». В нём также использовались результаты исследования, проведённого IDC. Целью отчёта было проиллюстрировать некоторые проблемы с данными, которые сегодня актуальны для компаний, и показать, как компаниям лучше управлять своими ИТ-ресурсами.
Читать дальше →
Всего голосов 19: ↑19 и ↓0+19
Комментарии0