Pull to refresh
20
-0.3
Send message

Apache Spark на Kubernetes: какие уроки можно извлечь из запуска миллионов исполнителей Spark

Reading time 4 min
Views 2.9K


Команда VK Cloud перевела конспект доклада с конференции Data+AI Summit 2022. В своём выступлении Чжоу Цзян и Ааруна Годти из Apple описывают, как построили централизованный кластер Apache Spark на базе Kubernetes, который обрабатывает свыше 380 тыс. заданий Spark в день. Такой объем заданий поддерживает аналитические процессы и эксперименты дата-сайентистов компании Apple. Доклад целиком можно посмотреть здесь.
Читать дальше →
Total votes 17: ↑17 and ↓0 +17
Comments 0

Что делать со сбоями в подах: практическое руководство с примерами конфигураций

Reading time 5 min
Views 3K


Команда VK Cloud перевела статью о том, почему возникают сбои в кластерах Kubernetes и как с ними бороться.

Осознанные прерывания и непреднамеренные сбои


Поды исчезают по причинам двух категорий: если возникает неустранимая ошибка аппаратного обеспечения или системы либо если их уничтожает человек или контроллер. Первую категорию необратимых ситуаций мы называем непреднамеренными сбоями приложения. Например:

  • происходит сбой оборудования, на котором размещен узел;
  • администратор кластера по ошибке удаляет (экземпляр) виртуальную машину;
  • ВМ исчезает из-за сбоя в работе гипервизора или облачного провайдера;
  • возникает критическая ошибка ядра;
  • узел исчезает из кластера из-за сетевого раздела кластера;
  • происходит выселение пода с ноды из-за отсутствия ресурсов на ней или превышения лимитов.

Примечание: Большинство этих событий неспецифичны для Kubernetes и должны быть знакомы пользователю, за исключением проблемы с отсутствием ресурсов на ноде.
Читать дальше →
Total votes 18: ↑17 and ↓1 +16
Comments 1

Как следить за кластером Kubernetes: 6 главных метрик, на которые нужно обращать внимание

Reading time 9 min
Views 11K


Загвоздка с Kubernetes в том, что это не единая система, как, например, Redis RabbitMQ или PostgreSQL, а комбинация нескольких компонентов Control Plane: etcd, API-сервера и других. С помощью виртуальных машин или серверов они помогают контролировать пользовательские нагрузки, и от всех поступают огромные потоки метрик, в которых очень легко запутаться. 

Команда VK Cloud перевела статью о том, на какие именно метрики стоит обращать внимание в первую очередь, чтобы грамотно мониторить рабочие нагрузки и поддерживать кластеры в исправном состоянии.
Читать дальше →
Total votes 16: ↑16 and ↓0 +16
Comments 0

Everything Bagel, часть II: версионные таблицы озера данных в lakeFS и Trino

Reading time 5 min
Views 1.4K


Команда VK Cloud уже переводила статью о том, как развернуть локальный стек данных с помощью инструмента Everything Bagel. Теперь переводим вторую часть, в которой на практике разбираем, как выполнять запросы к разветвленным данным lakeFS через механизм распределенных запросов Trino.
Читать дальше →
Total votes 23: ↑23 and ↓0 +23
Comments 0

Как базы данных «ключ-значение» обеспечивают производительность и масштабируемость без границ

Reading time 8 min
Views 16K


Команда VK Cloud перевела статью о базах «ключ-значение». Вы узнаете, в чем их преимущества перед другими БД, какие базы работают по этому принципу и чем они отличаются между собой.

В чем суть баз «ключ-значение»


Суть проста — объекты в них хранятся и извлекаются с помощью ключа. Так мы прощаемся с:

  • таблицами, столбцами и вводом ant data — всем, что можно так или иначе назвать blob-объектом;
  • отношениями между объектами;
  • сложными операциями.

Что же мы получаем взамен, когда отбрасываем все это?
Читать дальше →
Total votes 30: ↑29 and ↓1 +28
Comments 11

Предохранители для данных: как автоматические выключатели повышают Data Quality

Reading time 7 min
Views 2.6K


Представьте, что бизнес-метрика неожиданно резко вырастает или проседает. Как понять, реальное это изменение или проблема с качеством данных? Команда VK Cloud перевела статью о том, как в компании Intuit решают этот вопрос с помощью предохранителей для пайплайнов данных.

В чем суть предохранителя


Если возникают проблемы с данными, предохранитель разрывает «цепь» и не пускает некачественные данные в следующие процессы обработки. В результате данные,  которые приходятся на периоды низкого качества, не входят в отчеты. А значит, можно быть уверенным в их корректности. 

Такой проактивный подход сокращает Time-to-Reliable-Insights до минут. А автоматизация обеспечивает прямую зависимость данных от их качества. Это позволяет избежать разрушительных авралов, которые возникают всякий раз, когда нужно проверить и поправить метрики или отчеты. Далее мы в подробностях рассмотрим, как внедрять такие предохранители.
Читать дальше →
Total votes 28: ↑28 and ↓0 +28
Comments 3

15 самых распространенных проблем с качеством данных (и способы их решения)

Reading time 5 min
Views 8.8K


Команда VK Cloud перевела статью о 15 самых популярных проблемах с Data Quality и способах их смягчения или даже полного избегания.

1. Неполные данные


Эта проблема самая распространенная. При ее возникновении в ключевых столбцах не хватает информации, либо содержатся неправильно выполненные задания ETL или данные, которые негативно влияют на дальнейшую аналитику. 

Решение. Внедрить контроль фреймворка для сверки данных. Он проверяет число записей, поступающих на разные уровни аналитики, и отправляет оповещение, если на каком-то уровне записей стало меньше.
Читать дальше →
Total votes 27: ↑26 and ↓1 +25
Comments 4

От сбора до использования: как повысить Data Quality на всех этапах работы с данными

Reading time 4 min
Views 2.8K


Представьте, что у вас только что появилось классное озеро данных с прикольными пайплайнами, которые собирают данные со всей компании. А теперь представьте свой шок, когда команды бизнес-специалистов поймут, что в озере данных — не данные, а мусор. 

Команда VK Cloud перевела статью о том, как следить за данными на каждом этапе и повысить их качество для грамотного использования.
Читать дальше →
Total votes 2: ↑2 and ↓0 +2
Comments 0

Отслеживание сетевого трафика в Kubernetes: примеры кода и практические советы

Reading time 17 min
Views 8.8K


Команда VK Cloud перевела статью об основных принципах работы сети в Kubernetes: как кластер принимает и отправляет пакеты начиная с исходного веб-запроса и до размещения приложения в контейнере.

Требования к сети в Kubernetes


Сначала давайте проясним требования к сети Kubernetes:

  • Под в кластере должен свободно взаимодействовать с любым другим подом без использования Network Address Translation (NAT).
  • Любая программа, работающая на узле кластера, должна взаимодействовать с любым подом на том же узле без использования NAT.
  • У каждого пода есть собственный IP-адрес (IP-per-Pod), и любой другой под может обратиться к нему по этому адресу.

Эти требования и ограничения описывают свойства сети кластера в целом и вынуждают отвечать на следующие вопросы: 

  1. Как убедиться, что контейнеры в одном и том же поде ведут себя как на одном хосте?
  2. Может ли под обращаться к другим подам в кластере?
  3. Может ли под обращаться к службам? Обрабатывают ли службы запросы о балансировке нагрузки?
  4. Может ли под получать трафик извне кластера?

В этой статье мы рассмотрим первые три пункта, начиная со взаимодействия на уровне подов и контейнеров.
Читать дальше →
Total votes 18: ↑18 and ↓0 +18
Comments 0

Что делать с дрейфом данных и концепций в продакшен-системах машинного обучения

Reading time 6 min
Views 3.2K


Когда вы запускаете ML-систему в продакшен-среде, все только начинается. С системой могут возникнуть проблемы, и вам придется с ними разбираться. 
Команда VK Cloud Solutions перевела статью о том, что делать с дрейфом данных и концепций: откуда берутся проблемы, как их распознать и предотвратить.
Читать дальше →
Total votes 21: ↑21 and ↓0 +21
Comments 0

Создание современной платформы для работы с данными с помощью Open-Source-решений

Reading time 16 min
Views 4.8K


Команда VK Cloud Solutions перевела краткий конспект с Open Source Data Stack Conference. Конференция была посвящена созданию платформ для работы с данными на базе Open-Source-решений —докладчики представляли свои идеи и технологии на примере вымышленной базы данных интернет-магазина. 

Автор пересказывает выступления о том, как с помощью ПО с открытым исходным кодом можно контролировать потоки клиентских данных в компании, решать задачи управления данными, Data Privacy, повышения эффективности работы Data-специалистов.
Читать дальше →
Total votes 17: ↑16 and ↓1 +15
Comments 0

Переобучению быть или не быть: когда пора обновлять модели машинного обучения

Reading time 16 min
Views 6.3K


Обучать ли модель ML повторно? Многие отвечают на этот вопрос интуитивно или действуют по взятой из ниоткуда схеме: по ночам, раз в месяц, «когда пользователи начинают жаловаться». Команда VK Cloud Solutions перевела статью о том, когда на самом деле стоит переобучать и на что опираться при принятии этого решения.

Примечание редакции: В оригинале статьи используют слово retrain. Мы перевели его как «переобучение», хотя обычно в русскоязычной среде этим термином описывают ситуации, когда модель излишне подгоняется на обучающих данных. В этой статье под переобучением имеют в виду именно повторное обучение модели с нуля.
Читать дальше →
Total votes 20: ↑19 and ↓1 +18
Comments 2

Как начать работать с библиотекой для машинного обучения Metaflow

Reading time 3 min
Views 4.6K


Metaflow — одна из лучших библиотек для машинного обучения, по мнению автора статьи, которая содержит простые аннотации на Python для создания Reproducible Data Engineering, обучения, валидации моделей и других этапов рабочего процесса. А еще модель позволяет выполнять их в локальной среде или в облаке. 

Команда VK Cloud Solutions перевела статью об этом опенсорсном решении, которое используют Netflix и многие другие компании для рабочих процессов в сфере машинного обучения и Data Science.
Читать дальше →
Total votes 39: ↑38 and ↓1 +37
Comments 0

Как улучшить архитектуру озера данных: два уровня прокачки

Reading time 3 min
Views 3.6K

Lake city by arsenixc

Построение озера данных на основе облачных сервисов предполагает активное использование объектного хранилища S3. Команда VK Cloud Solutions перевела статью, которая раскрывает тонкости Cloud Native Data Lake.
Читать дальше →
Total votes 40: ↑40 and ↓0 +40
Comments 0

Data-Science-процессы: Jupyter Notebook для продакшена

Reading time 9 min
Views 7.3K

Jovian Blues by ShootingStarLogBook

Рефакторинг написанного в Notebook кода для запуска в продакшене — трудная и ресурсоемкая задача. Команда VK Cloud Solutions перевела материал о том, как с помощью MLOps-инструментов и приемов сократить время от исследования до запуска решения. Описанное в статье — результат структурированного опыта дата-сайентистов и ML-разработчиков из сотен компаний.
Читать дальше →
Total votes 39: ↑38 and ↓1 +37
Comments 1

Настоящее и будущее дата-инжиниринга

Reading time 11 min
Views 6.7K

Future Indefinite — Oculus (Cover art) by Rowye

Несколько лет назад дата-сайентистов часто называли «единорогами». Все искали гениального full-stack-инженера-математика, способного вникнуть во все бизнес-проблемы. 

В последние два года мы пережили хайп по поводу AI/ML и стали свидетелями быстрого подъема профессии «дата-инженер». По данным отчета Dice о технических специальностях, в 2020 году потребность в дата-инженерах резко возросла ни много ни мало на 50 % — эта специальность быстро развивается.

Команда разработки облачной платформы VK Cloud Solution перевела статью о том, чего ждут от дата-инженеров сейчас и каким станет дата-инжиниринг в будущем.
Читать дальше →
Total votes 15: ↑14 and ↓1 +13
Comments 1

Четыре хитрости в работе с пайплайнами данных, о которых знают не все

Reading time 4 min
Views 6.6K

Dust-n-Rust by Spiritofdarkness

Команда разработки Cloud Big Data от VK Cloud Solution перевела статью с советами, которые касаются общих понятий работы с пайплайнами. Неважно, какую систему управления рабочими процессами вы используете, эти идеи можно применять везде. Сам автор пользуется Apache Airflow и приводит примеры кода на ее основе.

Эта статья будет полезна не только дата-инженерам, но и дата-сайентистам, так как хороший дата-сайентист тоже понимает принципы работы пайплайнов данных.
Читать дальше →
Total votes 23: ↑18 and ↓5 +13
Comments 2

Особенности платформы Rancher для управления кластерами Kubernetes

Reading time 11 min
Views 28K

Spaceship Central Bridge concepts by SolarSouth

За последние годы Kubernetes стал де-факто стандартом оркестровки контейнерных приложений. Но его самостоятельная установка и настройка — нетривиальная задача, которая может занять несколько дней. Именно поэтому многие компании предпочитают готовые решения. 

Команда Kubernetes aaS VK Cloud Solutions написала статью, посвященную платформе управления Kubernetes Rancher. Мы собрали для вас в одном месте всю основную справочную информацию об этой платформе: ее основных функциональных особенностях, кластерных операциях, внутреннем устройстве, безопасности и интеграции с внешними системами. И расскажем, когда вам подойдет именно Rancher, а когда стоит обратить внимание на другие инструменты.
Читать дальше →
Total votes 21: ↑21 and ↓0 +21
Comments 6

Как дата-сайентистам эффективно сотрудничать с дата-инженерами

Reading time 5 min
Views 2.3K

Junkyard Blues by Papaya-Style

Иногда дата-сайентистам и дата-инженерам сложно понять друг друга. И тогда первые получают не те данные, а вторые занимаются непонятными или даже невыполнимыми задачами.
 
Команда разработки облачной платформы VK Cloud Solution перевела статью бывшего дата-инженера, которая стала дата-сайентистом. Она рассказывает, как этим специалистам прийти к взаимопониманию и эффективнее работать над общими задачами. 
Читать дальше →
Total votes 16: ↑15 and ↓1 +14
Comments 0

Hudi, Iceberg и Delta Lake: сравнение табличных форматов для озера данных

Reading time 7 min
Views 7.3K

Lake Berryessa by chateaugrief

Выбор формата хранения данных при создании Data Lake влияет на производительность озера, удобство его использования и совместимость с другими инструментами. 

Команда разработки Cloud Big Data от VK Cloud Solution перевела статью — сравнение трех форматов данных: Apache Hudi, Apache Iceberg и Delta Lake. Посмотрим, какие в них применяются подходы к производительности обновлений, параллелизму и совместимости, и разберем, какой формат больше подойдет под ваши задачи.
Читать дальше →
Total votes 16: ↑16 and ↓0 +16
Comments 0
1

Information

Rating
Does not participate
Works in
Registered
Activity