Как стать автором
Обновить
21
0

Пользователь

Отправить сообщение

Apache Spark на Kubernetes: какие уроки можно извлечь из запуска миллионов исполнителей Spark

Время на прочтение4 мин
Количество просмотров3K


Команда VK Cloud перевела конспект доклада с конференции Data+AI Summit 2022. В своём выступлении Чжоу Цзян и Ааруна Годти из Apple описывают, как построили централизованный кластер Apache Spark на базе Kubernetes, который обрабатывает свыше 380 тыс. заданий Spark в день. Такой объем заданий поддерживает аналитические процессы и эксперименты дата-сайентистов компании Apple. Доклад целиком можно посмотреть здесь.
Читать дальше →
Всего голосов 17: ↑17 и ↓0+17
Комментарии0

Что делать со сбоями в подах: практическое руководство с примерами конфигураций

Время на прочтение5 мин
Количество просмотров3.3K


Команда VK Cloud перевела статью о том, почему возникают сбои в кластерах Kubernetes и как с ними бороться.

Осознанные прерывания и непреднамеренные сбои


Поды исчезают по причинам двух категорий: если возникает неустранимая ошибка аппаратного обеспечения или системы либо если их уничтожает человек или контроллер. Первую категорию необратимых ситуаций мы называем непреднамеренными сбоями приложения. Например:

  • происходит сбой оборудования, на котором размещен узел;
  • администратор кластера по ошибке удаляет (экземпляр) виртуальную машину;
  • ВМ исчезает из-за сбоя в работе гипервизора или облачного провайдера;
  • возникает критическая ошибка ядра;
  • узел исчезает из кластера из-за сетевого раздела кластера;
  • происходит выселение пода с ноды из-за отсутствия ресурсов на ней или превышения лимитов.

Примечание: Большинство этих событий неспецифичны для Kubernetes и должны быть знакомы пользователю, за исключением проблемы с отсутствием ресурсов на ноде.
Читать дальше →
Всего голосов 10: ↑9 и ↓1+16
Комментарии1

Как следить за кластером Kubernetes: 6 главных метрик, на которые нужно обращать внимание

Время на прочтение9 мин
Количество просмотров13K


Загвоздка с Kubernetes в том, что это не единая система, как, например, Redis RabbitMQ или PostgreSQL, а комбинация нескольких компонентов Control Plane: etcd, API-сервера и других. С помощью виртуальных машин или серверов они помогают контролировать пользовательские нагрузки, и от всех поступают огромные потоки метрик, в которых очень легко запутаться. 

Команда VK Cloud перевела статью о том, на какие именно метрики стоит обращать внимание в первую очередь, чтобы грамотно мониторить рабочие нагрузки и поддерживать кластеры в исправном состоянии.
Читать дальше →
Всего голосов 16: ↑16 и ↓0+16
Комментарии0

Everything Bagel, часть II: версионные таблицы озера данных в lakeFS и Trino

Время на прочтение5 мин
Количество просмотров1.7K


Команда VK Cloud уже переводила статью о том, как развернуть локальный стек данных с помощью инструмента Everything Bagel. Теперь переводим вторую часть, в которой на практике разбираем, как выполнять запросы к разветвленным данным lakeFS через механизм распределенных запросов Trino.
Читать дальше →
Всего голосов 23: ↑23 и ↓0+23
Комментарии0

Как базы данных «ключ-значение» обеспечивают производительность и масштабируемость без границ

Время на прочтение8 мин
Количество просмотров19K


Команда VK Cloud перевела статью о базах «ключ-значение». Вы узнаете, в чем их преимущества перед другими БД, какие базы работают по этому принципу и чем они отличаются между собой.

В чем суть баз «ключ-значение»


Суть проста — объекты в них хранятся и извлекаются с помощью ключа. Так мы прощаемся с:

  • таблицами, столбцами и вводом ant data — всем, что можно так или иначе назвать blob-объектом;
  • отношениями между объектами;
  • сложными операциями.

Что же мы получаем взамен, когда отбрасываем все это?
Читать дальше →
Всего голосов 15: ↑14 и ↓1+28
Комментарии11

Предохранители для данных: как автоматические выключатели повышают Data Quality

Время на прочтение7 мин
Количество просмотров2.7K


Представьте, что бизнес-метрика неожиданно резко вырастает или проседает. Как понять, реальное это изменение или проблема с качеством данных? Команда VK Cloud перевела статью о том, как в компании Intuit решают этот вопрос с помощью предохранителей для пайплайнов данных.

В чем суть предохранителя


Если возникают проблемы с данными, предохранитель разрывает «цепь» и не пускает некачественные данные в следующие процессы обработки. В результате данные,  которые приходятся на периоды низкого качества, не входят в отчеты. А значит, можно быть уверенным в их корректности. 

Такой проактивный подход сокращает Time-to-Reliable-Insights до минут. А автоматизация обеспечивает прямую зависимость данных от их качества. Это позволяет избежать разрушительных авралов, которые возникают всякий раз, когда нужно проверить и поправить метрики или отчеты. Далее мы в подробностях рассмотрим, как внедрять такие предохранители.
Читать дальше →
Всего голосов 28: ↑28 и ↓0+28
Комментарии3

15 самых распространенных проблем с качеством данных (и способы их решения)

Время на прочтение5 мин
Количество просмотров9.2K


Команда VK Cloud перевела статью о 15 самых популярных проблемах с Data Quality и способах их смягчения или даже полного избегания.

1. Неполные данные


Эта проблема самая распространенная. При ее возникновении в ключевых столбцах не хватает информации, либо содержатся неправильно выполненные задания ETL или данные, которые негативно влияют на дальнейшую аналитику. 

Решение. Внедрить контроль фреймворка для сверки данных. Он проверяет число записей, поступающих на разные уровни аналитики, и отправляет оповещение, если на каком-то уровне записей стало меньше.
Читать дальше →
Всего голосов 17: ↑16 и ↓1+25
Комментарии4

От сбора до использования: как повысить Data Quality на всех этапах работы с данными

Время на прочтение4 мин
Количество просмотров3K


Представьте, что у вас только что появилось классное озеро данных с прикольными пайплайнами, которые собирают данные со всей компании. А теперь представьте свой шок, когда команды бизнес-специалистов поймут, что в озере данных — не данные, а мусор. 

Команда VK Cloud перевела статью о том, как следить за данными на каждом этапе и повысить их качество для грамотного использования.
Читать дальше →
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Отслеживание сетевого трафика в Kubernetes: примеры кода и практические советы

Время на прочтение17 мин
Количество просмотров10K


Команда VK Cloud перевела статью об основных принципах работы сети в Kubernetes: как кластер принимает и отправляет пакеты начиная с исходного веб-запроса и до размещения приложения в контейнере.

Требования к сети в Kubernetes


Сначала давайте проясним требования к сети Kubernetes:

  • Под в кластере должен свободно взаимодействовать с любым другим подом без использования Network Address Translation (NAT).
  • Любая программа, работающая на узле кластера, должна взаимодействовать с любым подом на том же узле без использования NAT.
  • У каждого пода есть собственный IP-адрес (IP-per-Pod), и любой другой под может обратиться к нему по этому адресу.

Эти требования и ограничения описывают свойства сети кластера в целом и вынуждают отвечать на следующие вопросы: 

  1. Как убедиться, что контейнеры в одном и том же поде ведут себя как на одном хосте?
  2. Может ли под обращаться к другим подам в кластере?
  3. Может ли под обращаться к службам? Обрабатывают ли службы запросы о балансировке нагрузки?
  4. Может ли под получать трафик извне кластера?

В этой статье мы рассмотрим первые три пункта, начиная со взаимодействия на уровне подов и контейнеров.
Читать дальше →
Всего голосов 18: ↑18 и ↓0+18
Комментарии0

Что делать с дрейфом данных и концепций в продакшен-системах машинного обучения

Время на прочтение6 мин
Количество просмотров3.5K


Когда вы запускаете ML-систему в продакшен-среде, все только начинается. С системой могут возникнуть проблемы, и вам придется с ними разбираться. 
Команда VK Cloud Solutions перевела статью о том, что делать с дрейфом данных и концепций: откуда берутся проблемы, как их распознать и предотвратить.
Читать дальше →
Всего голосов 21: ↑21 и ↓0+21
Комментарии0

Создание современной платформы для работы с данными с помощью Open-Source-решений

Время на прочтение16 мин
Количество просмотров5.2K


Команда VK Cloud Solutions перевела краткий конспект с Open Source Data Stack Conference. Конференция была посвящена созданию платформ для работы с данными на базе Open-Source-решений —докладчики представляли свои идеи и технологии на примере вымышленной базы данных интернет-магазина. 

Автор пересказывает выступления о том, как с помощью ПО с открытым исходным кодом можно контролировать потоки клиентских данных в компании, решать задачи управления данными, Data Privacy, повышения эффективности работы Data-специалистов.
Читать дальше →
Всего голосов 9: ↑8 и ↓1+15
Комментарии0

Переобучению быть или не быть: когда пора обновлять модели машинного обучения

Время на прочтение16 мин
Количество просмотров6.9K


Обучать ли модель ML повторно? Многие отвечают на этот вопрос интуитивно или действуют по взятой из ниоткуда схеме: по ночам, раз в месяц, «когда пользователи начинают жаловаться». Команда VK Cloud Solutions перевела статью о том, когда на самом деле стоит переобучать и на что опираться при принятии этого решения.

Примечание редакции: В оригинале статьи используют слово retrain. Мы перевели его как «переобучение», хотя обычно в русскоязычной среде этим термином описывают ситуации, когда модель излишне подгоняется на обучающих данных. В этой статье под переобучением имеют в виду именно повторное обучение модели с нуля.
Читать дальше →
Всего голосов 11: ↑10 и ↓1+18
Комментарии2

Как начать работать с библиотекой для машинного обучения Metaflow

Время на прочтение3 мин
Количество просмотров4.8K


Metaflow — одна из лучших библиотек для машинного обучения, по мнению автора статьи, которая содержит простые аннотации на Python для создания Reproducible Data Engineering, обучения, валидации моделей и других этапов рабочего процесса. А еще модель позволяет выполнять их в локальной среде или в облаке. 

Команда VK Cloud Solutions перевела статью об этом опенсорсном решении, которое используют Netflix и многие другие компании для рабочих процессов в сфере машинного обучения и Data Science.
Читать дальше →
Всего голосов 28: ↑27 и ↓1+37
Комментарии0

Как улучшить архитектуру озера данных: два уровня прокачки

Время на прочтение3 мин
Количество просмотров3.8K

Lake city by arsenixc

Построение озера данных на основе облачных сервисов предполагает активное использование объектного хранилища S3. Команда VK Cloud Solutions перевела статью, которая раскрывает тонкости Cloud Native Data Lake.
Читать дальше →
Всего голосов 40: ↑40 и ↓0+40
Комментарии0

Data-Science-процессы: Jupyter Notebook для продакшена

Время на прочтение9 мин
Количество просмотров7.9K

Jovian Blues by ShootingStarLogBook

Рефакторинг написанного в Notebook кода для запуска в продакшене — трудная и ресурсоемкая задача. Команда VK Cloud Solutions перевела материал о том, как с помощью MLOps-инструментов и приемов сократить время от исследования до запуска решения. Описанное в статье — результат структурированного опыта дата-сайентистов и ML-разработчиков из сотен компаний.
Читать дальше →
Всего голосов 28: ↑27 и ↓1+37
Комментарии1

Настоящее и будущее дата-инжиниринга

Время на прочтение11 мин
Количество просмотров7.1K

Future Indefinite — Oculus (Cover art) by Rowye

Несколько лет назад дата-сайентистов часто называли «единорогами». Все искали гениального full-stack-инженера-математика, способного вникнуть во все бизнес-проблемы. 

В последние два года мы пережили хайп по поводу AI/ML и стали свидетелями быстрого подъема профессии «дата-инженер». По данным отчета Dice о технических специальностях, в 2020 году потребность в дата-инженерах резко возросла ни много ни мало на 50 % — эта специальность быстро развивается.

Команда разработки облачной платформы VK Cloud Solution перевела статью о том, чего ждут от дата-инженеров сейчас и каким станет дата-инжиниринг в будущем.
Читать дальше →
Всего голосов 9: ↑8 и ↓1+13
Комментарии1

Четыре хитрости в работе с пайплайнами данных, о которых знают не все

Время на прочтение4 мин
Количество просмотров6.8K

Dust-n-Rust by Spiritofdarkness

Команда разработки Cloud Big Data от VK Cloud Solution перевела статью с советами, которые касаются общих понятий работы с пайплайнами. Неважно, какую систему управления рабочими процессами вы используете, эти идеи можно применять везде. Сам автор пользуется Apache Airflow и приводит примеры кода на ее основе.

Эта статья будет полезна не только дата-инженерам, но и дата-сайентистам, так как хороший дата-сайентист тоже понимает принципы работы пайплайнов данных.
Читать дальше →
Всего голосов 11: ↑6 и ↓5+13
Комментарии2

Особенности платформы Rancher для управления кластерами Kubernetes

Время на прочтение11 мин
Количество просмотров36K

Spaceship Central Bridge concepts by SolarSouth

За последние годы Kubernetes стал де-факто стандартом оркестровки контейнерных приложений. Но его самостоятельная установка и настройка — нетривиальная задача, которая может занять несколько дней. Именно поэтому многие компании предпочитают готовые решения. 

Команда Kubernetes aaS VK Cloud Solutions написала статью, посвященную платформе управления Kubernetes Rancher. Мы собрали для вас в одном месте всю основную справочную информацию об этой платформе: ее основных функциональных особенностях, кластерных операциях, внутреннем устройстве, безопасности и интеграции с внешними системами. И расскажем, когда вам подойдет именно Rancher, а когда стоит обратить внимание на другие инструменты.
Читать дальше →
Всего голосов 21: ↑21 и ↓0+21
Комментарии6

Как дата-сайентистам эффективно сотрудничать с дата-инженерами

Время на прочтение5 мин
Количество просмотров2.3K

Junkyard Blues by Papaya-Style

Иногда дата-сайентистам и дата-инженерам сложно понять друг друга. И тогда первые получают не те данные, а вторые занимаются непонятными или даже невыполнимыми задачами.
 
Команда разработки облачной платформы VK Cloud Solution перевела статью бывшего дата-инженера, которая стала дата-сайентистом. Она рассказывает, как этим специалистам прийти к взаимопониманию и эффективнее работать над общими задачами. 
Читать дальше →
Всего голосов 7: ↑6 и ↓1+14
Комментарии0

Hudi, Iceberg и Delta Lake: сравнение табличных форматов для озера данных

Время на прочтение7 мин
Количество просмотров10K

Lake Berryessa by chateaugrief

Выбор формата хранения данных при создании Data Lake влияет на производительность озера, удобство его использования и совместимость с другими инструментами. 

Команда разработки Cloud Big Data от VK Cloud Solution перевела статью — сравнение трех форматов данных: Apache Hudi, Apache Iceberg и Delta Lake. Посмотрим, какие в них применяются подходы к производительности обновлений, параллелизму и совместимости, и разберем, какой формат больше подойдет под ваши задачи.
Читать дальше →
Всего голосов 16: ↑16 и ↓0+16
Комментарии0
1

Информация

В рейтинге
Не участвует
Работает в
Зарегистрирован
Активность