Статьи / Профиль yrepear / Хабр

Как стать автором

Алексей Курих @yrepear

Разработчик связей с общественностью

Профиль Публикации 30Комментарии 4Закладки 8

yrepear 24 мар 2023 в 11:37

Согласованность данных: что это на самом деле такое и почему с ней все так сложно

10 мин

14K

Блог компании VKNoSQL*Администрирование баз данных*Хранение данных*

Перевод

Понятие согласованности данных сложное, неоднозначное и включает в себя широкий спектр определений, лишь частично совпадающих друг с другом. Команда VK Cloud перевела статью, в которой автор определяет термин «согласованность» в области распределенных БД и рассуждает на тему этой самой согласованности.

Читать дальше →

+32

yrepear 17 мар 2023 в 13:36

Как быстро и просто обновлять YAML-файлы с помощью kubectl

2 мин

3.2K

Блог компании VKDevOps*Kubernetes*

Туториал

Перевод

Первое, что приходит в голову, когда речь идёт про обновление YAML-файлов — использовать sed, awk или perl и т.п. Но если использовать встроенную функцию Kubectl patch, дело пойдёт значительно проще. Команда VK Cloud перевела статью о более простом способе обновления YAML-файлов.

Читать дальше →

+23

yrepear 7 мар 2023 в 11:54

Data Mesh: что это такое и для чего он нужен инженерам

11 мин

11K

Блог компании VKBig Data*Хранилища данных*

Перевод

Команда VK Cloud перевела статью о новом подходе к построению архитектуры данных Data Mesh с помощью lakeFS — системы управления версиями данных с открытым исходным кодом, которая преобразует хранилище объектов в Git-подобные репозитории. Разбираем, что такое Data Mesh, суть этого подхода и как с его помощью повысить эффективность работы с данными.

Читать дальше →

+15

yrepear 27 фев 2023 в 17:38

Реализация мультиоблачной стратегии для Cloud Storage в Битрикс24

8 мин

1.8K

Блог компании VKБлог компании Битрикс24Big Data*Хранилища данных*Облачные сервисы*

Битрикс24 — корпоративное SaaS-решение (Software as a Service, программное обеспечение как услуга), которым пользуются компании разного масштаба и профиля для коммуникации между сотрудниками, хранения файлов, документов, ведения CRM. Битрикс24 используют тысячи клиентов, каждый из которых генерирует и хранит на базе сервиса гигабайты и даже терабайты данных. Для их хранения используется объектное S3-хранилище Cloud Storage от VK Cloud.

Директор направления облачных сервисов Битрикс24 Александр Демидов рассказал команде VK Cloud, зачем понадобилось S3-хранилище, как его внедряли и интегрировали в архитектуру облачного сервиса Битрикс24.

Читать дальше →

+25

yrepear 22 фев 2023 в 12:19

Иерархические пространства имен в Kubernetes: объясняем на примере

7 мин

6.8K

Блог компании VKDevOps*Kubernetes*

Перевод

Пространства имен — критически важный ресурс для поддержки мультитенантной архитектуры кластера Kubernetes. Но ими трудно управлять при работе с крупномасштабными мультитенантными кластерами. К счастью, процесс можно упростить, добавив в Kubernetes функцию иерархических пространств имен. Команда VK Cloud перевела статью о том, как это сделать.

Это статья для тех, у кого есть общее представление о Kubernetes, кластерах, контейнерах и подах. Также потребуются базовые знания о пространствах имен в Kubernetes.

Читать дальше →

+13

yrepear 15 фев 2023 в 11:04

Как MLOps помогает обеспечить гибкость машинного обучения и стимулирует инновации

6 мин

1.9K

Блог компании VKBig Data*Машинное обучение*

Многие компании внедряли машинное обучение рывками, приобретая и разрабатывая модели, алгоритмы, инструменты и сервисы под конкретные задачи. Этот подход неизбежен на старте, когда бизнес только узнает о возможностях технологий. Но в результате получается сборная солянка из изолированных, запускаемых вручную, нестандартизированных процессов и компонентов. Как следствие, появляются неэффективные громоздкие сервисы, которые приносят меньше пользы, чем могли бы, или полностью блокируют дальнейшее развитие.

Команда VK Cloud перевела статью о значимости стандартизации и автоматизации ML-процессов и как с этим поможет подход MLOps.

Читать дальше →

+19

yrepear 1 фев 2023 в 11:28

Что выбрать для очередного API: HTTP или gRPC

6 мин

20K

Блог компании VKПрограммирование*API*

Команда VK Cloud перевела статью с подробным техническим сравнением двух типов API: HTTP и gRPC. Автор рассказывает о своем опыте работы и описывает нюансы, преимущества и недостатки каждой технологии.

Читать дальше →

+29

yrepear 18 янв 2023 в 10:56

13 распространенных задач в Kubernetes и способы их решения

13 мин

24K

Блог компании VKDevOps*Kubernetes*

Команда VK Cloud перевела статью о проблемах в Kubernetes, с которыми часто сталкиваются инженеры-разработчики при запуске новых масштабируемых отказоустойчивых веб-сервисов.

Читать дальше →

+40

yrepear 16 дек 2022 в 10:48

Семь прогнозов: что ждет data-инжиниринг в 2023 году

7 мин

4.9K

Блог компании VKBig Data*Машинное обучение*

Команда VK Cloud перевела статью о том, что ждет дата-инжиниринг в новом 2023 году. Предсказания на грядущий год редко претендуют на серьезность, но и у них есть своя цель. Они помогают нам отвлечься от повседневности и задуматься о том, на что стоит ставить в долгосрочной перспективе.

Читать дальше →

+15

yrepear 14 дек 2022 в 12:15

Классика, визуализация и GNN: три решения для ML-модели с графовыми данными

7 мин

2.3K

Блог компании VKАлгоритмы*Big Data*Машинное обучение*

Большинство современных нейросетей построены на основе графовых данных. Однако чтобы спроектировать на их основе сложную систему, ML-модель должна уметь эти данные векторизировать, а это далеко не тривиальная задача.

Мы задали ее командам-участникам хакатона «Цифровой прорыв в ЦФО», который прошел в сентябре в московском офисе VK. И сейчас покажем три, на наш взгляд, лучших решения и подхода к созданию моделей на основе графов.

Читать дальше →

+14

yrepear 7 дек 2022 в 10:27

Вся правда о кубах данных OLAP: развенчиваем мифы

4 мин

46K

Блог компании VKBig Data*Хранилища данных*

Кубы данных — не самая простая тема в дата-инжиниринге. Это тот самый случай, когда на пять запросов об определении приходятся пять разных вариантов ответа. Эта неоднозначность породила неудачную универсальную метафору, с помощью которой описываются кубы данных, — схему трехмерного куба. При этом в объяснениях нет примеров, рассказывающих, как в дата-пайплайне реализуется эта концепция.

Читать дальше →

+36

yrepear 2 дек 2022 в 10:17

Выбросьте блокноты, или почему заниматься Data Science нужно так, будто вы разработчик

7 мин

13K

Блог компании VKBig Data*Машинное обучение*

Большинство дата-сайентистов использовали или до сих пор используют notebooks. В чем-то это здорово, но кажется, что дата-сайентисты должны действовать как разработчики. И поэтому с notebooks надо переходить на скрипты, разрабатываемые в IDE.

Читать дальше →

+15

yrepear 23 ноя 2022 в 13:16

Двухсторонние очереди в Python: как альтернатива спискам повышает производительность

4 мин

14K

Блог компании VKPython*Программирование*Машинное обучение*

Когда речь заходит о хранении данных упорядоченной последовательности, многим в первую очередь приходит в голову мысль о списках. Пожалуй, списки считают самой популярной контейнерной структурой данных и часто используют для хранения данных любого типа, в том числе целых чисел, строк или пользовательских экземпляров. Изменяемость списков — одна из главных причин этой популярности: элементы списка можно добавлять и удалять.

В некоторых приложениях необходима обработка данных по методу FIFO (first-in, first-out). Он подразумевает, что элементы, добавленные в последовательность первыми (first-in), будут первыми из неë удалены (first-out). Эту задачу можно решить и с помощью объекта «список», и с помощью двухсторонних очередей. Но для этой цели двухсторонние очереди удобнее списков благодаря особенностям их реализации.

Читать дальше →

+38

yrepear 31 окт 2022 в 12:32

Вижу цель: три решения задачи по созданию предсказательной ML-модели

6 мин

1.8K

Блог компании VKBig Data*

Использование интеллектуальных систем в продуктах на пике популярности: алгоритмы помогают определить, какую музыку и фильмы предпочитают пользователи, куда они хотят полететь в отпуск, — и почти никогда не ошибаются.

Создание точных интеллектуальных систем — актуальная и сложная задача. Актуальная, потому что интеллектуальные системы активно используют, например, интернет-магазины, стриминговые сервисы, развлекательные площадки. Алгоритмы помогают компаниям повысить конверсию и средний чек, увеличить лояльность и уменьшить отток клиентов.

Читать дальше →

+35

yrepear 26 окт 2022 в 11:49

Что ждет data-инжиниринг в будущем

4 мин

3.7K

Блог компании VKBig Data*Хранилища данных*

Отношение к data-инжинирингу и к профильным специалистам со временем меняется. Возможно ли, что в скором времени data-инженеры перестанут быть востребованными? Команда VK Cloud перевела статью о ближайшем будущем для всех тех, кто работает с данными.

Что такое data-инжиниринг

Давно ли работающие с данными компании открыли новую профессиональную область и мы услышали термин «data-инжиниринг»? Лет десять назад. Когда бизнес осознал, насколько полезными могут быть данные, спрос на data-инженеров резко вырос. По данным Google, отмечается экспоненциальный рост интереса к термину «data-инженер», который достиг пика примерно в 2020 году.

Так что же такое data-инжиниринг, столь стремительно набравший обороты и остающийся востребованным вот уже несколько лет? В традиционном понимании data-инженерами называют людей, занимающихся перемещением, формированием и преобразованием данных из источников с помощью инструментов извлечения аналитических сведений, которые нужны для работы разных отделов компании.

Читать дальше →

+14

yrepear 19 окт 2022 в 12:09

Эволюция архитектуры данных: как потребности бизнеса изменили инструменты для хранения данных

7 мин

6.6K

Блог компании VKBig Data*Машинное обучение*Хранилища данных*DevOps*

Команда VK Cloud перевела статью о том, как с течением времени менялась и развивалась архитектура данных и какие инструменты появлялись в ответ на потребности бизнеса.

Введение

Задачи по работе с данными отделяют от бизнес- и других аналитических задач (BI, дата-сайенс, когнитивные решения и т. п.) с тех пор, как появились первые ИТ-системы и бизнес-приложения. Из-за высокой ресурсоемкости рабочие нагрузки по аналитической обработке данных приходится отделять от ИТ-систем, отвечающих за бизнес-операции, иначе они столкнутся со сбоями и нехваткой ресурсов, что приведет к неудобствам для пользователей, работающих с системой.

Читать дальше →

+23

yrepear 12 окт 2022 в 11:05

Подводные камни Spark: что делать с перезаписью и дополнением в таблицах

11 мин

4.1K

Блог компании VKАдминистрирование баз данных*Big Data*Хранение данных*Хранилища данных*

Таблицы — это фундаментальная часть заданий Spark, и при изучении документации кажется, что работать с ними нетрудно. На самом же деле опасности поджидают на каждом повороте. Команда VK Cloud перевела статью о том, с какими трудностями вы можете столкнуться и как их преодолеть.

Читать дальше →

+16