Apache *

Свободный веб-сервер

Статьи Посты Новости Авторы Компании

mdaff 27 сен 2023 в 12:12

Зеркалирование топиков Kafka по-бруклински

Сложный

22 мин

5.2K

Блог компании Ozon TechВысокая производительность*Системное администрирование*IT-инфраструктура*Apache*

Туториал

Буквально на секунду представьте, что у вас есть парочка здоровенных кластеров Apache Kafka, каждый из которых держит по нескольку миллионов rps. И тут вас попросили зеркалировать топик из одного кластера в другой. Максимально близко к реалтайму, да ещё и с некоторыми специфическими условиями. Если стало страшно, интересно или страшно интересно, то это статья для вас.

Под катом я расскажу, что такое зеркалирование и зачем оно нужно. Как нам перестало хватать Mirror Maker’а. Поговорим о возможных решениях и выборе между ними. И дам подробную инструкцию, как вам развернуть такое решение у себя.

+29

gongled 31 мая 2023 в 12:05

Kafka за 20 минут. Ментальная модель и как с ней работать

Средний

19 мин

75K

Блог компании СберМаркетIT-инфраструктура*Apache*Хранение данных*Микросервисы*

Туториал

✏️ Технотекст 2023

Привет! Меня зовут Глеб Гончаров, и я руковожу подгруппой ИТ-инфраструктуры в СберМаркете. В работе мы широко используем Kafka как шину данных для микросервисов и не раз убедились на практике, что к инструменту важно подобрать правильный подход. Об этом сегодня и поговорим в двух частях — сначала обсудим основы, а в конце статьи будет ссылка на практические задания.

+41

Anna_sokol22 15 сен 2022 в 10:18

5 типичных ошибок при использовании Apache Kafka

10 мин

17K

Блог компании СлёрмСистемное администрирование*Apache*DevOps*

Даже если у вас большой опыт работы с Apache Kafka, время от времени наверняка случается зайти в тупик. Например, когда вы конфигурируете и изучаете клиенты или настраиваете и отслеживаете брокеры. Попробуй за всем уследить, когда в конвейере Kafka столько компонентов. В этой статье описано пять частых ошибок и советы по тому, как их избежать на всех этапах — от конфигурирования клиентов и брокеров до планирования и мониторинга. Эти рекомендации сэкономят вам время и силы.

+35

ITSumma 28 июл 2022 в 11:06

Как собрать платформу обработки данных «своими руками»?

5 мин

10K

Блог компании ITSummaApache*Big Data*DIY или Сделай самData Engineering*

Большое количество российских компаний столкнулись с ограничениями в области ПО. Они теперь не имеют возможности использовать многие важные инструменты для работы с данными. Но, как говорится, одна дверь закрылась — другая открылась. Альтернатива зарубежным решениям есть: платформу обработки данных можно создать своими силами. Расскажем, как мы в ITSumma это сделали, какие компоненты использовали, с какими ограничениями столкнулись и зачем вообще всё это нужно.

Предыстория (очень короткая)

Один заказчик, который заинтересовался нашими компетенциям в построении инфраструктур, предложил крупный интеграционный проект. Архитекторы клиента придумали сложную и большую платформу, которая включала в себя машинное обучение, обработку данных и управлялась с помощью Kubernetes. Нам поставили задачу реализовать проект платформы, настроить связность элементов, построить и запустить инфраструктуру в эксплуатацию.

В итоге всё прошло хорошо и заказчик доволен. А у нас возникла идея скомпоновать свою платформу — такую, чтобы она была доступной не только большому бизнесу, но и компаниям среднего и малого масштаба. То есть сделать так, чтобы можно было получать большие возможности и не платить при этом огромные деньги.

Читать дальше →

+30

edeshina 22 июн 2022 в 17:42

Обкафкился по полной: 3 фейла с Apache Kafka

6 мин

20K

Блог компании СлёрмСистемное администрирование*Программирование*IT-инфраструктура*Apache*

Недавно мы проводили вебинар «Обкафкился по полной. Фейлы с Apache Kafka». На нём спикер Всеволод Севостьянов, Engineering Manager в HelloFresh, поделился фейлами из личной практики, а ещё рассказал, как мастерски ходить по тонкому льду Kafka и прокачать свой бэкенд. Для тех, кто пропустил или предпочитает читать, а не смотреть, подготовили текстовый вариант.

+27

nebelpfade 28 апр 2022 в 10:36

Как мы построили корпоративную шину данных на Kafka, которая обрабатывает до 3 млн сообщений в секунду

10 мин

27K

Блог компании Конференции Олега Бунина (Онтико)Блог компании ПочтатехВысокая производительность*IT-инфраструктура*Apache*

Привет! Меня зовут Иван Гаас, я руковожу автоматизацией процессов разработки в Почтатехе — компании, создающей цифровые продукты для Почты России.

Среднее количество сообщений, которые мы обрабатываем в Почте — от 500 тысяч до миллиона в секунду. В пики, когда наша big data прогоняет свои 25 петабайт данных — до 3 миллионов. При этом кластер Kafka состоит всего из 12 серверов в каждом из 3 дата-центров и справляется с этим.

C 2016 года мы в три раза увеличили количество новых цифровых сервисов. Корпоративная шина на Kafka помогла быстро масштабироваться: количество интеграций за последнее время упало с 1000 до 300 и теперь растёт незначительно. Если раньше интеграция сервиса растягивалась на месяцы, то теперь достаточно нескольких дней.

Я расскажу, как мы построили шину, которая обеспечивает такую производительность.

+35

olegbunin 17 сен 2021 в 10:17

Как прикрутить SQL к чему угодно при помощи Apache Calcite

11 мин

13K

Блог компании Конференции Олега Бунина (Онтико)Высокая производительность*SQL*Apache*Конференции

Сделать свою собственную SQL-базу данных или запускать SQL-запросы в NoSQL-базе данных — кажется, это очень непростая задача. А если мы говорим о распределенной БД, то сложность возрастает многократно. Но, к счастью, Apache Calcite — фреймворк с открытым кодом — поможет сделать это довольно легко.

Роман Кондаков, Software Engineer в Querify Labs, на конференции HighLoad++ Весна 2021 рассказал об опыте интеграции Apache Calcite в распределенную in-memory-платформу Apache Ignite. Если ваша система распределена, и вы хотите завести в ней SQL, читайте про то, как устроен Apache Calcite и какие есть нюансы его использования для распределенных систем. Видео его выступления можно посмотреть здесь.

+28

aistaf 3 сен 2021 в 11:42

Как поменять архитектуру облака и не поломать пользовательский опыт

7 мин

3.4K

Блог компании Конференции Олега Бунина (Онтико)Блог компании SelectelApache*DevOps*Облачные сервисы*

Каждой компании важно оправдать ожидания клиентов, особенно публичному сервису. В случае облачных провайдеров клиенты приходят, чтобы быстро и привычным способом получить, например, виртуальную машину. Их мало волнует, что бывает взрывной рост запросов, в ЦОД приезжает новое железо, а инженеры заняты масштабной миграцией другого пользователя. Клиентам важно быстро получить услуги и отказоустойчивость сервиса. Любое, даже незначительное изменение во внутреннем пространстве сервиса может привести к проблемам на стороне клиентов, как минимум к увеличению времени создания машины.

Константин Еремин, старший системный администратор дежурной службы «Облачной платформы Selectel», рассказал, как поменять архитектуру облака на OpenStack и не поломать пользовательский опыт. На примере выдуманного провайдера Vanilla cloud solutions он объяснил, как определить масштаб проблемы. Почему, перебрав различные варианты, разработчики пришли к Apache Airflow? Какую схему использовали для реализации своих задач и что им удалось сделать с облачным сервисом с помощью выбранного инструмента? Рассказываем под катом.

+40

Polina_Averina 16 апр 2021 в 08:05

Apache Kafka — скоро без ZooKeeper

6 мин

17K

Блог компании СлёрмСистемное администрирование*Программирование*IT-инфраструктура*Apache*

Перевод

В основе Apache Kafka находится лог — простая структура данных, которая использует последовательные операции, работающие в симбиозе с оборудованием. Эффективное использование дискового буфера и кэша процессора, prefetch, передача данных zero-copy и много других радостей — все это благодаря построенной на логе структуре, которая славится своей эффективностью и пропускной способностью. Обычно эти преимущества, а еще базовая реализация в виде лога коммитов, — первое, что люди узнают о Kafka.

Код самого лога составляет относительно малую часть всей системы. Гораздо больше занимает код, который отвечает за организацию партиций (т. е. логов) на множестве брокеров в кластере — назначает лидеров, обрабатывает сбои и т. д. Этот код и делает Kafka надежной распределенной системой.

Раньше важной частью работы распределенного кода был Apache ZooKeeper. Он хранил самые важные метаданные системы: где находятся партиции, кто из реплик лидер и т. д.

Читать дальше →

+35

Polina_Averina 7 апр 2021 в 09:18

Apache Kafka: основы технологии

9 мин

362K

Блог компании СлёрмСистемное администрирование*Программирование*IT-инфраструктура*Apache*

У Kafka есть множество способов применения, и у каждого способа есть свои особенности. В этой статье разберём, чем Kafka отличается от популярных систем обмена сообщениями; рассмотрим, как Kafka хранит данные и обеспечивает гарантию сохранности; поймём, как записываются и читаются данные.

Статья подготовлена на основе открытого занятия из видеокурса по Apache Kafka. Авторы — Анатолий Солдатов, Lead Engineer в Авито, и Александр Миронов, Infrastructure Engineer в Stripe. Базовые темы курса доступны на Youtube.

+29

Ivan8b 4 мар 2021 в 10:00

Интеграционный слой с Kafka и микросервисами: опыт построения операционной CRM контакт-центра торговой сети Пятерочка

8 мин

12K

Блог компании КРОКIT-инфраструктура*Apache*CRM-системы*Микросервисы*

Из этого поста вы узнаете, зачем добавлять в интеграционный слой бизнес-логику, что случается, когда «не летит» Service mesh, и почему иногда костыли — лучшее решение проблемы.

Привет Хабр, на связи Иван Большаков — архитектор интеграционных решений, эксперт департамента разработки ПО КРОК. Я расскажу, как мы делали интеграционный слой для CRM-системы группы контакт-центров торговой сети Пятерочка.

Всего в системе одновременно находятся десятки тысяч пассивных пользователей с открытыми интерфейсами и сотни активных, которые пишут в чаты, принимают звонки и нажимают на кнопки. Операторы одновременно работают с десятком различных систем…

Читать дальше →

+28

Polina_Averina 29 дек 2020 в 05:17

Практический взгляд на хранение в Kafka

8 мин

32K

Блог компании СлёрмСистемное администрирование*Apache*Big Data*DevOps*

Перевод

Kafka повсюду. Где есть микросервисы и распределенные вычисления, а они сейчас популярны, там почти наверняка есть и Kafka. В статье я попытаюсь объяснить, как в Kafka работает механизм хранения.

Читать дальше →

+33

Polina_Averina 30 ноя 2020 в 07:01

Почему Kafka такая быстрая

14 мин

25K

Блог компании СлёрмВысокая производительность*Системное администрирование*Apache*Big Data*

Перевод

За последние несколько лет в сфере архитектуры ПО произошли огромные изменения. Идея единственного монолитного приложения или даже нескольких крупных сервисов, разделяющих общий массив данных, практически стерта из умов и сердец инженеров-практиков во всем мире. Преобладающими инструментами в создании современных бизнес-ориентированных приложений стали автономные микросервисы, событийно-ориентированная архитектура и CQRS. Вдобавок быстрый рост количества подключаемых устройств (мобильных, IoT) многократно увеличивает объем событий, которые система должна оперативно обрабатывать.

В статье рассказываем, за счет чего Apache Kafka работает достаточно быстро для современных проектов.

Читать дальше →

+33

oke11o 25 ноя 2020 в 13:32

Как синхронизировать сотни таблиц базы в Kafka, не написав ни одного продюсера

18 мин

32K

Блог компании VKБлог компании Delivery Club TechВысокая производительность*Администрирование баз данных*Apache*

Привет, Хабр! Меня зовут Сергей Бевзенко, я ведущий разработчик Delivery Club в команде Discovery. Наша команда занимается навигацией пользователя по приложению Delivery Club: мы отвечаем за основную выдачу ресторанов, поиск и всё, что с этим связано.

Я расскажу про Kafka Connect: что это такое, какова общая концепция и как работать с этим фреймворком. Это будет полезно тем, кто использует Kafka, но не знаком с Kafka Connect. Если у вас огромный монолит и вы хотите перейти на событийную модель, но сталкиваетесь со сложностью написания продюсеров, то вы тоже найдёте здесь ответы на свои вопросы. В комментариях можем сравнить ваш опыт использования Kafka Connect с нашим и обсудить любые вопросы, которые с этим связаны.

Читать дальше →

+31

eapotapov 25 апр 2019 в 09:25

Как IT-компания книжное издательство открывала — и выпустила книгу про Kafka

7 мин

8.1K

Блог компании ITSummaApache*Профессиональная литература*DIY или Сделай самIT-компании

В последнее время некоторым начинает казаться, будто такой «консервативный» источник информации как книга начинает сдавать позиции и теряет актуальность. А зря: несмотря на то, что мы уже живём в эпоху цифровую и вообще работаем в IT, книжки мы любим и уважаем. Особенно такие, которые не просто учебник по конкретной технологии, а реальный источник общего знания. Особенно такие, которые не потеряют актуальность полгода спустя. Особенно такие, которые написаны хорошим языком, грамотно переведены и красиво оформлены.
И знаете, что оказалось? Таких книг нет.

Либо — либо — либо. А вот этой прекрасной книги, в которой сочетается всё, что думающий и практикующий специалист ценит, — её нет.

Поэтому мы решили, что она должна быть. И не одна — таких книг должно быть много. Решили — и открыли собственное издательство ITSumma Press: возможно, первое издательство в России, созданное IT-компанией.

Было потрачено много сил, времени и порядком денег. Но вот за день до конференции Uptime day 4 мы получили пилотный тираж и подержали первую изданную нами книгу в руках (весь тираж подарили участникам конференции в итоге). Невероятное ощущение! Никогда заранее не знаешь, куда в итоге может тебя привести твоя тяга к прекрасному. Первая книга, по понятным причинам, была своеобразным пробным шаром. Нам нужно было самим прощупать весь процесс книгоиздательства, понять, что мы можем привнести сразу, а над чем нужно будет подумать ещё. И по итогу мы остались очень довольны результатом. Это важное дело, которое мы хотим продолжать и развивать. А в этом тексте хочу просто рассказать, с чего всё начиналось, как мы спорили про название, как заключили договор с, ни много, ни мало, самими O’Reilly и сколько редактур надо провести, прежде чем отдать текст в прод в типографию.

Читать дальше →

+36

dspavlov 3 апр 2019 в 09:00

Как стать коммиттером и действительно ли вам это нужно

5 мин

7.9K

Блог компании СберOpen source*Apache*Управление проектами*Карьера в IT-индустрии

Привет! Меня зовут Дмитрий Павлов, я работаю в GridGain, а также являюсь коммиттером и участником PMC в Apache Ignite и контрибьютором в Apache Training. Недавно я выступал c докладом о работе коммиттера на митапе Сбербанка по open source. С развитием opensource-сообщества у многих все чаще стали возникать вопросы: как стать коммиттером, какие задачи брать и сколько строчек кода надо написать, чтобы получить эту роль. Когда мы думаем о коммиттерах, нам сразу представляются всемогущие и всезнающие люди с короной на голове и томиком «Чистый код» вместо скипетра. Так ли это? В своем посте я постараюсь ответить на все важные вопросы о коммиттерах, чтобы вы могли понять, действительно ли вам это нужно.

Читать дальше →

+36

e_finkel 2 апр 2019 в 12:00

Опыт разработки сервиса Refund Tool с асинхронным API на Kafka

16 мин

9.3K

Блог компании Конференции Олега Бунина (Онтико)Блог компании Lamoda TechВеб-разработка*IT-инфраструктура*Apache*

Что может заставить такую большую компанию как Lamoda с отлаженным процессом и десятками взаимосвязанных сервисов существенно менять подход? Мотивация может быть совершенно разная: от законодательной до присущего всем программистам желания экспериментировать.

Но это вовсе не значит, что нельзя рассчитывать на дополнительную выгоду. В чем конкретно можно выиграть, если внедрить events-driven API на Kafka, расскажет Сергей Заика (fewald). Про набитые шишки и интересные открытия тоже обязательно будет — не может эксперимент без них обойтись.

Disclaimer: Это статья основана на материалах митапа, который Сергей провел в ноябре 2018 года на HighLoad++. Живой опыт Lamoda работы с Kafka привлек слушателей не меньше, чем на другие доклады из расписания. Нам кажется, это отличный пример того, что всегда можно и нужно находить единомышленников, а организаторы HighLoad++ и дальше будут стараться создавать располагающую к этому атмосферу.

Читать дальше →

+25

Inshterga 7 мар 2019 в 07:10

Картографирование шума с помощью KSQL, Raspberry Pi и радиоприёмника

5 мин

Блог компании ITSummaАлгоритмы*Apache*Геоинформационные сервисы*Разработка на Raspberry Pi*

Перевод

На первый взгляд, в этой истории есть всё, чтобы заслужить статус романтичного поста накануне 8 марта: самолёты, любовь, чуточка шпионажа и, наконец, котик (точнее, кошка). Трудно представить, что всё это имеет самое непосредственное отношение к Kafka, KSQL и эксперименту «как в домашних условиях с помощью информационных технологий найти самый шумный самолёт». Трудно, но придётся: именно такой эксперимент провёл Саймон Обьюри, а мы перевели статью его авторства с описанием всех подробностей процесса.

Читать дальше →

+42

sergei_sporyshev 14 фев 2019 в 11:01

Исследуем пределы пропускной способности Kafka в инфраструктуре Dropbox

6 мин

Блог компании ITSummaВысокая производительность*Apache*Тестирование веб-сервисов*Облачные сервисы*

Перевод

Широкое использование технологий Apache-стека — очевидный тренд. И Kafka на острие популярности: нынче людей, знающих такой брокер сообщений, пожалуй, превосходит количество тех, кто привык рядом со словом Кафка видеть слово Франц.

Мы и сами активно используем эту технологию в наших проектах. Но ведь всегда интересно, а как оно получается у других? И вдвойне интересно, если это не просто пример из чьей-то практики, а целенаправленное тестирование технологии. Поэтому мы перевели свежую статью, в которой рассказывается о том, как Dropbox опытным путём искал границы возможностей и лимиты выносливости у Kafka. И нашёл что хотел.

Читать дальше →

+36

eapotapov 25 янв 2019 в 09:00

Apache Kafka и RabbitMQ: семантика и гарантия доставки сообщений

17 мин

65K

Блог компании ITSummaВысокая производительность*Мессенджеры*Apache*Big Data*

Перевод

Подготовили перевод следующей части многосерийной статьи, где сравнивается функциональность Apache Kafka и RabbitMQ. В этой публикации речь идёт о семантике и гарантии доставки сообщений. Обращаем ваше внимание, что автор учитывал Кафку до версии 0.10 включительно, а в версии 0.11 появился exactly-once. Тем не менее, статья остаётся актуальной и полна полезных с практической точки зрения моментов.
Предыдущие части: первая, вторая.

Читать дальше →

+34

Apache *

Зеркалирование топиков Kafka по-бруклински

Новости

Kafka за 20 минут. Ментальная модель и как с ней работать

5 типичных ошибок при использовании Apache Kafka

Как собрать платформу обработки данных «своими руками»?

Предыстория (очень короткая)

Истории

Обкафкился по полной: 3 фейла с Apache Kafka

Как мы построили корпоративную шину данных на Kafka, которая обрабатывает до 3 млн сообщений в секунду

Как прикрутить SQL к чему угодно при помощи Apache Calcite

Как поменять архитектуру облака и не поломать пользовательский опыт

Apache Kafka — скоро без ZooKeeper

Apache Kafka: основы технологии

Интеграционный слой с Kafka и микросервисами: опыт построения операционной CRM контакт-центра торговой сети Пятерочка

Практический взгляд на хранение в Kafka

Почему Kafka такая быстрая

Ближайшие события

Как синхронизировать сотни таблиц базы в Kafka, не написав ни одного продюсера

Как IT-компания книжное издательство открывала — и выпустила книгу про Kafka

Как стать коммиттером и действительно ли вам это нужно

Опыт разработки сервиса Refund Tool с асинхронным API на Kafka

Картографирование шума с помощью KSQL, Raspberry Pi и радиоприёмника

Исследуем пределы пропускной способности Kafka в инфраструктуре Dropbox

Apache Kafka и RabbitMQ: семантика и гарантия доставки сообщений

Вклад авторов