Apache *

Свободный веб-сервер

СтатьиПостыНовостиАвторыКомпании

sergeykamov 28 мая 2021 в 06:00

Язык определения интентов NlpCraft IDL

10 мин

1.1K

Проектирование API * Apache * Natural Language Processing * Java * Scala *

Данная статья является продолжением заметки “Проектируем интенты с Apache NlpCraft” и содержит детальное описание возможностей языка определения интентов NlpCraft IDL, созданного для использования в NLP проектах основанных на системе Apache NlpCraft. Поддержка NlpCraft IDL добавлена в систему начиная с версии 0.7.5.

Новая версия декларативного языка определения интентов, получившая название NlpCraft IDL (NlpCraft Intents Definition Language), значительно упростила процесс работы с интентами в диалоговых и поисковых системах, построенных на базе проекта Apache NlpCraft и вместе с тем расширила возможности системы.

-1

X5Tech 27 мая 2021 в 17:08

Продолжаем знакомство с APIM Gravitee

20 мин

20K

Блог компании X5 TechPython * MongoDB * Проектирование API * Apache *

Всем привет! Меня всё ещё зовут Антон. В предыдущей статье я провел небольшой обзор APIM Gravitee и в целом систем типа API Management. В этой статье я расскажу, как поднять ознакомительный стенд APIM Gravitee (https://www.gravitee.io), рассмотрим архитектуру системы, содержимое docker compose file, добавим некоторые параметры, запустим APIM Gravitee и сделаем первую API. Статья немного погружает в технические аспекты и может быть полезна администраторам и инженерам, чтобы начать разбираться в системе.

AKashavkin 27 мая 2021 в 08:32

Ход конём: как сделать HTTPS reverse proxy для Kafka с помощью Nginx

3 мин

11K

Блог компании G-Core LabsОблачные сервисы * Apache * Nginx * Системное администрирование *

Туториал

Привет, Хабр! Я Алексей Кашавкин, инженер отдела облачных операций в G-Core Labs, последние пять лет занимаюсь администрированием OpenStack. Сегодня расскажу о ~~костыле~~ нестандартном использовании технологий или о том, как посадить брокеры Kafka за Nginx, используя протокол HTTPS. Если у вас почему-то нет другого способа принимать сообщения — эта заметка как раз для вас.

Поехали!

+12

Cloudera 24 мая 2021 в 06:00

Архитектура непрерывной потоковой доставки в Cloudera Flow Management

7 мин

1.4K

Блог компании ClouderaApache * Big Data * Hadoop * Data Engineering *

Перевод

Cloudera Flow Management, основанная на Apache NiFi и являющаяся частью платформы Cloudera DataFlow, используется некоторыми из крупнейших организаций в мире для обеспечения простого в использовании, мощного и надежного способа распределения и высокоскоростной обработки данных в современной экосистеме больших данных. Клиенты все чаще используют CFM для ускорения обработки потоковых данных на предприятии от концепции до реализации. Интерфейс разработки потоков Cloudera отличается от типичных стилей структурированного кодирования, что часто создает проблему применения лучших практик непрерывного совершенствования/непрерывной доставки (CI/CD) в стиле DevOps для доставки потоков.

Polina_Averina 21 мая 2021 в 09:40

Разработка производительной модели обработки данных для Cassandra

17 мин

6.9K

Блог компании СлёрмБазы данных * NoSQL * Big Data * Apache *

В DataStax работают над созданием производительной модели данных для Apache Cassandra. В чём заключается эта работа и как её делать правильно, на конференции Cassandra Day Russia 2021 рассказал Артём Чеботко, Solutions Architect в DataStax.

Речь пойдет о разработке производительной модели данных для Apache Cassandra. Над этой задачей я долгое время работаю в DataStax. Есть довольно большое количество проектов и use cases, в которых нужна была производительная модель данных. Мы поговорим о методологии и как это сделать правильно.
Начнем с более простых вещей. Обсудим, как Cassandra хранит данные, чтобы понимать, на что нужно особенно обращать внимание. Потом обсудим методологию. Здесь также есть 3 примера, о которых я хотел бы поговорить. Они разные, в них есть разные оптимизации, которые можно обсудить.

Читать дальше →

dm_aq 19 мая 2021 в 11:54

Как на самом деле работает auto-commit в Kafka и можем ли мы на него рассчитывать?

4 мин

34K

Java * Apache *

Из песочницы

В этой статье я хочу чуть подробнее раскрыть как же устроен механизм auto-commit у слушателей в библиотеке kafka-clients.

IceSlam 19 мая 2021 в 09:55

Разворачиваем Node.js-проект (Nuxt.js) на базе VDS с ОС Ubuntu Server

7 мин

31K

Настройка Linux * Node.JS * Apache * VueJS *

Туториал

Из песочницы

Технотекст 2021

Доброго времени суток, хабровчане!

В данной статье я рассмотрю вопрос развертывания с нуля NuxtJS-проекта (либо любого другого проекта на NodeJS) на VDS-сервере с использованием веб-сервера Apahce2, Node.js, менеджера процессов pm2 с полным циклом установки всех компонентов.

Установка будет производится на чистом VDS-сервере, не имеющем каких-либо настроек.

MaxRokatansky 17 мая 2021 в 13:30

Подготовка приложений Spark Streaming к использованию в рабочей среде

16 мин

4.3K

Блог компании OTUSApache *

Перевод

Проект Apache Spark стал одним из основных инструментов в наборе средств инженеров по обработке больших данных. Он включает широкий ряд возможностей: от высокопроизводительного ядра пакетной обработки до ядра потоковой передачи в режиме, близком к реальному времени.

GolovinDS 12 мая 2021 в 15:34

Apache Camel и Spring Boot

12 мин

24K

Блог компании OTUSJava * Apache *

Перевод

Apache Camel — это фреймворк для интеграции приложений и эффективного взаимодействия между различными системами, с чем приходится часто сталкиваться в любой корпоративной инфраструктуре. Apache Camel позволяет разработчику сосредоточиться на логике процессов, не переводя данные в канонический формат, так как Camel поддерживает более 80 API для реализации различных протоколов и типов данных. Таким образом, разработчику — то есть вам — достаточно просто знать, как Camel соединяет все вместе. В этой статье мы по шагам рассмотрим, как интегрировать Apache Camel и Spring Boot.

Но прежде чем обратиться к примеру со средой Spring Boot, разберемся с основными понятиями и терминами Camel.

Polina_Averina 7 мая 2021 в 06:50

Cassandra в Yelp

12 мин

3.4K

Блог компании СлёрмБазы данных * NoSQL * Big Data * Apache *

Yelp — это крупнейшее в США приложение для заказа еды и услуг. Оно установлено более чем на 30 млн. уникальных устройств, в нём зарегистрировано более 5 млн. компаний. Для хранения и доступа к данным в Yelp используют Cassandra. Как и для каких задач применяется эта база данных, на конференции Cassandra Day Russia 2021 рассказал Александр Широков, Database Reliability Engineer в Yelp.

Читать дальше →

+12

Блог компании Ростелеком 26 апреля 2021

Ракеты и снаряды дата-инженеров: коллекция инструментов по управлению большими данными

Большие данные по определению не умещаются в оперативной памяти сервера, а инструменты для работы с ними — в память инженера. Эти инструменты возникают снова и снова, в разных компаниях и университетах, дополняя, модифицируя и замещая друг друга. Единообразием тут даже не пахнет. Дата-инженеры и дата-сайентисты говорят, пишут и думают на различных языках.

Поэтому при подготовке этой коллекции мы с помощью экспертов из Ростелекома постарались решить несколько задач. Во-первых, дать представление — для чего возникли и используются те или иные инструменты управления большими данными. На примерах показать, как они выглядят и работают. И во-вторых, обязательно найти кейсы их применения в компаниях, которых без Big Data, наверное, просто не было бы.

Смотреть коллекцию

+19

Polina_Averina 16 апр 2021 в 05:05

Apache Kafka — скоро без ZooKeeper

6 мин

18K

Блог компании СлёрмСистемное администрирование * Программирование * IT-инфраструктура * Apache *

Перевод

В основе Apache Kafka находится лог — простая структура данных, которая использует последовательные операции, работающие в симбиозе с оборудованием. Эффективное использование дискового буфера и кэша процессора, prefetch, передача данных zero-copy и много других радостей — все это благодаря построенной на логе структуре, которая славится своей эффективностью и пропускной способностью. Обычно эти преимущества, а еще базовая реализация в виде лога коммитов, — первое, что люди узнают о Kafka.

Код самого лога составляет относительно малую часть всей системы. Гораздо больше занимает код, который отвечает за организацию партиций (т. е. логов) на множестве брокеров в кластере — назначает лидеров, обрабатывает сбои и т. д. Этот код и делает Kafka надежной распределенной системой.

Раньше важной частью работы распределенного кода был Apache ZooKeeper. Он хранил самые важные метаданные системы: где находятся партиции, кто из реплик лидер и т. д.

Читать дальше →

+32

IvanKhozyainov 15 апр 2021 в 02:25

Обогащение данных — что это и почему без него никак

5 мин

15K

Блог компании ITSummaData Engineering * Big Data * Apache * IT-инфраструктура *

Обогащение данных — это процесс дополнения сырых данных той информацией, которая в исходном виде в них отсутствует, но необходима для качественного анализа. Оно требуется, чтобы конечные потребители данных получали качественную информацию.

В этой статье рассмотрим, что такое обогащение данных в контексте их автоматизированной обработки и какие технические средства мы для этого используем.

Главный результат — если объединять данные, применяя предложенную нами схему обогащения, то в дальнейшем аналитикам не потребуется каждый раз делать JOIN-запрос, что сэкономит как ценное время людей, так и машинные ресурсы.

+15

Polina_Averina 7 апр 2021 в 06:18

Apache Kafka: основы технологии

9 мин

543K

Блог компании СлёрмApache * IT-инфраструктура * Программирование * Системное администрирование *

У Kafka есть множество способов применения, и у каждого способа есть свои особенности. В этой статье разберём, чем Kafka отличается от популярных систем обмена сообщениями; рассмотрим, как Kafka хранит данные и обеспечивает гарантию сохранности; поймём, как записываются и читаются данные.

Статья подготовлена на основе открытого занятия из видеокурса по Apache Kafka. Авторы — Анатолий Солдатов, Lead Engineer в Авито, и Александр Миронов, Infrastructure Engineer в Stripe. Базовые темы курса доступны на Youtube.

Читать дальше →

+29

Polina_Averina 26 мар 2021 в 04:57

Pulsar vs Kafka: сравнение и мифы

21 мин

17K

Блог компании СлёрмApache * IT-инфраструктура * Программирование * Системное администрирование *

Перевод

Pulsar или Kafka — что лучше? Здесь мы обсудим плюсы и минусы, распространенные мифы и нетехнические критерии, чтобы найти лучший инструмент для ваших задач.

Обычно я рассказываю об Apache Kafka и ее экосистеме. О Pulsar за последние годы меня спрашивали только коммитеры и авторы Pulsar. Они задавали сложные технические вопросы, чтобы показать, что Kafka не идет ни в какое сравнение с Pulsar. На Reddit и подобных платформах разгораются яростные и очень субъективные споры на эту тему. Я поделюсь своей точкой зрения, основанной на многолетнем опыте работы со стриминговыми опенсорс-платформами.

Читать дальше →

+17

Cloudera 25 мар 2021 в 08:00

Умные погодные приложения с Flink SQL

3 мин

1.3K

Блог компании ClouderaData Engineering * Apache * Big Data *

Перевод

Умные погодные приложения с Flink SQL

В этой статье мы покажем, как можно легко и быстро начать работу с потоковыми данными на примере анализа данных о погоде со всех метеостанций США, используя Apache NiFi, Kafka & Flink из стека Cloudera Data Platform.

Polina_Averina 16 мар 2021 в 10:13

5 вещей, о которых должен знать любой разработчик Apache Kafka

15 мин

97K

Блог компании СлёрмApache * IT-инфраструктура * Программирование * Системное администрирование *

Перевод

Apache Kafka — это платформа потоковой обработки событий, которую используют 30% компаний из Fortune 500. У Kafka много функций, благодаря которым платформа задает стандарт обработки событий, и здесь мы поговорим о пяти самых важных аспектах, которые должны быть известны любому, кто работает с Kafka.

Некоторые аспекты связаны с производительностью, другие — с архитектурой. Надеюсь, к концу этого поста вы лучше поймете, как работает Kafka, и освоите пару новых трюков.

Читать дальше →

+19

Cloudera 16 мар 2021 в 07:00

Apache Ozone: следующее поколение хранилища для платформы больших данных

8 мин

11K

Блог компании ClouderaApache * Big Data * Хранение данных *

Перевод

Apache Ozone: следующее поколение хранилища для платформы больших данных

Распределенная файловая система Apache Hadoop (HDFS) де-факто является файловой системой для больших данных. Верная своим корням big data, HDFS работает лучше всего, когда большинство файлов имеют большой размер - от десятков до сотен мегабайт.

Ozone - это распределенное хранилище, которое может управлять как малыми, так и большими файлами. Ozone разрабатывается и внедряется командой инженеров и архитекторов, имеющих значительный опыт управления большими кластерами Apache Hadoop. Это дало нам представление о том, что HDFS делает хорошо, и о некоторых вещах, которые можно делать по-другому.

Cloudera 5 мар 2021 в 09:02

Тестирование производительности HBase с помощью YCSB

8 мин

1.2K

Блог компании ClouderaNoSQL * Базы данных * Apache * Хранение данных *

Перевод

Тестирование производительности HBase с помощью YCSB

При запуске любого теста производительности (инструмента по бенчмаркингу) на кластере критично всегда то, какой именно будет использоваться набор данных, и здесь мы покажем, почему при запуске теста производительности HBase на кластере важно выбрать «хорошо соответствующий по объему» набор данных.

Ivan8b 4 мар 2021 в 07:00

Интеграционный слой с Kafka и микросервисами: опыт построения операционной CRM контакт-центра торговой сети Пятерочка

8 мин

13K

Блог компании КРОКApache * CRM-системы * IT-инфраструктура * Микросервисы *

Из этого поста вы узнаете, зачем добавлять в интеграционный слой бизнес-логику, что случается, когда «не летит» Service mesh, и почему иногда костыли — лучшее решение проблемы.

Привет Хабр, на связи Иван Большаков — архитектор интеграционных решений, эксперт департамента разработки ПО КРОК. Я расскажу, как мы делали интеграционный слой для CRM-системы группы контакт-центров торговой сети Пятерочка.

Всего в системе одновременно находятся десятки тысяч пассивных пользователей с открытыми интерфейсами и сотни активных, которые пишут в чаты, принимают звонки и нажимают на кнопки. Операторы одновременно работают с десятком различных систем…

Читать дальше →

+28

1 2 ...

14 15

17 18 ...

23 24

Apache *

Язык определения интентов NlpCraft IDL

Продолжаем знакомство с APIM Gravitee

Ход конём: как сделать HTTPS reverse proxy для Kafka с помощью Nginx

Архитектура непрерывной потоковой доставки в Cloudera Flow Management

Разработка производительной модели обработки данных для Cassandra

Как на самом деле работает auto-commit в Kafka и можем ли мы на него рассчитывать?

Разворачиваем Node.js-проект (Nuxt.js) на базе VDS с ОС Ubuntu Server

Подготовка приложений Spark Streaming к использованию в рабочей среде

Apache Camel и Spring Boot

Cassandra в Yelp

Ракеты и снаряды дата-инженеров: коллекция инструментов по управлению большими данными

Apache Kafka — скоро без ZooKeeper

Обогащение данных — что это и почему без него никак

Ближайшие события

Apache Kafka: основы технологии

Pulsar vs Kafka: сравнение и мифы

Умные погодные приложения с Flink SQL

5 вещей, о которых должен знать любой разработчик Apache Kafka

Apache Ozone: следующее поколение хранилища для платформы больших данных

Тестирование производительности HBase с помощью YCSB

Интеграционный слой с Kafka и микросервисами: опыт построения операционной CRM контакт-центра торговой сети Пятерочка

Вклад авторов