Apache *

Свободный веб-сервер

СтатьиПостыНовостиАвторыКомпании

Polina_Averina 4 мар 2021 в 06:02

Что будет, если изменить количество виртуальных нод в Apache Cassandra

31 мин

3.2K

Блог компании СлёрмApache * Big Data * NoSQL * Базы данных *

Перевод

В Apache Cassandra 4.0 будет новое значение по умолчанию для num_tokens! Звучит как незначительное изменение в CHANGES.txt, но по факту это серьезно повлияет на работу кластера. Как новое значение num_tokens скажется на кластере и его поведении?

От редакции: 27 марта приглашаем на открытую онлайн-конференцию Cassandra Day Russia 2021. В программе доклады и воркшопы. Материалы конференции подойдут как начинающим, так и опытным специалистам.

Читать дальше →

Polina_Averina 2 мар 2021 в 00:02

Как Apache Kafka поддерживает 200К партиций в кластере?

4 мин

10K

Блог компании СлёрмApache * IT-инфраструктура * Программирование * Системное администрирование *

Перевод

В Kafka топик может содержать множество партиций, между которыми распределяются записи. Партиции — это единицы параллелизма. В целом, чем больше партиций, тем выше пропускная способность. Однако есть некоторые факторы, которые стоит учитывать, когда в кластере Kafka много партиций.

Читать дальше →

+15

Cloudera 25 фев 2021 в 06:00

Apache Spark на Kubernetes: чем полезен Apache YuniKorn

9 мин

2.3K

Блог компании ClouderaApache * Big Data * Облачные сервисы * Data Engineering *

Перевод

Apache Spark на Kubernetes: чем полезен Apache YuniKorn

Хотя Apache Spark предоставляет множество возможностей для разнообразных сценариев применения, его использование сопряжено с дополнительной сложностью и высокими затратами на обслуживание и администрирование кластера. В планировщике Kubernetes по умолчанию есть пробелы с точки зрения эффективного развертывания пакетных рабочих нагрузок на том же кластере, где также планируется длительная работа других сервисов. Для пакетных рабочих нагрузок из-за требуемого параллелизма вычислений в основном должно планироваться совместное и гораздо более частое выполнение. В этой статье мы подробно рассмотрим некоторые из этих пробелов и исследуем преимущества использования Apache YniKorn вместо стандартного планировщика.

sergeykamov 24 фев 2021 в 06:00

Программируемые NER (Named Entity Recognition) компоненты

6 мин

3.9K

Natural Language Processing * Apache * Scala * Java * Open source *

В данной заметке мы продолжим говорить о NER компонентах и попытаемся определить условия, в которых нам начинает недоставать функционала стандартных компонентов и стоит задуматься о программировании своих собственных.

В подавляющем большинстве случаев для поиска пользовательских сущностей достаточно найти и настроить какой-либо уже существующий компонент, сконфигурировать или обучить его модель. Лишь иногда, в достаточно специфичных ситуациях, возможностей существующих решений оказывается недостаточным, и нам приходится начинать программировать. Но выделение ресурсов, кодирование, тесты, поддержка - все это стоит затевать лишь когда без всего этого просто не обойтись.

Cloudera 22 фев 2021 в 13:49

Hadoop мертв, да здравствует Hadoop! Или что новенького в Cloudera?

4 мин

6.1K

Блог компании ClouderaBig Data * Apache * Hadoop * Хранение данных *

Recovery Mode

Привет, Хабр! Меня зовут Кирилл, я инженер по решениям в Cloudera, и сегодня мне выпала честь представлять всю команду, работающую с регионом СНГ. Мы очень рады, что наконец-то можем делиться полезными материалами и новинками мира больших данных с вами. В последнее время у нас появилось много нового, поэтому начиная писать эту статью волновались, как бы она не превратилась в неподъемный лонгрид. Постарались собрать ниже только самое основное и, к сожалению, в этой статье не будет много технической информации, но мы быстро это исправим.

Узнать о новинках

-1

Polina_Averina 20 фев 2021 в 10:55

Apache Cassandra 4.0: бенчмарки

8 мин

4.5K

Блог компании СлёрмБазы данных * NoSQL * Big Data * Apache *

Перевод

Apache Cassandra 4.0 приближается к бете (прим. переводчика: на текущий момент уже доступна бета 4, выпущенная в конце декабря 2020), и это первая версия, которая будет поддерживать JDK 11 и более поздних версий. Пользователей Apache Cassandra, очевидно, волнует задержка, так что мы возлагаем большие надежды на ZGC — новый сборщик мусора с низкой задержкой, представленный в JDK 11.

В JDK 14 он был выпущен уже в GA-версии, и нам было очень интересно оценить, насколько он подходит для кластеров Apache Cassandra. Мы хотели сравнить производительность Apache Cassandra 3.11.6 и 4.0 и проверить, подходит ли Shenandoah, сборщик мусора от Red Hat, для продакшена. Спойлер: Cassandra 4.0 значительно лучше по производительности сама по себе, а с новыми сборщиками мусора (ZGC и особенно Shenandoah) будет совсем хорошо.

Читать дальше →

Maximario 11 фев 2021 в 14:22

Импорт ЕГРЮЛ ФНС средствами Apache NiFi. Шаг 3 — преобразование JSON с помощью JOLT

13 мин

Apache * Big Data * Хранение данных * Микросервисы *

В одном из проектов возникла необходимость перевести процессы импорта данных сторонних систем на микросервисную архитектуру. В качестве инструмента выбран Apache NiFi. В качестве первого подопытного выбран импорт ЕГРЮЛ ФНС.

В предыдущей статье был описан способ преобразования XML в JSON с использованием AVRO schema.

В данной статье описан способ преобразования JSON с помощью JOLT спецификации.

-1

MaxRokatansky 1 фев 2021 в 22:40

Почему ваши Spark приложения медленно работают или не работают вообще. Часть 1: Управление памятью

9 мин

5.8K

Блог компании OTUSData Engineering * Apache *

Перевод

Spark приложения легко писать и легко понять, когда все идет по плану. Однако, это становится очень сложно, когда приложения Spark начинают медленно запускаться или выходить из строя. Порой хорошо настроенное приложение может выйти из строя из-за изменения данных или изменения компоновки данных. Иногда приложение, которое до сих пор работало хорошо, начинает вести себя плохо из-за нехватки ресурсов. Список можно продолжать и продолжать.

Важно понимать не только приложение Spark, но также и его базовые компоненты среды выполнения, такие как использование диска, сети, конфликт доступа и т.д., чтобы мы могли принимать обоснованные решения, когда дела идут плохо.

В этой серии статей я хочу рассказать о некоторых наиболее распространенных причинах, по которым приложение Spark выходит из строя или замедляется. Первая и наиболее распространенная — это управление памятью.

Если бы мы заставили всех разработчиков Spark проголосовать, то условия отсутствия памяти (OOM) наверняка стали бы проблемой номер один, с которой все столкнулись. Это неудивительно, так как архитектура Spark ориентирована на память.

Некоторые причины OOM:

sergeykamov 28 янв 2021 в 06:00

Поиск по синонимам в тексте — контролируем процесс или доверяемся нейросетям

11 мин

6.8K

Проектирование API * Apache * Java * Natural Language Processing * Open source *

Первое что нужно сделать при разработке поисковых, диалоговых и прочих систем, основанных на natural language processing — это научиться разбирать тексты пользовательских запросов и находить в них сущности рабочей модели. Задача нахождения стандартных сущностей (geo, date, money и т.д.) в целом уже решена, остается лишь выбрать подходящий NER компонент и воспользоваться его функционалом. Если же вам нужно найти элемент, характерный для вашей конкретной модели или вы нуждаетесь в улучшенном качестве поиска стандартного элемента, придется создать свой собственный NER компонент или обучить какой-то уже существующий под свои цели.

Если вы работаете с системами вроде Alexa или Google Dialogflow — процесс обучения сводится к созданию простейшей конфигурации. Для каждой сущности модели вы должны создать список синонимов. Далее в дело вступают нейронные сети. Это быстро, просто, очень удобно, все заработает сразу. Из минусов — отсутствует контроль за настройками нейронных сетей, а также одна общая для данных систем проблема — вероятностный характер поиска. Все эти минусы могут быть совершенно не важны для вашей модели, особенно если в ней ищется одна-две принципиально отличающиеся друг от друга сущности. Но если элементов модели достаточно много, а особенно если они в чем-то пересекаются, проблема становится более значимой.

Если вы проектируете собственную систему, обучаете и настраиваете поисковые компоненты, например от Apache OpenNlp, Stanford NLP, Google Language API, Spacy или Apache NlpCraft для поиска собственных элементов, забот, разумеется, несколько больше, но и контроль над такой системой заметно выше.

Ниже поговорим о том, как нейронные сети используются при поиске сущностей в проекте Apache NlpCraft. Для начала вкратце опишем все возможности поиска в системе.

Читать дальше →

X5Tech 26 янв 2021 в 15:41

Одна Kafka хорошо, а несколько — лучше

10 мин

16K

Блог компании X5 TechIT-инфраструктура * Apache * Apache Flex * DevOps *

Всем привет! Меня зовут Александр, я – инженер команды, отвечающей за развитие централизованных IT-сервисов, которыми пользуются продуктовые команды в X5 Retail Group.

В этой статье речь пойдёт об Apache Kafka и том, как этот продукт используется для обеспечения потребностей команд разработки. Статья не погружает в технические аспекты, но может быть полезна архитекторам и менеджерам, которые думают о том, чтобы попробовать использовать Kafka, но не знают, подойдёт ли она для их задач, а так же разработчикам, которые могут открыть для себя новые инструменты для удобной работы с кластерами.

MaxRokatansky 26 янв 2021 в 10:44

Масштабирование итеративных алгоритмов в Spark

5 мин

1.3K

Блог компании OTUSHadoop * Машинное обучение * Apache * Алгоритмы *

Перевод

Итеративные алгоритмы широко применяются в машинном обучении, связанных компонентах, ранжировании страниц и т.д. Эти алгоритмы усложняются итерациями, размеры данных на каждой итерации увеличивается, и сделать их отказоустойчивыми на каждой итерации непросто.

В этой статье я бы подробно остановился на некоторых моментах, которые необходимо учитывать при работе с этими задачами. Мы использовали Spark для реализации нескольких итерационных алгоритмов, таких как построение связанных компонентов, обход больших связанных компонентов и т.д. Ниже приведен мой опыт работы в лабораториях Walmart по построению связанных компонентов для 60 миллиардов узлов клиентской идентификации.

MaxRokatansky 25 янв 2021 в 13:47

Руководство по столбчатым форматам файлов в Spark и Hadoop для начинающих

5 мин

2.9K

Блог компании OTUSData Engineering * Hadoop * Apache *

Перевод

Что из себя представляет «столбчатый формат файла»?

Этот термин часто используется, но я не уверен, что всем до конца ясно, что он означает на практике.

Определение из учебника гласит, что столбчатые (колоночные, многоколоночные, columnar) форматы файлов хранят данные по столбцам, а не по строкам. CSV, TSV, JSON и Avro — традиционные строковые форматы файлов. Файл Parquet и ORC — это столбчатые форматы файлов.

Давайте проиллюстрируем различия между этими двумя концепциями, используя примеры некоторых данных и простой наглядный столбчатый формат файла, который я только что придумал.

Maxilect 14 янв 2021 в 12:54

Kafka Streams — непростая жизнь в production

6 мин

10K

Блог компании MaxilectBig Data * Apache * Программирование * Высоконагруженные системы *

Привет, Хабр! Вокруг меня сформировался позитивный информационный фон на тему обработки событий через Kafka Streams. Этот инструмент привлекает множеством видео-докладов и статей на Хабре, подробной документацией, понятным API и красивой архитектурой. Некоторые мои знакомые и коллеги разрабатывают с его помощью свои системы. Но что происходит с в реальной жизни, когда эти системы уходят в production?

В этой статье я опущу введение в Kafka Streams, предполагая, что читатель уже знаком с ней, и расскажу о нашем опыте жизни с этой библиотекой на примере достаточно нагруженной системы.

kartzum 9 янв 2021 в 14:45

Сервисы с Apache Kafka и тестирование

11 мин

12K

Тестирование IT-систем * Микросервисы * Java * Apache *

Когда сервисы интегрируются при помощи Kafka очень удобно использовать REST API, как универсальный и стандартный способ обмена сообщениями. При увеличении количества сервисов сложность коммуникаций увеличивается. Для контроля можно и нужно использовать интеграционное тестирование. Такие библиотеки как testcontainers или EmbeddedServer прекрасно помогают организовать такое тестирование. Существуют много примеров для micronaut, Spring Boot и т.д. Но в этих примерах опущены некоторые детали, которые не позволяют с первого раза запустить код. В статье приводятся примеры с подробным описанием и ссылками на код.

Читать дальше →

ph_piter 7 янв 2021 в 11:09

Kafka как хранилище данных: реальный пример от Twitter

6 мин

13K

Блог компании Издательский дом «Питер»Apache * Big Data * Восстановление данных * Профессиональная литература *

Перевод

Привет, Хабр!

Нас давно занимала тема использования Apache Kafka в качестве хранилища данных, рассмотренная с теоретической точки зрения, например, здесь. Тем интереснее предложить вашему вниманию перевод материала из блога Twitter (оригинал — декабрь 2020), в котором описан нетрадиционный вариант использования Kafka в качестве базы данных для обработки и воспроизведения событий. Надеемся, статья будет интересна и натолкнет вас на свежие мысли и решения при работе с Kafka.

Читать дальше →

+11

kartzum 2 янв 2021 в 17:10

Тестирование в Apache Spark Structured Streaming

8 мин

Scala * Python * Apache *

Введение

На текущий момент не так много примеров тестов для приложений на основе Spark Structured Streaming. Поэтому в данной статье приводятся базовые примеры тестов с подробным описанием.

Все примеры используют: Apache Spark 3.0.1.

Читать дальше →

-1

Polina_Averina 29 дек 2020 в 02:17

Практический взгляд на хранение в Kafka

8 мин

45K

Блог компании СлёрмApache * Big Data * DevOps * Системное администрирование *

Перевод

Kafka повсюду. Где есть микросервисы и распределенные вычисления, а они сейчас популярны, там почти наверняка есть и Kafka. В статье я попытаюсь объяснить, как в Kafka работает механизм хранения.

Читать дальше →

+30

Polina_Averina 24 дек 2020 в 14:28

Анонс, предзаказ и бесплатные уроки видеокурса по Apache Kafka

2 мин

2.7K

Блог компании СлёрмApache * Big Data * Высоконагруженные системы * Системное администрирование *

Открываем предзаказ продвинутого курса по Apache Kafka.

Видеокурс о том, как настроить и оптимизировать Apache Kafka — брокер сообщений для микросервисов. Вы последовательно узнаете, откуда взялась технология, как настраивать распределенный отказоустойчивый кластер, как отслеживать метрики, работать с балансировкой.

Читать дальше →

sergeykamov 21 дек 2020 в 07:20

Проектируем интенты с Apache NlpCraft

8 мин

Проектирование API * Apache * Java * Natural Language Processing * Open source *

В данной заметке я продолжу знакомить читателей с возможностями проекта Apache NlpCraft. Первая заметка была посвящена краткому описанию ключевых особенностей системы, следующая — обзору стандартных NER компонентов. Данная статья посвящена вопросу проектирования интентов при построении диалоговых систем.

Напомню, что такое интент. Интент — это сочетание функции и правила, по которому эта функция должна быть вызвана. Правило — это чаще всего шаблон, основанный на наборе ожидаемых именованных сущностей в тексте запроса. В большинстве существующих диалоговых систем данный шаблон — это просто список элементов.

Читать дальше →

kartzum 20 дек 2020 в 15:55

Управление признаками сущностей в Apache Kafka

6 мин

2.5K

Apache * Java *

Введение

Во время работы над задачами машинного обучения с онлайн-данными есть необходимость собирать различные сущности в одну для дальнейшего анализа и оценки. Процесс сбора должен быть удобным и быстрым. А также часто должен предусматривать бесшовный переход от процесса разработки к промышленному использованию без дополнительных усилий и рутинной работы. Для решения этой проблемы можно воспользоваться подходом с использованием Feature Store. Этот подход со многими деталями описан вот здесь: Meet Michelangelo: Uber’s Machine Learning Platform. В этой статье описывается интерпретация указанного решения для управления признаками в виде прототипа.

Читать дальше →

1 2 ...

15 16

18 19 ...

23 24

Apache *

Что будет, если изменить количество виртуальных нод в Apache Cassandra

Как Apache Kafka поддерживает 200К партиций в кластере?

Apache Spark на Kubernetes: чем полезен Apache YuniKorn

Программируемые NER (Named Entity Recognition) компоненты

Hadoop мертв, да здравствует Hadoop! Или что новенького в Cloudera?

Apache Cassandra 4.0: бенчмарки

Импорт ЕГРЮЛ ФНС средствами Apache NiFi. Шаг 3 — преобразование JSON с помощью JOLT

Почему ваши Spark приложения медленно работают или не работают вообще. Часть 1: Управление памятью

Поиск по синонимам в тексте — контролируем процесс или доверяемся нейросетям

Одна Kafka хорошо, а несколько — лучше

Масштабирование итеративных алгоритмов в Spark

Руководство по столбчатым форматам файлов в Spark и Hadoop для начинающих

Kafka Streams — непростая жизнь в production

Ближайшие события

Сервисы с Apache Kafka и тестирование

Kafka как хранилище данных: реальный пример от Twitter

Тестирование в Apache Spark Structured Streaming

Введение

Практический взгляд на хранение в Kafka

Анонс, предзаказ и бесплатные уроки видеокурса по Apache Kafka

Проектируем интенты с Apache NlpCraft

Управление признаками сущностей в Apache Kafka

Введение

Вклад авторов