Как стать автором
Обновить
5.21
Рейтинг

Apache *

Свободный веб-сервер

Сначала показывать
  • Новые
  • Лучшие
Порог рейтинга
  • Все
  • ≥0
  • ≥10
  • ≥25
  • ≥50
  • ≥100

Как добавить Natural Language Processing в Minecraft

Программирование *Разработка игр *API *Apache *Natural Language Processing *

Создание хороших примеров по использованию NLP инструментария - не самая простая задача. Они получаются или слишком простыми, так что читателям кажется, что в реальных проектах не стоит даже использовать какие-то внешние системы для решения таких простых NLP задач, а можно и даже желательно все написать самому, или, если постараться, сделать примеры более жизненными, их бизнес логика становится чрезмерно сложной и отвлекает внимание от NLP части. 

Появление этого примера, использование NLP в Minecraft, оказалось самым естественным в истории проекта на данный момент. Запрос на его разработку возник у настоящих и самых преданных пользователей - детей одного из разработчиков, которым показалось сложным и даже скорее просто ненужным запоминать формат некоторых команд новой для них игры. 

Читать далее
Рейтинг 0
Просмотры 1.6K
Комментарии 2

Новости

Как Apache Spark 3.0 увеличивает производительность ваших SQL рабочих нагрузок

Блог компании Cloudera Apache *Big Data *Hadoop *Data Engineering *
Перевод

Практически в каждом секторе, работающем со сложными данными, Spark "де-факто" быстро стал средой распределенных вычислений для команд на всех этапах жизненного цикла данных и аналитики. Одна из наиболее ожидаемых функций Spark 3.0 - это новая платформа Adaptive Query Execution (AQE), устраняющая проблемы, которые возникают при многих рабочих нагрузках Spark SQL. Они были задокументированы в начале 2018 года командой специалистов Intel и Baidu и сегодня мы детально их обсудим.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 1.7K
Комментарии 0

Язык определения интентов NlpCraft IDL

Java *Scala *API *Apache *Natural Language Processing *

Данная статья является продолжением заметки “Проектируем интенты с Apache NlpCraft” и содержит детальное описание возможностей языка определения интентов NlpCraft IDL, созданного для использования в NLP проектах основанных на системе Apache NlpCraft. Поддержка NlpCraft IDL добавлена в систему начиная с версии 0.7.5.   

Новая версия декларативного языка определения интентов, получившая название NlpCraft IDL (NlpCraft Intents Definition Language), значительно упростила процесс работы с интентами в диалоговых и поисковых системах, построенных на базе проекта Apache NlpCraft и вместе с тем расширила возможности системы.  

Читать далее
Всего голосов 1: ↑0 и ↓1 -1
Просмотры 526
Комментарии 2

Продолжаем знакомство с APIM Gravitee

Блог компании X5 Group Python *MongoDB *API *Apache *

Всем привет! Меня всё ещё зовут Антон. В предыдущей  статье я провел небольшой обзор APIM Gravitee и в целом систем типа API Management. В этой статье я расскажу, как поднять ознакомительный стенд APIM Gravitee (https://www.gravitee.io), рассмотрим архитектуру системы, содержимое docker compose file, добавим некоторые параметры, запустим APIM Gravitee и сделаем первую API. Статья немного погружает в технические аспекты и может быть полезна администраторам и инженерам, чтобы начать разбираться в системе.

Читать далее
Рейтинг 0
Просмотры 1.2K
Комментарии 3

Ход конём: как сделать HTTPS reverse proxy для Kafka с помощью Nginx

Блог компании G-Core Labs Системное администрирование *Nginx *Apache *Облачные сервисы
Tutorial

Привет, Хабр! Я Алексей Кашавкин, инженер отдела облачных операций в G-Core Labs, последние пять лет занимаюсь администрированием OpenStack. Сегодня расскажу о костыле нестандартном использовании технологий или о том, как посадить брокеры Kafka за Nginx, используя протокол HTTPS. Если у вас почему-то нет другого способа принимать сообщения — эта заметка как раз для вас.

Поехали!
Всего голосов 12: ↑12 и ↓0 +12
Просмотры 2.9K
Комментарии 21

Архитектура непрерывной потоковой доставки в Cloudera Flow Management

Блог компании Cloudera Apache *Big Data *Hadoop *Data Engineering *
Перевод

Cloudera Flow Management, основанная на Apache NiFi и являющаяся частью платформы Cloudera DataFlow, используется некоторыми из крупнейших организаций в мире для обеспечения простого в использовании, мощного и надежного способа распределения и высокоскоростной обработки данных в современной экосистеме больших данных. Клиенты все чаще используют CFM для ускорения обработки потоковых данных на предприятии от концепции до реализации. Интерфейс разработки потоков Cloudera отличается от типичных стилей структурированного кодирования, что часто создает проблему применения лучших практик непрерывного совершенствования/непрерывной доставки (CI/CD) в стиле DevOps для доставки потоков.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 624
Комментарии 0

Разработка производительной модели обработки данных для Cassandra

Блог компании Southbridge NoSQL *Администрирование баз данных *Apache *Big Data *

В DataStax работают над созданием производительной модели данных для Apache Cassandra. В чём заключается эта работа и как её делать правильно, на конференции Cassandra Day Russia 2021 рассказал Артём Чеботко, Solutions Architect в DataStax.


image


Речь пойдет о разработке производительной модели данных для Apache Cassandra. Над этой задачей я долгое время работаю в DataStax. Есть довольно большое количество проектов и use cases, в которых нужна была производительная модель данных. Мы поговорим о методологии и как это сделать правильно.
Начнем с более простых вещей. Обсудим, как Cassandra хранит данные, чтобы понимать, на что нужно особенно обращать внимание. Потом обсудим методологию. Здесь также есть 3 примера, о которых я хотел бы поговорить. Они разные, в них есть разные оптимизации, которые можно обсудить.

Читать дальше →
Всего голосов 6: ↑6 и ↓0 +6
Просмотры 2K
Комментарии 2

Как на самом деле работает auto-commit в Kafka и можем ли мы на него рассчитывать?

Java *Apache *
Из песочницы

В этой статье я хочу чуть подробнее раскрыть как же устроен механизм auto-commit у слушателей в библиотеке kafka-clients.

Читать далее
Рейтинг 0
Просмотры 3.5K
Комментарии 2

Разворачиваем Node.js-проект (Nuxt.js) на базе VDS с ОС Ubuntu Server

Настройка Linux *Node.JS *Apache *VueJS *
Из песочницы
Tutorial

Доброго времени суток, хабровчане!

В данной статье я рассмотрю вопрос развертывания с нуля NuxtJS-проекта (либо любого другого проекта на NodeJS) на VDS-сервере с использованием веб-сервера Apahce2, Node.js, менеджера процессов pm2 с полным циклом установки всех компонентов.

Установка будет производится на чистом VDS-сервере, не имеющем каких-либо настроек.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 4.7K
Комментарии 10

Подготовка приложений Spark Streaming к использованию в рабочей среде

Блог компании OTUS Apache *
Перевод

Проект Apache Spark стал одним из основных инструментов в наборе средств инженеров по обработке больших данных. Он включает широкий ряд возможностей: от высокопроизводительного ядра пакетной обработки до ядра потоковой передачи в режиме, близком к реальному времени.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 853
Комментарии 0

Apache Camel и Spring Boot

Блог компании OTUS Java *Apache *
Перевод

Apache Camel — это фреймворк для интеграции приложений и эффективного взаимодействия между различными системами, с чем приходится часто сталкиваться в любой корпоративной инфраструктуре. Apache Camel позволяет разработчику сосредоточиться на логике процессов, не переводя данные в канонический формат, так как Camel поддерживает более 80 API для реализации различных протоколов и типов данных. Таким образом, разработчику — то есть вам — достаточно просто знать, как Camel соединяет все вместе. В этой статье мы по шагам рассмотрим, как интегрировать Apache Camel и Spring Boot.

Но прежде чем обратиться к примеру со средой Spring Boot, разберемся с основными понятиями и терминами Camel.

Читать далее
Всего голосов 9: ↑7 и ↓2 +5
Просмотры 3.9K
Комментарии 0

Cassandra в Yelp

Блог компании Southbridge NoSQL *Администрирование баз данных *Apache *Big Data *

image


Yelp — это крупнейшее в США приложение для заказа еды и услуг. Оно установлено более чем на 30 млн. уникальных устройств, в нём зарегистрировано более 5 млн. компаний. Для хранения и доступа к данным в Yelp используют Cassandra. Как и для каких задач применяется эта база данных, на конференции Cassandra Day Russia 2021 рассказал Александр Широков, Database Reliability Engineer в Yelp.

Читать дальше →
Всего голосов 12: ↑12 и ↓0 +12
Просмотры 2K
Комментарии 1
Большие данные по определению не умещаются в оперативной памяти сервера, а инструменты для работы с ними — в память инженера. Эти инструменты возникают снова и снова, в разных компаниях и университетах, дополняя, модифицируя и замещая друг друга. Единообразием тут даже не пахнет. Дата-инженеры и дата-сайентисты говорят, пишут и думают на различных языках.

Поэтому при подготовке этой коллекции мы с помощью экспертов из Ростелекома постарались решить несколько задач. Во-первых, дать представление — для чего возникли и используются те или иные инструменты управления большими данными. На примерах показать, как они выглядят и работают. И во-вторых, обязательно найти кейсы их применения в компаниях, которых без Big Data, наверное, просто не было бы.
Смотреть коллекцию
Всего голосов 23: ↑21 и ↓2 +19
Просмотры 19K
Комментарии 2

Итоговый проект для видеокурса и подкаст «Проблемная Kafka»

Блог компании Southbridge IT-инфраструктура *Apache *Big Data *DevOps *

Гостем подкаста The Art Of Programming стал спикер курса Слёрма по Kafka Александр Миронов, Infrastructure Engineer в Stripe. Тема выпуска — «Проблемная Kafka». Обсудили вопросы, часто возникающие при работе с Kafka: аудит входных данных, квоты, способы хранения данных, возможный даунтайм в консьюмер-группах и др.

Всего голосов 14: ↑12 и ↓2 +10
Просмотры 1.4K
Комментарии 0

Apache Kafka — скоро без ZooKeeper

Блог компании Southbridge Системное администрирование *Программирование *IT-инфраструктура *Apache *
Перевод

image


В основе Apache Kafka находится лог — простая структура данных, которая использует последовательные операции, работающие в симбиозе с оборудованием. Эффективное использование дискового буфера и кэша процессора, prefetch, передача данных zero-copy и много других радостей — все это благодаря построенной на логе структуре, которая славится своей эффективностью и пропускной способностью. Обычно эти преимущества, а еще базовая реализация в виде лога коммитов, — первое, что люди узнают о Kafka.


Код самого лога составляет относительно малую часть всей системы. Гораздо больше занимает код, который отвечает за организацию партиций (т. е. логов) на множестве брокеров в кластере — назначает лидеров, обрабатывает сбои и т. д. Этот код и делает Kafka надежной распределенной системой.


Раньше важной частью работы распределенного кода был Apache ZooKeeper. Он хранил самые важные метаданные системы: где находятся партиции, кто из реплик лидер и т. д.

Читать дальше →
Всего голосов 37: ↑36 и ↓1 +35
Просмотры 9K
Комментарии 14

Обогащение данных — что это и почему без него никак

Блог компании ITSumma IT-инфраструктура *Apache *Big Data *Data Engineering *

Обогащение данных — это процесс дополнения сырых данных той информацией, которая в исходном виде в них отсутствует, но необходима для качественного анализа. Оно требуется, чтобы конечные потребители данных получали качественную информацию.

В этой статье рассмотрим, что такое обогащение данных в контексте их автоматизированной обработки и какие технические средства мы для этого используем. 

Главный результат — если объединять данные, применяя предложенную нами схему обогащения, то в дальнейшем аналитикам не потребуется каждый раз делать JOIN-запрос, что сэкономит как ценное время людей, так и машинные ресурсы.

Читать далее
Всего голосов 21: ↑18 и ↓3 +15
Просмотры 5.1K
Комментарии 0

Apache Kafka: основы технологии

Блог компании Southbridge Системное администрирование *Программирование *IT-инфраструктура *Apache *

У Kafka есть множество способов применения, и у каждого способа есть свои особенности. В этой статье разберём, чем Kafka отличается от популярных систем обмена сообщениями; рассмотрим, как Kafka хранит данные и обеспечивает гарантию сохранности; поймём, как записываются и читаются данные.


Статья подготовлена на основе открытого занятия из видеокурса по Apache Kafka. Авторы — Анатолий Солдатов, Lead Engineer в Авито, и Александр Миронов, Infrastructure Engineer в Stripe. Базовые темы курса доступны на Youtube.

Всего голосов 29: ↑29 и ↓0 +29
Просмотры 39K
Комментарии 9

Pulsar vs Kafka: сравнение и мифы

Блог компании Southbridge Системное администрирование *Программирование *IT-инфраструктура *Apache *
Перевод


Pulsar или Kafka — что лучше? Здесь мы обсудим плюсы и минусы, распространенные мифы и нетехнические критерии, чтобы найти лучший инструмент для ваших задач.


Обычно я рассказываю об Apache Kafka и ее экосистеме. О Pulsar за последние годы меня спрашивали только коммитеры и авторы Pulsar. Они задавали сложные технические вопросы, чтобы показать, что Kafka не идет ни в какое сравнение с Pulsar. На Reddit и подобных платформах разгораются яростные и очень субъективные споры на эту тему. Я поделюсь своей точкой зрения, основанной на многолетнем опыте работы со стриминговыми опенсорс-платформами.

Читать дальше →
Всего голосов 20: ↑20 и ↓0 +20
Просмотры 7.4K
Комментарии 10

Умные погодные приложения с Flink SQL

Блог компании Cloudera Apache *Big Data *Data Engineering *
Перевод

Умные погодные приложения с Flink SQL 

В этой статье мы покажем, как можно легко и быстро начать работу с потоковыми данными на примере анализа данных о погоде со всех метеостанций США, используя Apache NiFi, Kafka & Flink из стека Cloudera Data Platform.

Читать далее
Всего голосов 7: ↑5 и ↓2 +3
Просмотры 899
Комментарии 0

5 вещей, о которых должен знать любой разработчик Apache Kafka

Блог компании Southbridge Системное администрирование *Программирование *IT-инфраструктура *Apache *
Перевод


Apache Kafka — это платформа потоковой обработки событий, которую используют 30% компаний из Fortune 500. У Kafka много функций, благодаря которым платформа задает стандарт обработки событий, и здесь мы поговорим о пяти самых важных аспектах, которые должны быть известны любому, кто работает с Kafka.


Некоторые аспекты связаны с производительностью, другие — с архитектурой. Надеюсь, к концу этого поста вы лучше поймете, как работает Kafka, и освоите пару новых трюков.

Читать дальше →
Всего голосов 24: ↑23 и ↓1 +22
Просмотры 13K
Комментарии 3