Коваль Александр@kartzum

Старший разработчик

Подписчики

kartzum 17 июн 2025 в 06:35

ScyllaDB: как настраивать метрики в java-драйвере и параметры запросов для измерения их характеристик

Средний

6 мин

986

Блог компании МТСOpen source * NoSQL * Java *

Туториал

Привет, Хабр! Это Александр Коваль, я разработчик IoT-сервисов в МТС Web Services. При работе с данными часто возникает вопрос: как быстро система может вернуть результат по определенным параметрам? Не является исключением и ScyllaDB.

Для ответа нужны инструменты измерения и возможность настраивать систему. Java-драйвер для ScyllaDB умеет передавать информацию о своей внутренней работе, и ему можно настроить отдельные компоненты. Звучит как отличный план — в этом материале я поделюсь результатами экспериментов с java-драйвером для ScyllaDB при различных запросах к данным.

Код, ссылки и ресурсы располагаются в GitHub.

kartzum 24 апр 2025 в 06:59

Обходим подводные камни работы с UDA в коде на Lua для ScyllaDB: дружим Java-драйвер и пустые значения

Средний

5 мин

1.5K

Блог компании МТСNoSQL * Open source * Lua * Java *

Привет, Хабр! Мое имя Александр Коваль, я разработчик IoT-сервисов в МТС Web Services. Сейчас ScyllaDB поддерживает ограниченное количество функций, в том числе агрегационных. В стандартном наборе: min, max, count, avg. Но ее функциональность расширяется двумя типами пользовательских функций: скалярными (scalar functions) и агрегационными (aggregate functions). Первые работают со значениями одной строки, а вторые — нескольких. Реализовать такие функции можно на Lua или Rust.

В процессе работы с агрегационными функциями можно столкнуться с тем, что ScyllaDB и Java-драйвер по-разному обрабатывают пустые значения. В этом посте я расскажу, как это можно решить относительно просто и без сложных дополнительных телодвижений. Для примера возьму код на Lua и покажу, как он реализуется в виде функции ScyllaDB.

Дисклеймер: этот материал написан на основе личного опыта — все решения получены методом проб и ошибок. Конструктивные предложения и советы по их улучшению приветствуется. Код с примерами и ссылки на ресурсы можно найти у меня в репозитории GitHub.

+11

kartzum 9 янв 2021 в 14:45

Сервисы с Apache Kafka и тестирование

11 мин

14K

Тестирование IT-систем * Микросервисы * Java * Apache *

Когда сервисы интегрируются при помощи Kafka очень удобно использовать REST API, как универсальный и стандартный способ обмена сообщениями. При увеличении количества сервисов сложность коммуникаций увеличивается. Для контроля можно и нужно использовать интеграционное тестирование. Такие библиотеки как testcontainers или EmbeddedServer прекрасно помогают организовать такое тестирование. Существуют много примеров для micronaut, Spring Boot и т.д. Но в этих примерах опущены некоторые детали, которые не позволяют с первого раза запустить код. В статье приводятся примеры с подробным описанием и ссылками на код.

Читать дальше →

kartzum 2 янв 2021 в 17:10

Тестирование в Apache Spark Structured Streaming

8 мин

3.3K

Apache * Python * Scala *

Введение

На текущий момент не так много примеров тестов для приложений на основе Spark Structured Streaming. Поэтому в данной статье приводятся базовые примеры тестов с подробным описанием.

Все примеры используют: Apache Spark 3.0.1.

Читать дальше →

kartzum 20 дек 2020 в 15:55

Управление признаками сущностей в Apache Kafka

6 мин

2.7K

Java * Apache *

Введение

Во время работы над задачами машинного обучения с онлайн-данными есть необходимость собирать различные сущности в одну для дальнейшего анализа и оценки. Процесс сбора должен быть удобным и быстрым. А также часто должен предусматривать бесшовный переход от процесса разработки к промышленному использованию без дополнительных усилий и рутинной работы. Для решения этой проблемы можно воспользоваться подходом с использованием Feature Store. Этот подход со многими деталями описан вот здесь: Meet Michelangelo: Uber’s Machine Learning Platform. В этой статье описывается интерпретация указанного решения для управления признаками в виде прототипа.

Читать дальше →

kartzum 15 ноя 2020 в 16:18

Сбор данных и отправка в Apache Kafka

6 мин

9.6K

Apache * Java * Тестирование IT-систем *

Введение

Для анализа потоковых данных необходимы источники этих данных. Так же важна сама информация, которая предоставляется источниками. А источники с текстовой информацией, к примеру, еще и редки.

Из интересных источников можно выделить следующие: twitter, vk. Но эти источники подходят не под все задачи.

Есть источники с нужными данными, но эти источники не потоковые. Здесь можно привести следующее ссылки: public-apis.

При решении задач, связанных с потоковыми данными, можно воспользоваться старым способом.

Скачать данные и отправить в поток.

Для примера можно воспользоваться следующим источником: imdb.
Следует отметить, что imdb предоставляет данные самостоятельно. См. IMDb Datasets. Но можно принять, что данные собранные напрямую содержат более актуальную информацию.

Язык: Java 1.8.
Библиотеки: kafka 2.6.0, jsoup 1.13.1.

Читать дальше →

kartzum 12 ноя 2020 в 10:59

Apache Kafka и тестирование с Kafka Server

8 мин

22K

Apache * Java * Тестирование IT-систем *

Из песочницы

Введение

Существуют различные способы для написания тестов с использованием Apache Kafka. К примеру, можно использовать TestContainers и EmbeddedKafka. Об этом можно почитать, к примеру, вот здесь: Подводные камни тестирования Kafka Streams. Но существует и вариант для написания тестов с использованием KafkaServer.

Читать дальше →

ScyllaDB: как настраивать метрики в java-драйвере и параметры запросов для измерения их характеристик

Обходим подводные камни работы с UDA в коде на Lua для ScyllaDB: дружим Java-драйвер и пустые значения

Сервисы с Apache Kafka и тестирование

Тестирование в Apache Spark Structured Streaming

Введение

Управление признаками сущностей в Apache Kafka

Введение

Сбор данных и отправка в Apache Kafka

Введение

Apache Kafka и тестирование с Kafka Server

Введение

Информация

Специализация