NoSQL *

Не только SQL

СтатьиПостыНовостиАвторыКомпании

pxeno 31 мар 2021 в 08:28

Эксплуатационный чек-лист для Redis в Kubernetes

7 мин

10K

Блог компании VKDevOps * Kubernetes * NoSQL * Базы данных *

Перевод

Команда Kubernetes as a Service в Mail.ru Cloud Solutions перевела контрольный список для запуска Redis внутри кластера Kubernetes. С ним стоит ознакомиться до того, как перейти к использованию Redis под рабочей нагрузкой.

Redis — популярное in-memory хранилище данных и кэш с открытым исходным кодом. Этот продукт стал важным компонентом построения масштабируемых микросервисных систем. Многие облачные провайдеры предлагают полностью управляемые сервисы Redis: Amazon ElastiCache, Azure Cache for Redis, GCP Memorystore (и на платформе MCS тоже есть такой управляемый сервис — прим. переводчика). Однако Redis также можно легко развернуть в Kubernetes, если вам нужно полнее контролировать его конфигурации. Прямо из коробки у него уже достойная производительность, но если вы собираетесь использовать Redis с рабочей нагрузкой, то сначала проверьте, выполняются ли все пункты этого чек-листа.

Читать дальше →

+29

GalsSoftware 15 мар 2021 в 17:12

Elasticsearch: сайзинг шардов как завещал Elastic + анонс вебинара + предложения по митапу

5 мин

19K

Блог компании Gals SoftwareBig Data * IT-инфраструктура * NoSQL * Системное администрирование *

Каждый индекс Elasticsearch состоит из шардов. Шарды — это логическое и физическое разделение индекса. В этой статье мы расскажем о сайзинге шардов Elasticsearch — важной его части, серьёзно влияющей на производительность кластера. В высоконагруженных системах выбор правильной конфигурации архитектуры хранения позволит серьёзно сэкономить на железе. Бóльшая часть статьи основана на соответствующем разделе документации Elastic. Подробности под катом.

Читать дальше →

apapacy 14 мар 2021 в 23:25

ArangoDB в реальном проекте

5 мин

15K

NoSQL * Node.JS * Веб-разработка *

ArangoDB мультимодельная (документная и графовая) база данных. К ее положительным сторонам относятся:

мощный и удобный язык запросов AQL
JOIN (даже более мощный чем в реляционных базах данных)
репликация и шардинг
ACID (в кластере работает только в платной версии)

Из менее существенных, но не менее удобных возможностей:

нечеткий поиск
встроенный в базу данных движок микросервисов Foxx
работа в режиме подписки на изменения в базе данных

Справедливости ради отмечу и недостатки:

отсутствие ODM
низкая популярность (в сравнении например с MongoDB)

После анализа возможностей ArangoDB и, в особенности, после преодоления в последних версиях недостатков (таких как резкое падение производительности при превышении размера коллекции доступной оперативной памяти) и появлении новых возможностей (таких как нечеткий поиск) — пришло время испытаний в реальном приложении.

Читать дальше →

Cloudera 5 мар 2021 в 09:02

Тестирование производительности HBase с помощью YCSB

8 мин

1.2K

Блог компании ClouderaХранение данных * Apache * Базы данных * NoSQL *

Перевод

Тестирование производительности HBase с помощью YCSB

При запуске любого теста производительности (инструмента по бенчмаркингу) на кластере критично всегда то, какой именно будет использоваться набор данных, и здесь мы покажем, почему при запуске теста производительности HBase на кластере важно выбрать «хорошо соответствующий по объему» набор данных.

Polina_Averina 4 мар 2021 в 06:02

Что будет, если изменить количество виртуальных нод в Apache Cassandra

31 мин

3.2K

Блог компании СлёрмApache * Big Data * NoSQL * Базы данных *

Перевод

В Apache Cassandra 4.0 будет новое значение по умолчанию для num_tokens! Звучит как незначительное изменение в CHANGES.txt, но по факту это серьезно повлияет на работу кластера. Как новое значение num_tokens скажется на кластере и его поведении?

От редакции: 27 марта приглашаем на открытую онлайн-конференцию Cassandra Day Russia 2021. В программе доклады и воркшопы. Материалы конференции подойдут как начинающим, так и опытным специалистам.

Читать дальше →

GalsSoftware 26 фев 2021 в 07:47

Определение объёма кластера Elasticsearch и тестирование производительности в Rally

7 мин

Блог компании Gals SoftwareСофтИнформационная безопасность * NoSQL * Big Data *

В этой статье мы разберёмся с основными подходами к сайзингу Elasticsearch, покажем сравнения бенчмарков кластера при загрузке логов и метрик. А разница там заметная. Надеемся, вам это поможет с определением объёма кластера Elasticsearch и расшифровкой того самого «it depends».

В некотором роде, эта статья является продолжением нашей статьи о сайзинге на Хабре. Но здесь появились примеры из реальной жизни, поэтому если есть потребность в некоей преемственности, начните с той статьи, а уж потом возвращайтесь сюда. Под катом все подробности.

Читать дальше →

Polina_Averina 20 фев 2021 в 10:55

Apache Cassandra 4.0: бенчмарки

8 мин

4.5K

Блог компании СлёрмБазы данных * NoSQL * Big Data * Apache *

Перевод

Apache Cassandra 4.0 приближается к бете (прим. переводчика: на текущий момент уже доступна бета 4, выпущенная в конце декабря 2020), и это первая версия, которая будет поддерживать JDK 11 и более поздних версий. Пользователей Apache Cassandra, очевидно, волнует задержка, так что мы возлагаем большие надежды на ZGC — новый сборщик мусора с низкой задержкой, представленный в JDK 11.

В JDK 14 он был выпущен уже в GA-версии, и нам было очень интересно оценить, насколько он подходит для кластеров Apache Cassandra. Мы хотели сравнить производительность Apache Cassandra 3.11.6 и 4.0 и проверить, подходит ли Shenandoah, сборщик мусора от Red Hat, для продакшена. Спойлер: Cassandra 4.0 значительно лучше по производительности сама по себе, а с новыми сборщиками мусора (ZGC и особенно Shenandoah) будет совсем хорошо.

Читать дальше →

torgeek 10 фев 2021 в 16:51

Четыре API для базы данных

13 мин

32K

SQL * NoSQL * Проектирование API * ООП * Хранение данных *

Туториал

Технотекст 2021

Как то мы уже обращались к теме превосходства объектного/типизированного представления в реализации моделей предметной области в сравнении с SQL. И верность тех доводов и фактов на на йоту не уменьшилась. Казалось бы, зачем отступать и обсуждать технологии, которые глобально низвергают абстракции обратно в дообъектную и дотипизированную эпоху? Зачем провоцировать рост спагетти-кода, непроверяемых ошибок и упование на виртуозное мастерство разработчика?

Есть несколько соображений о том, почему стоит поговорить про обмен данными через API на основе SQL/REST/GraphQL, в противовес представлению их в виде типов/объектов:

BlackBox 5 фев 2021 в 09:52

Паспортный контроль, или Как сжать полтора гигабайта до 42 мегабайт

3 мин

42K

PHP * Анализ и проектирование систем * NoSQL *

Однажды, в качестве тестового задания на позицию PHP разработчика была предложена задача реализации сервиса проверки номеров паспортов граждан РФ на предмет нахождения в списке недействительных. Текст задания был лаконичным: «Пользовательская база 10 миллионов, время ответа 1 миллисекунда, аптайм 99%».

Не густо, но попробуем сделать из этого конфетку.

+52

Nurba7182 24 янв 2021 в 09:35

Кластеризация и классификация больших Текстовых данных с помощью М.О. на Java. Статья #3 — Архитектура/Результаты

9 мин

3.9K

Natural Language Processing * Машинное обучение * Big Data * NoSQL * Java *

Привет, Хабр! Сегодня будет продолжение темы Кластеризация и классификация больших Текстовых данных с помощью машинного обучения на Java. Данная статья является продолжением первой и второй статьи.

PeterG 15 янв 2021 в 08:17

Фирма «1С» приглашает вас принять участие в нашей первой конференции для системных разработчиков

2 мин

7.1K

Блог компании 1СNoSQL * Kubernetes * Java * Eclipse *

Всем добрый день!

Фирма «1С» приглашает вас принять участие в нашей первой конференции для системных
разработчиков, которая пройдет 23 января в онлайн-формате.

Наверное, вы сейчас думаете «да 1С это ж бухгалтерия, какая системная разработка?»

А вот, на самом деле, мы как раз о системной разработке знаем многое и у нас есть много
интересных тем, которыми нам хочется поделиться.

Например, знаете ли Вы, что среди технологий 1С есть высоконагруженный кластер, с
продвинутой балансировкой нагрузки и обеспечением отказоустойчивости?

Или зачем нам вдруг понадобилось использовать NoSQL DB при разработке собственной IDE? (Да-да, у нас есть собственная IDE, да не одна, а целых три!)

Читать дальше →

vlad_radziuk 30 дек 2020 в 10:02

Как бы я сейчас объяснил молодому себе… зачем существуют требования ACID для баз данных?

35 мин

54K

Анализ и проектирование систем * SQL * NoSQL * Базы данных * Data Engineering *

Я – выскочка. По крайней мере, так я себя иногда ощущаю. Закончив второй курс политологии и журналистики в университете, я увидел американский рейтинг профессий по уровню оплаты труда. Журналист в этом рейтинге был на последнем месте, а на первых местах были data scientists и data engineers (политолога в этом списке, почему-то, не было). Я не знал, кто составлял этот список, и понятия не имел, кто такие эти data-челы с первых строк, но он меня впечатлил. Я бросил пить и начал проходить курсы на Coursera, а потом каким-то чудом заполучил студенческую подработку в стартапе. Так я сделал своё «войти в IT».

Когда человек, не имеющий университетской подготовки, пытается начать программировать, то он чувствует себя несчастным, который, увидев из окна солнце, вышел на улицу и попал под неожиданный в столь прекрасный день град: шаблоны проектирования, функции, классы, ООП, инкапсуляция, протоколы, потоки, ACID… Хочется прокричать, как Виктор Фёдорович в своё время:

Окно в удивительный мир баз данных...

+13

PPR 28 дек 2020 в 07:52

Как мы пытались с NoSQL работать как с SQL с помощью Hibernate и Apache Phoenix

2 мин

2.6K

Блог компании Программный ПродуктNoSQL * Java *

Мы хотели реализовать пагинацию и для этого нам пришлось форкнуть диалект для Hibernate.

-1

gritzko 23 дек 2020 в 05:00

CRDT, RON и Сети Данных

6 мин

Децентрализованные сети * NoSQL * Распределённые системы * IPFS * Хранение данных *

Эта статья о следующем эволюционном шаге в развитии систем обработки данных. Тема амбициозная, поэтому расскажу сначала немного о себе. Вот уже больше 10 лет я работаю над проектами в области CRDT и синхронизации данных. За это время успел поработать на университеты, стартапы YCombinator и известные международные компании. Мой проект последние три года – Replicated Object Notation, новый формат представления данных, сочетающий возможности объектной нотации (как JSON или YAML), сетевого протокола и оплога/бинлога. Вы могли слышать про другие проекты, работающие в том же направлении, например, Datanet, Automerge и другие. Также вы могли читать Local-first software, это наиболее полный манифест данного направления Computer Science. Авторы - замечательный коллектив Ink&Switch, включая широко нам известного по "Книге с Кабанчиком" М.Клеппманна. Или вы, возможно, слушали мои выступления по этой теме на различных конференциях.

Идеи этой статьи перекликаются с тем, что пишет последние годы Pat Helland: Immutability Changes Everything и др. Они смежны с проектами IPFS и DAT, к которым я имею отношение.

Итак. Классические БД выстроены на линейном логе операций (WAL). От этого лога выстроены транзакции, от него же выстроена репликация master-slave. Теория репликации с линейным логом написана ещё в начале 1980-х с участием небезызвестного Л. Лампорта. В классических legacy системах с одной большой центральной базой данных всё это работает хорошо. Так работают Oracle, Postresql, MySQL, DB2 и прочие классические SQL БД. Так работают и многие key-value БД, например, LevelDB/RocksDB.

Но линеаризация не масштабируется. Когда система становится распределённой, всё это начинает ломаться. Образно говоря, линейная система – это что-то вроде греческой фаланги. Нужно, чтобы все шли ровно, а для этого хорошо, чтобы земля была везде ровной. Так получается не всегда: где-то электричество отключили, а где-то сеть медленная. Хотя в системе Google Spanner и было показано, что с достаточно большим бюджетом землю можно сделать ровной абсолютно везде, мы всё же отметим, что Google тоже бывает отключается целиком по совершенно смешным причинам.

+17

Nurba7182 24 ноя 2020 в 08:34

Кластеризация и классификация больших Текстовых данных с помощью машинного обучения на Java. Статья #2 — Алгоритмы

18 мин

7.6K

Big Data * Java * Natural Language Processing * NoSQL * Машинное обучение *

Статья будет содержать Теорию, и реализацию алгоритмов который я применял.

Читать дальше →

AloneCoder 17 ноя 2020 в 09:50

Рейт лимиты с помощью Python и Redis

5 мин

14K

Блог компании VKАнализ и проектирование систем * Python * NoSQL * Проектирование API *

Туториал

Перевод

В этой статье мы рассмотрим некоторые алгоритмы рейт лимитов на основе Python и Redis, начиная с самой простой реализации и заканчивая продвинутым обобщённым алгоритмом контроля скорости передачи ячеек (Generic Cell Rate Algorithm, GCRA).

Для взаимодействия с Redis (pip install redis) мы будем пользоваться redis-py. Предлагаю клонировать мой репозиторий для экспериментирования с ограничениями запросов.

Читать дальше →

+21

Nurba7182 8 ноя 2020 в 13:44

Кластеризация и классификация больших Текстовых данных с помощью машинного обучения на Java. Статья #1 — Теория

19 мин

18K

Машинное обучение * NoSQL * Natural Language Processing * Java * Big Data *

Из песочницы

Данная статья будет состоять из 3 частей (Теория/Методы и алгоритмы для решение задач/Разработка и реализация на Java) для описания полной картины. Первая статья будет включать только теорию, чтобы подготовить умы читателей.

Цель статьи:

Частичная или полная автоматизация задачи кластеризации и классификации больших данных, а именно текстовых данных.
Применение алгоритмов машинного обучение “без учителя” (кластеризация) и “с учителем” (классификация).
Анализ текущих решений задач.

Задачки, которые будут рассматриваться в целом:

Разработка и применение алгоритмов и методов обработки естественного языка.
Разработка и применение методов кластеризации для определения кластерных групп входных документов.
Применение методов классификации для определения предмета каждых кластерных групп.
Разработка веб-интерфейса на основе Java Vaadin

Гипотезы, которые я вывел из задачки и при обучении теории:

Классификация кластерных групп определяет абстрактные и более ценные скрытые знания, игнорируя шумы, чем классификация отдельных объектов.
Точность кластеризации прямо пропорциональна количеству кластерных групп и обратно пропорциональна количеству объектов в одной кластерной группе.

Забегая вперед, кому интересен сам алгоритм, вот обзор.

Алгоритм программного обеспечение для машинного обучения состоит из 3 основных частей:

Обработка естественного языка.
1. токенизация;
2. лемматизация;
3. стоп-листинг;
4. частота слов;
Методы кластеризации.
TF-IDF ;
SVD;
нахождение кластерных групп;
Методы классификации – Aylien API.

Итак, начнем теорию.

Читать дальше →

vtch 6 ноя 2020 в 07:17

Как быстро загрузить большую таблицу в Apache Ignite через Key-Value API

9 мин

3.3K

Apache * Java * NoSQL *

Некоторое время назад на горизонте возникла и начала набирать популярность платформа Apache Ignite. Вычисления in-memory — это скорость, а значит, скорость должна быть обеспечена на всех этапах работы, особенно при загрузке данных.

Под катом находится описание способа быстрой загрузки данных из реляционной таблицы в распределенный кластер Apache Ignite. Описана предобработка SQL query result set на клиентском узле кластера и распределение данных по кластеру с помощью задания map-reduce. Описаны кеши и соответствующие реляционные таблицы, показано, как создать пользовательский объект из строки таблицы и как применить ComputeTaskAdapter для быстрого размещения созданных объектов. Весь код полностью можно увидеть в репозитории FastDataLoad.

Читать дальше →

GalsSoftware 4 ноя 2020 в 23:10

Как лицензируется и чем отличаются лицензии Elastic Stack (Elasticsearch)

3 мин

17K

Блог компании Gals SoftwareBig Data * IT-инфраструктура * NoSQL * Софт

В этой статье расскажем как лицензируется Elastic Stack, какие бывают лицензии, что туда входит (ключевые возможности), немножечко сравним Elastic с OpenDistro от AWS и другими известными дистрибутивами.

Читать дальше →

+13

apapacy 18 окт 2020 в 17:54

Инструменты Node.js разработчика. Какие ODM нам нужны

6 мин

8.4K

JavaScript * NoSQL * Node.JS *

ODM - Object Document Mapper - используется преимущественно для доступа к документоориенриирвоанным базам данных, к которым относятся MongoDB, CouchDB, ArangoDB, OrientDB (последние две базы данных гибридные) и некоторые другие.

Прежде чем перейти к рассмотрению вопроса, озвученного в названии сообщения, приведу статистику скачивания пакетов из публичного регистра npm.

1 2 ...

5 6

8 9 ...

27 28

NoSQL *

Эксплуатационный чек-лист для Redis в Kubernetes

Elasticsearch: сайзинг шардов как завещал Elastic + анонс вебинара + предложения по митапу

ArangoDB в реальном проекте

Тестирование производительности HBase с помощью YCSB

Что будет, если изменить количество виртуальных нод в Apache Cassandra

Определение объёма кластера Elasticsearch и тестирование производительности в Rally

Apache Cassandra 4.0: бенчмарки

Четыре API для базы данных

Паспортный контроль, или Как сжать полтора гигабайта до 42 мегабайт

Кластеризация и классификация больших Текстовых данных с помощью М.О. на Java. Статья #3 — Архитектура/Результаты

Фирма «1С» приглашает вас принять участие в нашей первой конференции для системных разработчиков

Как бы я сейчас объяснил молодому себе… зачем существуют требования ACID для баз данных?

Как мы пытались с NoSQL работать как с SQL с помощью Hibernate и Apache Phoenix

Ближайшие события

CRDT, RON и Сети Данных

Кластеризация и классификация больших Текстовых данных с помощью машинного обучения на Java. Статья #2 — Алгоритмы

Рейт лимиты с помощью Python и Redis

Кластеризация и классификация больших Текстовых данных с помощью машинного обучения на Java. Статья #1 — Теория

Как быстро загрузить большую таблицу в Apache Ignite через Key-Value API

Как лицензируется и чем отличаются лицензии Elastic Stack (Elasticsearch)

Инструменты Node.js разработчика. Какие ODM нам нужны

Вклад авторов