atygaev 8 фев 2016 в 12:30

MonCaché — реализация MongoDB API на основе InterSystems Caché

9 мин

5.4K

Блог компании InterSystemsNoSQL*MongoDB*

ИДЕЯ

Идея проекта — попробовать реализовать базовые функции MongoDB API для поиска, сохранения, обновления и удаления документов так, чтобы можно было бы не меняя клиентский код вместо MongoDB использовать InterSystems Caché.

МОТИВАЦИЯ

Возможно, если взять интерфейс MongoDB и в качестве хранилища данных использовать InterSystems Caché, то можно получить некоторый выигрыш в производительности.

Ну, а почему бы и нет?! ¯\_(ツ)_/¯

ОГРАНИЧЕНИЯ

В рамках исследовательского проекта было сделано несколько упрощений:
   — используются только примитивные типы данных:
         — null, boolean, number, string, array, object, ObjectId;
   — клиентский код работает с MongoDB посредством MongoDB драйвера;
   — клиентский код использует MongoDB Node.js driver;
   — клиентский код использует только базовые функции MongoDB API:
         — find, findOne — поиск документов;
         — save, insert — сохранение документов;
         — update — обновление документов;
         — remove — удаление документов;
         — count — подсчет документов.

РЕАЛИЗАЦИЯ

В итоге задача разбилась на следующие подзадачи:
   — воспроизвести интерфейс MongoDB Node.js driver по выбранным базовым функциям;
   — реализовать этот интерфейс, используя в качестве хранилища данных — InterSystems Caché:
       — разработать схему представления базы данных в Caché;
       — разработать схему представления коллекций в Caché;
       — разработать схему представления документов в Caché;
       — разработать схему взаимодействия с Caché, используя Node.js;
       — реализовать разработанные схемы и немножко потестить. :)

ДЕТАЛИ РЕАЛИЗАЦИИ

С первой подзадачей никаких особых трудностей не было, поэтому перейду сразу к подзадаче реализации интерфейса.

MongoDB определяет базу данных как физический контейнер для коллекций. А коллекцию как набор документов. И, наконец, документ, как набор данных. Документ подобен JSON документу, но с большим количеством допустимых типов — BSON.

В InterSystems Caché все данные хранятся в глобалах. Упрощенно, можно думать о глобалах как о иерархических структурах данных.

В этом проекте все данные будут храниться в одном глобале — ^MonCache.

Таким образом, требуется разработать схему представления базы данных, коллекций и документов, используя иерархические структуры данных.

Схема представления базы данных в Caché

В MongoDB на одном инстансе может быть несколько баз данных, а значит требуется разработать такую схему представления, которая позволит хранить несколько баз данных, которые были бы изолированы друг от друга. Важно также отметить, что MongoDB поддерживает базы данных не содержащие коллекций (далее «пустые» базы данных).

Я выбрал самый простой и очевидный способ решения поставленной задачи. Базы данных представляются узлом первого уровня в глобале ^MonCache. Кроме этого такому узлу приписывается значение "", для того, чтобы реализовать поддержку «пустых» баз данных. Всё дело в том, что если этого не делать и просто добавлять дочерние узлы, то как только все дочерние узлы будут удалены, родительский узел также будет удален (особенности глобалов).

Итого, каждая база данных представляется в Caché в следующем виде:

^MonCache(<db>) = ""

Например, представление базы данных «my_database» будет таким:

^MonCache("my_database") = ""

Схема представления коллекций в Caché

MongoDB определяет коллекцию как элемент базы данных. Все коллекции в одной базе данных имеют уникальное имя, а значит имя может использоваться для однозначной идентификации коллекции. Этот факт позволил мне найти простой способ представления коллекций в глобале, а именно использовать узлы второго уровня. Теперь нужно решить две небольшие задачи. Первая, заключается в том, что подобно базам данных, коллекции тоже могут быть пустыми. Вторая, заключается в том, что коллекция — это набор документов. И все документы должны быть изолированы друг от друга. Честно скажу, мне не пришло в голову ничего лучше чем хранить счетчик, что-то типа автоинкрементного значения, в качестве значения узла коллекции. Все документы имеют свой уникальный номер. При вставке нового документа в коллекцию, создается узел с именем равным текущему значению счетчика, а после этого значение счетчика увеличивается на 1.

Итого, каждая коллекция представляется в Caché в следующем виде:

^MonCache(<db>) = ""
^MonCache(<db>, <collection>) = 0

Например, представление коллекции «my_collection» в базе данных «my_database» будет таким:

^MonCache("my_database") = ""
^MonCache("my_database", "my_collection") = 0

Схема представления документов в Caché

Документ, в этом проекте, это JSON документ, расширенный дополнительным типом — ObjectId. Нужно было разработать схему представления документов на иерархических структурах данных. Здесь меня ждало несколько сюрпризов. Во-первых, нет возможности использовать «родной» null в Caché, так как Caché не поддерживает null. Второй интересный момент в том, что boolean значения реализованы константами 0 и 1. Т.е., грубо говоря, true — 1, false — 0. Самым ожидаемым проблемным моментом стало то, что нужно придумать как хранить ObjectId. В общем, все эти проблемы были успешно решены в самой, как мне казалось, простой форме. Далее, я рассмотрю каждый тип данных и его представление.

Схемы представления

Для более лаконичной записи я буду использовать специальное обозначение — @.
Вместо ^MonCache(<db>,<collection>,<document id>, ...) я буду просто писать
@(...).

Пусть есть поле f типа «null».

f: null