vintage Mar 15 2017 at 12:07

Пилим каталог товаров не притрагиваясь к реляционной алгебре

7 min

19K

SQL * System Analysis and Design *

+13

Comments 38

iit Mar 15 2017 at 13:24

Как-то раз я столкнулся со схожей структурой в mysql — где были объект и атрибуты объектов и все на сайте от статей до пользователей было перемешано — собрать один объект было то-еще веселье из кучи JOIN'ов и подзапросов.

Вытащить данные по серии объектов и взаимосвязями для отчета — локальный персональный ад.

Теперь я понял куда смотрели разработчики той системы и как это сделать правильно.

Спасибо!

P.S Пользователи статьи конечно разделили на разные микросервисы c postgres, а товары крутится на mongo.

UFO landed and left these words here

vintage Mar 15 2017 at 14:02

Где вы тут XML-то усмотрели?

SbWereWolf Mar 15 2017 at 14:01

тоже способ :)

UFO landed and left these words here

lega Mar 15 2017 at 19:50

Вы OrientDB только для пет проджектов используете? Как она в тяжёлом бою?
Я видел негативные статьи, что OrientDB теряет данные (хотя негативные статьи можно найти про любую популярную БД).

vintage Mar 15 2017 at 20:16

В стартапе использвал, но до тяжёлого боя он, к сожалению, не дожил.

lega Mar 15 2017 at 19:55

Можно ли в OrientDB сделать один индекс по двум «коллекциям» (классам)? Например поиск по имени в коллекциях клиент и сотрудник.

vintage Mar 15 2017 at 20:21

Да, даём им общий суперкласс (как, например, Object из статьи) и вешаем индекс на него. Множественное наследование поддерживается, если что.

ZOXEXIVO Mar 15 2017 at 20:57

В MongoDB 3.4 появился Faceted search как раз для поисков как в «Яндекс Маркете»

vintage Mar 15 2017 at 21:05

Завезли бы туда лучше транзакции и перекрёстные ссылки между документами.

ls18 Mar 16 2017 at 04:19

А в каком ПО вы пострили ER-схему БД(схема на первом изображении)?

vintage Mar 16 2017 at 06:38

Отвечает Александр SbWereWolf Друзь.

ls18 Mar 16 2017 at 06:40

М? Не понял ответа.

alprk Mar 16 2017 at 06:51

Могу предположить что в черном ящике JetBrains DataGrip

heleo Mar 16 2017 at 07:11

Схема взята из статьи другого пользователя, перечитайте первый абзац.

SbWereWolf Mar 16 2017 at 07:19

DataGrip, там ручками схему построить нельзя, но можно выбрать один из 10+ вариантов, я обычно выбираю Layout => Directed Orthogonal — самая «прямолинейная» схема получается.

на ру-трекере

grossws Mar 16 2017 at 07:33

Нахрена качать DataGrip с рутрекера, если можно взять с официального сайта?

msts2017 Mar 16 2017 at 07:08

Эх, в итоге все равно, при достижении определенных нагрузок, подобные конструкции замещаются, с матами, на звездолеты + движок полнотекстового поиска, людям надо и быстро манипулировать данными и быстро искать одновременно.
А все потому что имя таблицы и поля, в sql нельзя использовать как параметр, в том числе в виде списка, хотя чисто технически это вполне возможно, + добавить оптимизации аналогичные полнотекстовому поиску, вроде индекса объединяющего несколько таблиц.
типа:

select t.primarykey from (select table from tables where table_name like ...) t where (select field from t.fields where field_name in (..)) like ...

а не Javaу пихать в RDBMS *картинка с грозящим кулаком мужиком*.

vintage Mar 16 2017 at 08:00

Где вы тут Java-то усмотрели?

msts2017 Mar 16 2017 at 08:04

это не про orientdb, а вообще, в частности про оракл

grossws Mar 16 2017 at 11:05

А в слове Lucene как же?

vintage Mar 16 2017 at 11:44

Только, если сделать в нём 6 опечаток :-)

grossws Mar 16 2017 at 11:48

Если абстрагироваться от начала треда, то orientdb весь на java написан и использование Apache Lucene на это намекало. Имел ввиду исключительно это.

Don_Eric Mar 16 2017 at 09:33

похоже на концепт Anchor modeling
https://en.wikipedia.org/wiki/Anchor_modeling

xl0e Mar 16 2017 at 09:47

Create index Object.description on Object( description by value ) fulltext
engine lucene metadata {
    "analyzer" : "org.apache.lucene.analysis.ru.RussianAnalyzer"
}

Почему только RussianAnalyzer? Как с остальными языками быть?

vintage Mar 16 2017 at 10:12

Да, по хорошему для каждого языка нужен свой полнотекстовой индекс:

Create property Object.title_en string ( collate ci )

Create index Object.title_en fulltext
engine lucene metadata {
    "analyzer" : "org.apache.lucene.analysis.ru.EnglishAnalyzer"
}

Create property Object.title_ru string ( collate ci )

Create index Object.title_ru fulltext
engine lucene metadata {
    "analyzer" : "org.apache.lucene.analysis.ru.RussianAnalyzer"
}

Select from Object
where searchable = true
    and ( title_ru lucene "Ска*" or description_ru lucene "Ска*" )

Как определить язык запроса — вопрос отдельный.

alekciy Mar 29 2017 at 14:05

А что насчет скорости? Для, допустим, такого контекста. 10к тегов, 200к товаров. А теперь нам нужно найти все товары красного цвета, для мужчин, но НЕ штаны. За какое время указанная база может дать ответ?

P.S. Есть свой реляционный звездолет (Какие реализации могут быстро искать пересечение множеств (система тегов)?) на ~~стероидах~~ sphinx и периодически поглядываю в сторону других вариантов, но пока достойного кандидата не нашел. А руки конкретно до OrientDB пока не дошли. Вот и интересен порядок цифр у использующего его.

vintage Mar 29 2017 at 17:05

Боюсь не подскажу, это нужно нагенерить данных да потестить.

comerc Mar 31 2017 at 14:40

OrientDB выглядит очень привлекательно. Намучился с MongoDB. Собирался переехать на PostgreSQL — нужны связи. Но смущают тесты производительности https://www.arangodb.com/performance/

Предполагаю, что выборки по графам OrientDB будут быстрее цепочки джоинов в PostgreSQL, если рассматривать этот пример.

vintage Mar 31 2017 at 17:24

Навскидку у этого бенчмарка есть следующие косяки:

Используется графовое апи, хотя документное (использованное в этой статье) и быстрее и как правило удобнее.
В одних субд (аранго) используются первичные ключи, а в других (ориент) — вторичные (как slug в этой статье), что даёт лишний поиск первичного ключа.

Ща попробую у себя погонять.

vintage Apr 2 2017 at 07:22

Почему они используют графовое апи стало понятно — для вычисления shortest-path на графе. Другое дело, что shortest-path — довольно специфичная штука. Навскидку не могу придумать где она могла бы быть полезна.

vintage Apr 2 2017 at 07:52

2 Для получения идентификаторов друзей там делается следующего вида запрос в OrientDB: select out_Relationship._key as out from Profile where _key="P1" limit 1000 То есть сначала по вторичному ключу ищется первичный ключ, по нему читается запись из которой берутся первичные ключи друзей, а потом вытягиваются записи для всех 1000 друзей, чтобы взять у них вторичный ключ. Для сравнения, запрос в MongoDB: .find({_from: id}).toArray(function (err, result) { result = result.map(function (e) { return e._to.substr(2); });, то есть из коллекции рёбер делается выборка по индексу и эта выборка с минимальными трансформациями возвращается.

vintage Jun 23 2019 at 15:33

Вот, кстати, наткнулся на ответ разработчиков OrientDB: http://orientdb.com/orientdb-performance-challenge/

d9k Nov 13 2017 at 15:03

Интересно, как много оперативы съест решение на OrientDB и lucene?
Java же прожорлива в этом плане.

vintage Nov 16 2017 at 05:29

Проведите следственный эксперимент :-)

cudu Oct 16 2020 at 13:50

А при таком подходе есть вариант указать обязательность некоторых тегов, которые относятся к аспекту? Допустим, мы указали, что данный продукт — Еды. У еды есть аспект Классификация, куда входит набор тегов: Тип, Упаковка, и ЕСЛИ для еды был выбран аспект Классификация, то обязательно следует заполнить ВСЕ теги.

nin-jin Dec 1 2020 at 12:48

Да, можно добавить аспектам атрибут required и требовать в интерфейсе проставить теги по таким аспектам.