zzeng 8 янв 2020 в 17:11

Логические поля в базах данных, есть ли противоядие

9 мин

15K

Поисковые технологии*Анализ и проектирование систем*Алгоритмы*C*

+25

Комментарии 28

greabock 8 янв 2020 в 18:24

Вы так круто всё это развернули. Я даже не сразу понял, что речь идет о банальной битовой маске. Ближе нужно к народу-то быть )

zzeng 8 янв 2020 в 18:43

На всё в IT можно смотреть как на банальную последовательность нулей и единиц.
Вот конкретно эта маска с другой стороны является индексом (что само по себе и не ново).
Интерес представляет скорее алгоритм поиска, который оказался применим к такой маске и умеет эффективно пропускать бесполезные данные и не пропускать полезные.

edo1h 8 янв 2020 в 23:37

я думаю, что речь про то, что из заголовка непонятно, что статья про true/false.
во всяком случае я (почему-то) подумал, что речь про вычисляемые поля и долго не мог "въехать".

быть может, удачнее было бы назвать "Логические поля (boolean) в базах данных, ..."?

и вообще статье не хватает вступления — вкратце объяснить про что речь вообще (я так понял, про разработку своего движка СУБД и многомерных индексов в нём)

zzeng 9 янв 2020 в 06:45

Вообще, под эту категорию попадают не только boolean, но и числовые маски и символьные поля (Ex: IsProcessed='y').

Да речь идёт о собственном движке с индексами, но в данном случае это не важно.
Алгоритм общечеловеческий и его реализация была опубликована как расширение к PGSQL (отсюда и слон на заставке).

edo1h 10 янв 2020 в 04:29

Да речь идёт о собственном движке с индексами, но в данном случае это не важно.

это важно для создания контекста у читателя. в первый раз читая статью я до середины вообще видел только набор слов, потом понял о чём статья, начал читать второй раз с начала — и надо же, всё понятно.

zzeng 10 янв 2020 в 07:17

Пожалуй, учту в дальнейшем.

greabock 9 янв 2020 в 06:06

Да не, я без претензий, и плюс материалу поставил. Просто есть устоявшееся выражение "битовая маска", которое более менее описывает, что здесь происходит. Но за весь текст оно не встречается ни разу. Только это и вызвало такой диссонанс. А походу текста складывается впечатление, что это рокет-сайнс какой-то )
Плюс, не хватает немножко практического sql, сравнения непосредственно с битовой маской (если бы мы сразу хранили все значения в маске) и фильтрацией по a^b. Ну это на заметку если вы хотите следующий материал по этой же теме писать.

zzeng 9 янв 2020 в 06:51

Сравнение с MSSQL таково:
— запрос №3 (только count) MSSQL выполняет около 5 минут (с холодного старта и полчаса потянет)
— сплошное чтение маски (эквивалентное запросу №5) занимает около минуты
— запрос №3 через битовый индекс выполняется ~300 мсек

greabock 9 янв 2020 в 09:54

Отлично, ждем следующего материала.

zzeng 9 янв 2020 в 09:19

Разница в производительности в 200 раз (300мсек VS 60сек пример выше)
делает эту «битовую маску» не такой уж и банальной

OleksiyT 9 янв 2020 в 06:38

Ещё не встречал булевого переключателя, который бы нельзя было заменить обычным байтом.

Нет, ну понятно экономия пары битов. Но удобство работы плюс потенциальный задел на расширение вариантов пока перевешивает.

zzeng 9 янв 2020 в 06:41

Ну, строго говоря, не пара битов, а в 8 раз.
Иногда за счет выравнивания лишний разряд может потянуть за собой и 4 и 8 байт.
А, например для синхронизации большого к-ва объектов, выгодно работать с общей битовой маской.

dim2r 9 янв 2020 в 12:46

Если исходить из того, что NULL — это не неизвестное значение, а отсутствие какого бы то ни было значения, то такие записи не должны попадать в индекс.

Что-то сомневаюсь, что в индексе нет места для NULL. Как тогда работает «select ....where field is null»?

zzeng 9 янв 2020 в 12:52

Почему вы решили, что этот запрос использует индекс?
Почему нельзя проиндексировать факт «field is null»?
Какой физический смысл в индексации NULL-ов вместе с данными?

dim2r 9 янв 2020 в 12:56

Я ничего не решил, просто спросил.
Есть логика конечного потребителя и ему надо, чтобы работало быстро

zzeng 9 янв 2020 в 13:01

тогда пункт 2 — индексируем факт null|not null

dim2r 9 янв 2020 в 13:25

Походу да! Проверил план запроса на оракле. Поле имеет одномерный индекс.

«select… where field is null» — table full scan
«select… where field > 123» — index used

dim2r 9 янв 2020 в 15:59

все таки есть способ включить null в индекс
www.dba-oracle.com/oracle_tips_null_idx.htm

zzeng 10 янв 2020 в 06:54

Вообще, NULL-ы — довольно токсичная штука, всё что с ними соприкасается тоже становится NULL-ом. Вот если вы хотите поместить такое значение в индекс, где оно окажется — в начале, конце (может сбоку)?

По вашей ссылке вижу попытку подменить null-ы «неизвестным значением».
Сошлюсь на несколько идеалистическую книжку Дейта и Дарвена «Database Explorations»
(см. «Chapter 27 Is SQL’s Three-Valued Logic Truth Functionally Complete?»,
«Chapter 28 A Critique of Nulls, Three-Valued Logic, and Ambiguity in SQL:
Critiquing Date's Critique») и просто на вики :).

dim2r 10 янв 2020 в 15:18

:)) в потолке открылся налл, ты не смейся, ты пропал :))

SlavniyTeo 9 янв 2020 в 13:16

Читать очень интересно, спасибо за статью (и за предыдущую тоже).

Мне кажется, если уж речь идет о сотнях булевых полей, то может подойти и инвертированный (GIN) индекс. Наивный пример: массив[enum] + оператор @> в запросах.

zzeng 9 янв 2020 в 13:23

Спасибо.

А чем это будет отличаться от варианта — «давайте просто проиндексируем все логические поля»?

SlavniyTeo 9 янв 2020 в 13:43

«давайте просто проиндексируем все логические поля» — слишком абстрактно. В конце концов, Вы в статье индексируете все логичесчкие поля, разве нет?

В моем примере массив будет содержать только те значения, которые TRUE, так что индекс будет представлять разреженную (sparse) структуру. Все сильно зависит от распределения значений в этих полях.

Если серьезно, я тот еще эксперт во внутренностях SQL баз данных. Мне попросту не хватит квалификации чтобы ответить на Ваш вопрос "чем это отличается" на низком уровне.

zzeng 9 янв 2020 в 14:03

Мысль то симпатичная: пусть конкретное поле — это наличие некоторого слова из словаря, давайте построим полнотекстовый индекс.

Но это эквивалентно построению одиночного индекса на каждое логическое поле,
так даже компактнее полнотекстового, ведь номер слова не присутствует.

А если перекос в обратную сторону — почти все true и лишь иногда false?
Нет смысла индексировать поле, если нет статистического перекоса.
С другой стороны, сегодня перекоса нет, а завтра есть.

В результате многомерный индекс получится и компактнее и быстрее.

amarao 9 янв 2020 в 13:28

Офигенно, круто. Люблю, когда оторванная от жизни математика (кривая Гильберта) оказывается настолько практичной.

CherAlexV 10 янв 2020 в 06:26

Мы пошли другим путем. Булевые флаги перевели в флаговое перечисление. В БД — инты.
Всё отлично индексируется и работает.
Безусловно, в бд данные не читабельные, но в коде — все супер.

edo1h 12 янв 2020 в 09:27

не понял, вот есть 10 полей, по 2 из них нужно отфильтровать — и как оно работает?

CherAlexV 12 янв 2020 в 16:18

А вот поиск у нас в эластике.)
Для неё флаговое перечисление сериализуется в коллекцию значений. Причём значения хранятся не в интах, а в строковых значениях типа keyword. Это обеспечивает и читабельность, и отсутствие кореляций с другими значениями перечесления, если б хранились в интах.
Соответственно, поисковый фильтр формируется для указания наличия (или отсутствия) конкретных значений в коллекции.

В базе только по ключам что-то берётся.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Логические поля в базах данных, есть ли противоядие

Комментарии 28

Публикации

Истории