stab 18 янв 2011 в 15:26

Фильтр Блума

3 мин

62K

Алгоритмы*

+82

Комментарии 36

Lass_ua 18 янв 2011 в 15:34

Хоть и не люблю такого стиля изложения, но статья понравилась, спасибо.

stab 18 янв 2011 в 15:40

Пожалуйста. Над стилем буду работать. Что с ним не так? :)

o_O_Tync 18 янв 2011 в 17:07

Зря, со стилем всё отлично: грамотно и последовательно. Остальное придёт с опытом :)

Lass_ua 18 янв 2011 в 16:01

>>Здравствуй, мой маленький любитель алгоритмов.
>>До свидания, мой маленький.
Воспринимается неоднозначно. Но это мое субъективное имхо.

+12

stab 18 янв 2011 в 16:07

Подумалось, что без этого как-то суховато, тем более статья до академического уровня явно не дотягивает. Ничего плохого не имел в виду, чесслово.

НЛО прилетело и опубликовало эту надпись здесь

lesha_penguin 24 мая 2011 в 18:48

Если ориентироваться на людей с повышенным ЧСВ, то придется вообще ничего не писать и не говорить, а заперется в глубоком бункере и молчать в тряпочку, потому что те, у кого ЧСВ выше среднего обижаются вообще на пустом месте:)

А статья интересная, хотелось бы развития темы в плане насколько фильтр блума может ускорить производительность на некоторых типовых задачах. Например, сравнить производительность проверки данных с «длинным ключем» на массивах данных хотя бы сотни тысяч записей без Фильтра Блума и с ним.
Т.е. интересует с практической стороны, что может получить в плане прироста производительности если перед «тяжелой проверкой» (поиск длинного ключа) поставить «легкую проверку» (Фильтр Блума).

kirilloid 19 янв 2011 в 09:57

И взяли стиль изложения ксакепа ;-)

stab 18 янв 2011 в 16:29

Исправил от греха подальше :)

HomoLuden 18 янв 2011 в 16:30

Начало и концец — обращение к «маленьким», а вот изложение непростое…

Заводится массив бит фиксированного размера m и набор из k различных хеш-функций, выдающих значения от 0 до m — 1. При необходимости добавить элемент к множеству, для элемента считается значение каждой хеш-функции и в массиве устанавливаются соответствующие биты.

Идея-то может и проста, но вот такое описание я только с восьмого прочтения переваривать начал.
Хэш-функция выдает значение и что? Устанавливается бит с индексом, равным полученному значению? Или в массив записываются биты полученного числа.
Формулы пронумеровать бы… Последнее выражение для «k»… База логарифма какая?

HomoLuden 18 янв 2011 в 16:36

И вот еще…

достаточно посчитать значения хеш-функций для потенциального члена и убедиться, что все соответствующие биты установлены в единицу — это и будет ответом «возможно». Если же хотя бы один бит не равен единице, значит множество этого элемента не содержит — ответ «нет», элемент отфильтрован

«Соответствующие биты» — соответствующие чему? Можно пример небольшой? Хэш-функций много меньше числа бит в массиве. Все биты не будут установлены по получаемым индексам. А если не все, то какие? Шаблон использовать для массива?

stab 18 янв 2011 в 16:37

Про индексы поправил. Основание натуральное.

leventov 18 янв 2011 в 16:41

log означает базу 2, но автор намудрил там. Надо было писать ln 2

Aivean 18 янв 2011 в 16:58

log — это общая функция. lg — основание 10, lb — основание 2.

leventov 18 янв 2011 в 17:39

Впервые вижу «lb». log n — повсеместное сокращение log₂n

-4

HomoLuden 18 янв 2011 в 21:58

Я lb не встречал, но выглядит вполне логично.

-1

safron 22 янв 2011 в 16:18

еще ln — по основанию e

EXSlim 18 янв 2011 в 16:33

0 False, 1 True, 2 Maybe?

if maybe a in seq:
   pass

dom1n1k 18 янв 2011 в 16:38

Странное ощущение от статьи: вроде каждое предложение по отдельности понятно, а общая картина смысла не складывается.
Есть какой-то алгоритм, есть структуры, есть код, есть формулы оптимальных параметров и даже вроде примерно понятно, зачем это может быть нужно.
Но понимания сути, как же это внутри работает, статья не даёт — а ведь это главное.
Например, про пузырьковую сортировку мне достаточно знать и понимать общий принцип сравнения/обмена соседних элементов, в результате которого за каждый проход наверх «всплывает» одно значение. Имея в голове ясную пошаговую картинку алготитма, код нетрудно «изобрести» самостоятельно.

HomoLuden 18 янв 2011 в 22:01

Именно так… Примеров наверное не хватает.

afiskon 18 янв 2011 в 16:45

Хм, я конечно понимаю, что вы старались и все такое, но если честно, статья не очень понравилось.

На Википедии достаточно одного взгляда на картинку, чтобы понять, о чем речь. У вас же тут килобайта 3 текста из которых я так и не понял, зачем нужно _несколько_ хэш-функций.

Aivean 18 янв 2011 в 16:52

Интересно. Хотелось бы, конечно, оценок эффективности, особенно по сравнению с одной хэш-функцией и с отдельным массивом для каждой хэш-функции. Как я понимаю, «фишка» этой реализации в том, что благодаря случайному распределению хэшей при оптимальных параметрах эффективность выше, чем если бы массив был отдельный для каждой хэш-функции.

stab 18 янв 2011 в 17:37

Честно говоря, долго пытался придумать пример наглядно показывающий, почему при одном массиве и нескольких функциях эффективность выше, чем при одном массиве и одной функции. Ни одной интуитивно понятной аналогии мне так в голову и не пришло, поэтому решил об этом не писать.

Фишка в том, что при заданной вероятности ложного срабатывания, одной функии и конечном кол-ве элементов, которые предполагается запомнить фильтром, эффективность фильтра ниже, поскольку все те «избыточные» биты, которые были введены для удерживания кол-ва ошибок выше определённого потолка, «никак» не используются.

Если ввести вторую функцию, то эти «неиспользуемые» биты разделяются между ними, при этом кол-во необходимых бит на ключ растёт линейно, а точность экспоненциально.

HomoLuden 18 янв 2011 в 22:05

После прочтения первого абзаца я, кажется, начал понимать суть, но тут же предложение из пятидесяти слов выбило почву из-под ног.

stab 18 янв 2011 в 17:44

Плин, «ниже определённого потолка».

LiaDesign 18 янв 2011 в 18:46

После прочтения статьи на википедии сложилось такое «наглядное» представление назначения такой структуры данных:
есть много серверов, которые содержат key-value пары. Для выборки значения по ключу Key мы отправляем запрос на каждый сервер. Без подобного фильтра каждый сервер выполняет полноценный поиск по своему индексу — и эта операция довольно дорогая и будет выполнена на каждом сервере!
Фильтр Блума позволяет с малыми затратами ресурсов выяснить, что этот ключ может быть на 2-х серверах из 10-и — и отправить полноценный запрос лишь на эти два сервера.
Т.о. вопрос «зачем» для меня решен, а «как» — при необходимости приложится.

HomoLuden 18 янв 2011 в 22:07

Уже лучше… Вот бы нечто подобное с описанием «как» (еще раз, чтоб дуболому «мне» уж точно удалось понять) в статью вставить.

НЛО прилетело и опубликовало эту надпись здесь

stab 18 янв 2011 в 20:06

Почитал, на сколько я понял, фильтр Блума там используется для быстрой проверки на отсутствие слова в словаре исключений. А сами словари в виде trie представлены.

НЛО прилетело и опубликовало эту надпись здесь

Frip 18 янв 2011 в 21:06

Если я правильно понял, алгоритм эффективен только при определенных обстоятельствах.

Допустим, мы хотим, чтобы наша реализация фильтра Блума отвечала на вопрос принадлежности с пятидесятипроцентной точностью. Тогда оптимальная длина вектора:
m = n* (-ln(0.5)/ln(2)^2) ~ 1.44*n

Но если мы возьмем вектор длинны n (в полтора раза меньший!) то можем просто хранить в нем информацию обо всех элементах множества, то есть отвечать на вопрос о пренадлежности со стопроцентной вероятностью. Ну, конечно, если найдем способ отображения наших элементов в множество натуральных чисел: )

Получается, есть смысл применять алгоритм тогда, когда ни отоброжение, ни индексирование элементов невозможно (затруднительно). При этом, чтобы получить 90% вероятность правильного срабатывания алгоритма, нам нужно выделить массиво бит, чья длинна (m ~ 5*n) в пять раз привышает длинну исходного множества элементов (вот! только теперь я понял смысл фразы «чтобы уменьшить нагрузку в 10 раз, необходимо хранить примерно 5 бит информации на каждый ключ.»!: ))

Вы знаете, следовало бы добавить в статью несколько простых примеов, объяснить «на пальцах»: )

BlastBeat 19 янв 2011 в 02:33

Спасибо за пояснения, сразу ответил на несколько возникших у меня вопросов.
Вердикт — съедобно.

НЛО прилетело и опубликовало эту надпись здесь

iPavel 19 янв 2011 в 19:55

Спасибо автору за то, что сказали о существовании такой штуки а также спасибо всем комментирующим. Отправился в википедию, дошло.
А в этой статье мне стало непонятно на фразе «При необходимости добавить элемент к множеству, для элемента считается значение каждой хеш-функции и в массиве устанавливаются биты с соответствующими индексами.» ИМХО эту часть стоит перефразировать, действительно пример или картинку/схему.

insekt 14 авг 2015 в 12:25

Использование этих фильтров в сетевом оборудовании
forums.juniper.net/t5/Data-Center-Technologists/Juniper-QFX10002-Technical-Overview/ba-p/270358
раздел
Hybrid Memory Cube and Bloom Filters

SabMakc 3 мая 2016 в 17:42

К сожалению, в данной реализации хеш-функция может возвращать отрицательные значения.
Это приводит к тому, что фильтр Блума использует удвоенный объем памяти (в JS отрицательный индекс массива корректен)…

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Фильтр Блума

Комментарии 36

Публикации

Истории