nowm24 мар 2014 в 07:54

Используйте поиск по хешу, а не обыск массива

3 мин

30K

Высоконагруженные системы * PHP * Алгоритмы *

Перевод

Комментарии 19

Googolplex 24 мар 2014 в 08:24

Фактически, это множество.

Тип Map<T, Boolean> изоморфен типу Set<T> (и, например, в Java множество HashSet построено как тонкая обёртка над HashMap). В языках, где нет эффективной поддержки дженериков, множества частно эмулируются через ассоциативные массивы непосредственно. Например, общепринятым в Go способом создания множества (упоминается даже в официальной документации) является использование map[<something>]bool.

cypok 24 мар 2014 в 08:26

Краткое содержание: не реализуйте множество через массивы.

PaulZi 24 мар 2014 в 08:37

В данной теме может быть полезной функция array_flip(), естественно, где-нибудь однократно.

PQR 24 мар 2014 в 09:15

Я обычно использовал array_combine($badWordList, $badWordList), но array_filp() — это даже лучше, спасибо!

zelenin 24 мар 2014 в 10:19

автор, сделай пожалуйста тест с array_flip, потому что все-таки удобнее массив составлять без ключей

PaulZi 25 мар 2014 в 04:47

Тест тут какой написать? Если запихнуть array_flip в цикл, то выигрыша естественно не будет, даже наоборот, т. к. каждый раз будет пересоздаваться массив. Если же вынести из цикла, то выигрыш существенный:

код

define('TEST_ITER', 100000);
$data = array('арбуз', 'дыня', 'вишня', 'слива', 'яблоко', 'груша', 'смородина', 'персик', 'абрикос', 'банан', 'виноград', 'киви');

$t = microtime(true);
for($i=0; $i<TEST_ITER; $i++)
	$tmp = in_array('картофель', $data);
var_dump(microtime(true)-$t); // float(0.082980155944824)


$t = microtime(true);
$data = array_flip($data);
for($i=0; $i<TEST_ITER; $i++)
	$tmp = isset($data['картофель']);
var_dump(microtime(true)-$t); // float(0.0057001113891602)

SirD 24 мар 2014 в 09:13

В следующем примере список запрещённых слов будет состоять из 10 000 элементов.

Вы только что запретили общаться одной из европейских стран.

nowm 24 мар 2014 в 09:24

А что за страна и язык? Я нашёл только информацию про язык Таки во Французской Гвинее — что-то в районе 340 слов.

SirD 24 мар 2014 в 09:34

Это, конечно, оффтоп, но я имел в виду обиходный (читай «используемый в повседневном общении») словарь среднестатистического европейца.

mekegi 24 мар 2014 в 09:20

Очень конечно весело видеть десятикратный прирост. Однако в реальных приложениях разницы между 0.000023 и 0.000123 вы никогда не заметите ибо все одеяло на себя утащат запросы к бд, парсинг больших xml и проч.

nowm 24 мар 2014 в 09:54

Ну да, алгоритм довольно-таки «тепличный». Хотя, мне всё равно чем-то идея понравилась, поэтому я и решил перевести эту статью.

Gorthauer87 24 мар 2014 в 12:35

Вот подумайте, у вас есть сервис, который крутится на 10 серверных стойках, а вы с помощью замены алгоритма понизили нагрузку на процессор на 10 процентов, то это значит, что одна из стоек безболезненно может быть отдана под другую задачу.
Или же вы сможете сэкономить 10% электроэнергии вот просто на замене 10 строчек кода.

bat 25 мар 2014 в 07:24

Поддержу, размера массива и кол-во обращений играют роль.

Помится, в Delphi, по крайней мере, до 7 версии было так.
Есть класс TDataSet для наборов данных, в него загружались данные из БД. Данный класс содержит в себе коллекцию полей (Fields), которые предоставляли доступ к значениям полей текущей записи. Доступ к объектам полей по имени, либо через метод FieldByName() либо более простой вариант типа dataset['fieldname']. Вся фишка в том, что эта коллекция построена на основе одного из базовых классов Delpgi — TList, по сути, массив.
Когда, по событию нужно прочитать/изменить поля одной записи, это не проблема. Но, например, если нужно обработать большой набор данных, данная особенность вылазила боком.
Решение, конечно, есть — получить объекты полей один раз перед циклом. Но сам этот факт вызывал искреннее удивление. В виду того, что в Delphi не было встроенных контейнеров типа хэш и множество, ситуация была не единична.

MuLLtiQ 24 мар 2014 в 12:51

Я думаю что на массивах в несколько десятков и сотен тысяч элементов разница между O(1) и O(n) будет в разы очевиднее.

23derevo 24 мар 2014 в 09:40

люто

andymitrich 24 мар 2014 в 11:04

Стоит сказать, что преимущества поиска по ключам массива довольно очевидны, если знать внутренне устройство ассоциативных массивов в PHP. Вот тут подробно всё и разъяснено.

SovGVD 24 мар 2014 в 12:53

Осмелюсь предположить что через stristr можно аналогично пройтись по тексту, добавив маркер начала/окончания слова. А так же через пересечение масивов array_intersect* (хотя на смотрел как оно в php реализовано в коде, может тупо как в первом варианте перебирает).
PS: для получения уникального массива (когда данные идут по очереди) можно все элементы вставлять в массив как ключи (если это возможно), а потом сделать array_keys — отпадает нужна в in_array. Да и много где такое подход крайне удобно использовать.

andy_p 24 мар 2014 в 21:59

Вообще-то для данной задачи существует алгоритм Ахо-Карасик.

darnley 25 мар 2014 в 07:33

Если речь о словах, а не подстроках, до достаточно даже не алгоритма Ахо-Карасик, а структуры данных «бор».

Зарегистрируйтесь на Хабре, чтобы оставить комментарий