Комментарии / Профиль stab / Хабр

stab@stab

Пользователь

ПрофильСтатьи8ПостыНовостиКомментарии440

LogLog — находим число уникальных элементов

stab 26 мая 2011 в 12:27

… кстати, m всегда степень двойки.

LogLog — находим число уникальных элементов

stab 26 мая 2011 в 12:25

Реализация из публикации на такое не рассчитана, при m меньше 16, ошибка от 40% и выше. Тут лучше эксепшен выкидывать, но код для поиграться сделан, поэтому тихий фейл.

LogLog — находим число уникальных элементов

stab 26 мая 2011 в 11:46

Я валенок, сейчас поправлю :)

LogLog — находим число уникальных элементов

stab 26 мая 2011 в 11:20

Кстати, там ссылки две, «мэд» и «скилзы», может не заметил :)

LogLog — находим число уникальных элементов

stab 26 мая 2011 в 11:10

селффикс:

Вторые два без коррекций, ведут себя совсем плохо, параметры надо более точно подбирать, чтобы добиться приемлемых результатов, HyperLogLog в этом плане более всеяден и выдаёт меньшую ошибку.

LogLog — находим число уникальных элементов

stab 26 мая 2011 в 11:08

В первой «бумаге» описывается именно HyperLogLog, во второй просто LogLog и SuperLogLog. У них разные стандартные ошибки, т.к. алгоритмы немного разные. Вторые два без коррекций ведут себя совсем плохо, параметры надо более точно подбирать, чтобы добиться приемлемых результатов, SuperLogLog в этом плане более всеяден и выдаёт меньшую ошибку.

По-большому счёту, все три алгоритма заточены на подсчёт большого количества элементов. При небольшом, получается что массив M населён мало, т.е. если m не сильно меньше N, то начинает расти ошибка, а m как раз таки зависит от желаемой точности. В HyperLogLog эта ситуация немного подправляется корректировкой, так же как и перенаселение массива M, в (Super)LogLog оставляется как есть.

Все коэффициенты и поправки взяты из первой публикации про HyperLogLog.

LogLog — находим число уникальных элементов

stab 26 мая 2011 в 10:32

Угу, беда именно с ней — при малом количестве уникальных элементов, она себя так ведёт.

«Aliketo» — ищет похожие вещи, и даже иногда находит, но только на английском

stab 24 мая 2011 в 17:22

Скорее всего «знания» ещё по этому множеству не устаканились, там небольшими инкрементальными порциями апдейты идут при каждом запросе, чтобы не нагружать сервер сильно.

«Aliketo» — ищет похожие вещи, и даже иногда находит, но только на английском

stab 24 мая 2011 в 16:57

Ммм, какая капча? :)

LogLog — находим число уникальных элементов

stab 24 мая 2011 в 10:45

Пожалуйста. Надеюсь, «взлетит» :)

LogLog — находим число уникальных элементов

stab 24 мая 2011 в 09:42

Я от них просто без ума, немного жертвуя точностью можно получить огромный выигрыш в производительности и/или ресурсах. Хотя, для повседневных задач они порой как из пушки по воробьям.

LogLog — находим число уникальных элементов

stab 24 мая 2011 в 08:50

Повезло тебе, сейчас начнётся голосование ;)

3 000 000 $ за лучший алгоритм

stab 23 мая 2011 в 06:20

Ага, уже думаю куда тратить свои миллионы ;)

Порнография с точки зрения эволюционной психологии

stab 7 мая 2011 в 03:06

Пожалуй, что так. В викторианскую эпоху сексуальные отношения даже между мужем и женой были чем-то неловким.

Порнография с точки зрения эволюционной психологии

stab 6 мая 2011 в 11:51

Тут есть разные мнения.

Порнография с точки зрения эволюционной психологии

stab 6 мая 2011 в 11:29

Не, ну есть как бы формальная мораль, а есть раз и два.

Порнография с точки зрения эволюционной психологии

stab 6 мая 2011 в 09:46

На счёт запрета порнографии и в целом всякого разврата по моральным соображениям — где-то читал, что такое пуританство возникло из-за того, что мореплавание открыло границы между ранее изолировочными континентами, в следствии чего в Европу хлынули новые экзотические венерические заболевания. Иммунитета у европейцев к ним не было, поэтому мораль резко изменилась.

Hetzner dedicated или в поисках дешевого хостинга

stab 26 мар 2011 в 14:52

Хм, не знал о таком. Спасибо за просвещение.

Hetzner dedicated или в поисках дешевого хостинга

stab 25 мар 2011 в 17:10

Аналогична, тоже FreeBSD поставил. Когда рейд софтовый настраивал одной буквой в конфиге ошибся, сервер после ребута не поднялся, оперативно дали доступ к KVM через Java-апплет, денег не взяли, хотя услуга вроде платная. Короче, хорошо работают немцы.

Цены низкие, имхо, из-за того, что железо недорогое, setup fee где-то половина-треть от его стоимости. Чтобы окупить железо и начать приносить им прибыль, тебе надо за это железо платить всего 4-6 месяцев. Если сбежишь раньше — не беда, следующий обладатель железа опять заплатит setup fee, что на самом деле им ещё выгодней. Ну это моё имхо.

Hetzner dedicated или в поисках дешевого хостинга

stab 25 мар 2011 в 15:48

Везучий, каналья! :)

1 2 3

5 6 ...

21 22