All streams
Search
Write a publication
Pull to refresh
4
0
Send message
Ну не знаю. Тут как бы очевидный контр тест сразу напрашивается. Стоило бы наверное об этом сказать, получается заточка под конкретную особенность тестового генератора и это не очевидно сходу. Много ведь эвристик общего типа, которые работают для любого тестового набора.
Стоит чуток изменить генератор и будет только хуже от этой эвристики. Она работает БЕЗ блума, если словарь сжать без потерь. С блумом не работает, только кривой тест спасает дело.
Берём тест с 50% правильных и 50% неправильных слов. Соответственно false positive влияет только на половину, 50*0.7 и 50*0.63, т.е. получаем 65% и 68.5% правильных ответов. http://hur.st/bloomfilter?n=630000&p=0.7 И http://hur.st/bloomfilter?n=490000&p=0.63
Всё равно не понимаю. Оптимизируя 's можно выиграть ~140000 слов. Это теоретически улучшает фильтр на 0.07, т.е. 15% против 18.5%, итого 3.5% улучшения. НО остается ~490000 слов для которых НЕТ формы с 's, если взять их малую часть и тупо дописать 's то будет не выигрыш, а серьёзный проигрыш от такой оптимизации.
Я не понимаю оптимизацию с суффиксами. Если например отрезать все 's или заменить, то елементарный тест с приписыванием 's ко всем правильным словам даст гору неправильных true. Или это просто подстройка под конкретный генератор, где 's встречается довольно редко?

Information

Rating
Does not participate
Registered
Activity