User
Конкурс по классификации слов от Hola или «где взять ещё один процент?»

Ну не знаю. Тут как бы очевидный контр тест сразу напрашивается. Стоило бы наверное об этом сказать, получается заточка под конкретную особенность тестового генератора и это не очевидно сходу. Много ведь эвристик общего типа, которые работают для любого тестового набора.
0
LookКонкурс по классификации слов от Hola или «где взять ещё один процент?»

Стоит чуток изменить генератор и будет только хуже от этой эвристики. Она работает БЕЗ блума, если словарь сжать без потерь. С блумом не работает, только кривой тест спасает дело.
-1
LookКонкурс по классификации слов от Hola или «где взять ещё один процент?»

Берём тест с 50% правильных и 50% неправильных слов. Соответственно false positive влияет только на половину, 50*0.7 и 50*0.63, т.е. получаем 65% и 68.5% правильных ответов. http://hur.st/bloomfilter?n=630000&p=0.7 И http://hur.st/bloomfilter?n=490000&p=0.63
0
LookКонкурс по классификации слов от Hola или «где взять ещё один процент?»

Всё равно не понимаю. Оптимизируя 's можно выиграть ~140000 слов. Это теоретически улучшает фильтр на 0.07, т.е. 15% против 18.5%, итого 3.5% улучшения. НО остается ~490000 слов для которых НЕТ формы с 's, если взять их малую часть и тупо дописать 's то будет не выигрыш, а серьёзный проигрыш от такой оптимизации.
0
LookКонкурс по классификации слов от Hola или «где взять ещё один процент?»

Я не понимаю оптимизацию с суффиксами. Если например отрезать все 's или заменить, то елементарный тест с приписыванием 's ко всем правильным словам даст гору неправильных true. Или это просто подстройка под конкретный генератор, где 's встречается довольно редко?
0
LookHere
12345
6There
Information
- Rating
- Does not participate
- Registered
- Activity