Comments / Profile of slavap / Habr

User

Конкурс по классификации слов от Hola или «где взять ещё один процент?»

slavap Jun 1 2016 at 18:28

Ну не знаю. Тут как бы очевидный контр тест сразу напрашивается. Стоило бы наверное об этом сказать, получается заточка под конкретную особенность тестового генератора и это не очевидно сходу. Много ведь эвристик общего типа, которые работают для любого тестового набора.

Look

Конкурс по классификации слов от Hola или «где взять ещё один процент?»

slavap Jun 1 2016 at 10:49

Стоит чуток изменить генератор и будет только хуже от этой эвристики. Она работает БЕЗ блума, если словарь сжать без потерь. С блумом не работает, только кривой тест спасает дело.

-1

Look

Конкурс по классификации слов от Hola или «где взять ещё один процент?»

slavap Jun 1 2016 at 10:05

Берём тест с 50% правильных и 50% неправильных слов. Соответственно false positive влияет только на половину, 50*0.7 и 50*0.63, т.е. получаем 65% и 68.5% правильных ответов. http://hur.st/bloomfilter?n=630000&p=0.7 И http://hur.st/bloomfilter?n=490000&p=0.63

Look

Конкурс по классификации слов от Hola или «где взять ещё один процент?»

slavap Jun 1 2016 at 08:48

Всё равно не понимаю. Оптимизируя 's можно выиграть ~140000 слов. Это теоретически улучшает фильтр на 0.07, т.е. 15% против 18.5%, итого 3.5% улучшения. НО остается ~490000 слов для которых НЕТ формы с 's, если взять их малую часть и тупо дописать 's то будет не выигрыш, а серьёзный проигрыш от такой оптимизации.

Look

Конкурс по классификации слов от Hola или «где взять ещё один процент?»

slavap Jun 1 2016 at 05:43

Я не понимаю оптимизацию с суффиксами. Если например отрезать все 's или заменить, то елементарный тест с приписыванием 's ко всем правильным словам даст гору неправильных true. Или это просто подстройка под конкретный генератор, где 's встречается довольно редко?

Look

1 2 3 4 5