Обновить
2
Валентин Коновалов@Valle

Пользователь

4
Подписчики
Отправить сообщение
Она до гугла была заметно стройнее.
Сделать-то теоретически можно, но есть два больших но — я скорее специалист по «small data» (мобильным технологиям), и я шабашки давно не беру. В принципе задача особо не сложная — самый простой вариант это просто повторить статью и после выборки похожих документов их отсортировать по похожести. Если документов не слишком много, работать будет.
Вот даже как, порекомендовали, чтоб количество яда в картошке не превышало определенный уровень, но никто его не проверяет. Получается что ГМО продукты гораздо более безопасны, т.к. их проверяют.
А вот интересно, все ли «обычные» фрукты-овощи тестируют? Вот, скажем, картошку кто тестировал и к каким выводам пришли? Все ли сорта картошки тестировали?
Но вводить мастер пароль все равно нужно, и на этом моменте его может перехватить троян.
Да, блокировки на уровне ISP тоже стали незаконными. Впрочем, их и не было, просто многих достало что Netflix искусственно замедляется.
Да, MaxHash наверное будет работать точно так же. Кстати, я только сейчас сообразил, что использовать в качестве множества id слов это была плохая идея. Получается, что все большие тексты будут практически равны, т.к. все они используют наиболее часто встречающиеся слова. Нужно было N-граммы в примере использовать, но они выглядят сложнее…
Спасибо, попробовал написать по-другому. Пытался обойтись без формул, даже тривиальных, что вышло не совсем хорошо.
Влияние качества хэш функции на результат я сильно не исследовал, так что хорошо ответить наверное не смогу. Я думаю плохие функции увеличивают число false positive попаданий на последнем этапе, но если первая функция хорошая (скажем, murmur/cityhash) то XOR со случайным числом должен дать хороший результат, по крайней мере вот тут так говорят stackoverflow.com/questions/19701052/how-many-hash-functions-are-required-in-a-minhash-algorithm
Если XOR не нравится, там же советуют использовать Universal Hashing вида h(x,a,b) = ((ax+b) mod p) mod m

Да, и в MinHash расстояние между векторами не используется, там главное то, что два минхеша от разных множеств равны с точно такой же вероятностью, насколько похожи множества, а если они не равны, то сравнивать расстояние особого смысла в этом алгоритме нет.
Да, это довольно просто и работает неплохо. Я аж одно предложение про это написал. Я еще подумал, что еще лучше может работать не набор ID слов, а их пары (вроде 1,2 2,3) чтобы как-то сохранять порядок слов в тексте.
Это просто рандомизация исходной хэш функции — можно еще много подобных методов придумать, например, если есть хорошая хэш функция типа murmur/sha/что-угодно то к ней для рандомизации можно просто добавлять на вход числа от 0 до N, что даст отличный набор разных хэш функций. К ним, как я понимаю, никаких особых требований, кроме того что они должны быть разными, не предъявляется.
12 ...
18

Информация

В рейтинге
Не участвует
Откуда
Sunnyvale, California, США
Зарегистрирован
Активность