Комментарии / Профиль Valle / Хабр

Валентин Коновалов@Valle

Пользователь

Подписчики

ПрофильСтатьи1ПостыНовостиКомментарии351

GoogleFit API — стартуем и видим результат

Valle 4 мар 2015 в 16:22

Она до гугла была заметно стройнее.

Поиск похожих документов с MinHash + LHS

Valle 2 мар 2015 в 15:59

Сделать-то теоретически можно, но есть два больших но — я скорее специалист по «small data» (мобильным технологиям), и я шабашки давно не беру. В принципе задача особо не сложная — самый простой вариант это просто повторить статью и после выборки похожих документов их отсортировать по похожести. Если документов не слишком много, работать будет.

ГМО — это не только полезно, но еще и вкусно? 5 полезных ГМ-видов животных и растений

Valle 2 мар 2015 в 01:43

Вот даже как, порекомендовали, чтоб количество яда в картошке не превышало определенный уровень, но никто его не проверяет. Получается что ГМО продукты гораздо более безопасны, т.к. их проверяют.

+10

ГМО — это не только полезно, но еще и вкусно? 5 полезных ГМ-видов животных и растений

Valle 1 мар 2015 в 20:49

А вот интересно, все ли «обычные» фрукты-овощи тестируют? Вот, скажем, картошку кто тестировал и к каким выводам пришли? Все ли сорта картошки тестировали?

Браузер Vivaldi хранит пароли в открытом виде

Valle 27 фев 2015 в 23:39

Но вводить мастер пароль все равно нужно, и на этом моменте его может перехватить троян.

Сегодня в США был законодательно закреплён сетевой нейтралитет

Valle 27 фев 2015 в 17:03

Да, блокировки на уровне ISP тоже стали незаконными. Впрочем, их и не было, просто многих достало что Netflix искусственно замедляется.

Поиск похожих документов с MinHash + LHS

Valle 17 фев 2015 в 22:18

Да, MaxHash наверное будет работать точно так же. Кстати, я только сейчас сообразил, что использовать в качестве множества id слов это была плохая идея. Получается, что все большие тексты будут практически равны, т.к. все они используют наиболее часто встречающиеся слова. Нужно было N-граммы в примере использовать, но они выглядят сложнее…

Поиск похожих документов с MinHash + LHS

Valle 17 фев 2015 в 16:03

Спасибо, попробовал написать по-другому. Пытался обойтись без формул, даже тривиальных, что вышло не совсем хорошо.

Поиск похожих документов с MinHash + LHS

Valle 16 фев 2015 в 18:45

Влияние качества хэш функции на результат я сильно не исследовал, так что хорошо ответить наверное не смогу. Я думаю плохие функции увеличивают число false positive попаданий на последнем этапе, но если первая функция хорошая (скажем, murmur/cityhash) то XOR со случайным числом должен дать хороший результат, по крайней мере вот тут так говорят stackoverflow.com/questions/19701052/how-many-hash-functions-are-required-in-a-minhash-algorithm
Если XOR не нравится, там же советуют использовать Universal Hashing вида h(x,a,b) = ((ax+b) mod p) mod m

Да, и в MinHash расстояние между векторами не используется, там главное то, что два минхеша от разных множеств равны с точно такой же вероятностью, насколько похожи множества, а если они не равны, то сравнивать расстояние особого смысла в этом алгоритме нет.

Поиск похожих документов с MinHash + LHS

Valle 16 фев 2015 в 16:00

Да, это довольно просто и работает неплохо. Я аж одно предложение про это написал. Я еще подумал, что еще лучше может работать не набор ID слов, а их пары (вроде 1,2 2,3) чтобы как-то сохранять порядок слов в тексте.

Поиск похожих документов с MinHash + LHS

Valle 16 фев 2015 в 15:55

Это просто рандомизация исходной хэш функции — можно еще много подобных методов придумать, например, если есть хорошая хэш функция типа murmur/sha/что-угодно то к ней для рандомизации можно просто добавлять на вход числа от 0 до N, что даст отличный набор разных хэш функций. К ним, как я понимаю, никаких особых требований, кроме того что они должны быть разными, не предъявляется.

1 2 ...

16 17