Комментарии / Профиль aslikeyou / Хабр

Oleksandr Piekhota@aslikeyou

Пользователь

ПрофильСтатьи1ПостыНовостиКомментарии3

Реализация алгоритма шинглов на Node.JS. Поиск нечетких дубликатов для английских текстов

aslikeyou 24 янв 2014 в 14:22

Можете более детально обьяснить, как расчитывать степень похожести 2-х документов после вычисления матрицы U, V, W?

Реализация алгоритма шинглов на Node.JS. Поиск нечетких дубликатов для английских текстов

aslikeyou 22 янв 2014 в 14:10

Спасибо, разобрался с NCD.

Один на github, а второй на одном сайте по c# .

Если вкратце есть формула NCD(x,y) = C(xy) — min{C(x), C(y)} / max{C(x), C(y)}, где С возвращает длинну текста (строк, изображений и тд) после обработки алгоритмом архивации(например: «gzip», «bzip2», «PPMZ»). Причем xy — это два текста склеиных в одну переменную. Например xy = x + ' ' + y.

Выложил свой пример на github. Только не могу понять, почему для двух строк 'hello world' выводит резульат 0.09.

Реализация алгоритма шинглов на Node.JS. Поиск нечетких дубликатов для английских текстов

aslikeyou 21 янв 2014 в 18:04

За «Normalized compression distance» спасибо. В любом случае интересно сравнить ресурсоемкость/качество работы алгоритма. А какие aNN методы вы использовали в паре с bloom filter?

Информация

Специализация