Обновить
7
0
Oleksandr Piekhota@aslikeyou

Пользователь

Отправить сообщение
Можете более детально обьяснить, как расчитывать степень похожести 2-х документов после вычисления матрицы U, V, W?
Спасибо, разобрался с NCD.

Один на github, а второй на одном сайте по c# .

Если вкратце есть формула NCD(x,y) = C(xy) — min{C(x), C(y)} / max{C(x), C(y)}, где С возвращает длинну текста (строк, изображений и тд) после обработки алгоритмом архивации(например: «gzip», «bzip2», «PPMZ»). Причем xy — это два текста склеиных в одну переменную. Например xy = x + ' ' + y.

Выложил свой пример на github. Только не могу понять, почему для двух строк 'hello world' выводит резульат 0.09.
За «Normalized compression distance» спасибо. В любом случае интересно сравнить ресурсоемкость/качество работы алгоритма. А какие aNN методы вы использовали в паре с bloom filter?

Информация

В рейтинге
Не участвует
Откуда
Киев, Киевская обл., Украина
Дата рождения
Зарегистрирован
Активность

Специализация

Десктоп разработчик, DevOps-инженер
Ведущий
Git
Python
PostgreSQL
Docker
SQL
ООП
MySQL
Базы данных
PHP
Golang