Как стать автором
Обновить

Поиск нечетких дубликатов. Алгоритм шинглов для веб-документов

Алгоритмы *
Ранее я показал элементарную реализацию алгоритма шинглов, позволяющую определять, являются ли два документа почти дубликатами или нет. В этот раз я поясню реализацию алгоритма, описанную Зеленковым  Ю. Г. и Сегаловичем И.В. в публикации «Сравнительный анализ методов определения нечетких дубликатов для Web-документов».
Этим я начинаю серию из трех теоретических статей, в которых постараюсь доступным языком описать принцип алгоритмов шинглов, супершинглов и мегашинглов для сравнение веб-документов.
Читать дальше →
Всего голосов 55: ↑53 и ↓2 +51
Просмотры 40K
Комментарии 103

Реализация алгоритма шинглов на Node.JS. Поиск нечетких дубликатов для английских текстов

Разработка веб-сайтов *Алгоритмы *Node.JS *
Из песочницы
При работе с информацией часто возникают задачи парсинга веб-страниц. Одной из проблем в этом деле является определение похожих страниц. Хороший пример такого алгоритма — «Алгоритм шинглов для веб-документов».

Часть проекта по парсингу реализована на Node.JS, поэтому и алгоритм нужно было реализовать на нем. Реализаций на javascript или npm-пакетов я не нашел — пришлось писать свою.
Читать дальше →
Всего голосов 20: ↑16 и ↓4 +12
Просмотры 10K
Комментарии 8