Pull to refresh
  • by relevance
  • by date
  • by rating

Поиск нечетких дубликатов. Алгоритм шинглов для веб-документов

Algorithms *
Ранее я показал элементарную реализацию алгоритма шинглов, позволяющую определять, являются ли два документа почти дубликатами или нет. В этот раз я поясню реализацию алгоритма, описанную Зеленковым  Ю. Г. и Сегаловичем И.В. в публикации «Сравнительный анализ методов определения нечетких дубликатов для Web-документов».
Этим я начинаю серию из трех теоретических статей, в которых постараюсь доступным языком описать принцип алгоритмов шинглов, супершинглов и мегашинглов для сравнение веб-документов.
Читать дальше →
Total votes 55: ↑53 and ↓2 +51
Views 39K
Comments 103

Реализация алгоритма шинглов на Node.JS. Поиск нечетких дубликатов для английских текстов

Website development *Algorithms *Node.JS *
Sandbox
При работе с информацией часто возникают задачи парсинга веб-страниц. Одной из проблем в этом деле является определение похожих страниц. Хороший пример такого алгоритма — «Алгоритм шинглов для веб-документов».

Часть проекта по парсингу реализована на Node.JS, поэтому и алгоритм нужно было реализовать на нем. Реализаций на javascript или npm-пакетов я не нашел — пришлось писать свою.
Читать дальше →
Total votes 20: ↑16 and ↓4 +12
Views 9.8K
Comments 8