На самом деле поисковики используют сравнение текстов для рассчета релевантности, индекса и поиска первоисточника. Так что Гугл или Яндекс могли бы запросто предоставлять такую возможность.
Даже тематической близости ненужно. Статьи идентичные даже по заголовку. Бывают случаи, что переписывают новость, но там мравниваеться много факторов. И близость текстов и разница во времени.
Стартап: агрегатор новостей с объединением однотемных новостей