Если честно, немного удивительно, что Вы используете модель мешка слов, ведь она не учитывает порядок слов.

На самом деле, реализация алгоритма шинглов использует тот же коэффициент Жаккара. Только в данном случае, вместо слов, оперируют шинглами (на практике — хэшами шинглов, но это уже детали...).

Попросту говоря, шинглы — это кортежи из нескольких слов, построенные следующим образом (рисунок схематический):

Чисто иллюстративный пример:

слон ест красное яблоко
яблоко ест красного слона

(у некоторых слов разные окончания, но будем считать, что в качестве предварительной обработки мы используем лемматизатор).

Если использовать модель мешка слов, то получится, что эти два предложения дубликаты, поскольку содержат идентичные наборы слов.

Что на это скажет алгоритм шинглов:

Если использовать в качестве шинглов — кортежы слов, взятых через одно, получим:

слон ест красное яблоко -> A = {слон, красный} и {ест, яблоко}
яблоко ест красного слона -> B = {яблоко, красный} и {ест, слон}

Множества А и В не содержат одинаковых кортежей. Поэтому, пересечение A и B, даст пустое множество. Таким образом, можно заключить что данные тексты не дубликаты.

Ещё раз обращаю внимание — пример чисто иллюстративный, но, надеюсь, что общую концепцию мне удалось проиллюстрировать :-)

P.S. На самом деле, именно характер данных, их объём и другие особенности предметной области диктуют алгоритм обработки. Так что, если в Вашем случае описанный алгоритм работает хорошо, то, действительно, не стоит усложнять систему.

В данном комментарии, я просто хотел показать, что в общем случае Алгоритм шинглов более эффективный для идентификации дубликатов.