Комментарии 1
Спасибо за обзор!
Хотел добавить, что в некоторых случаях фильтрация "по смыслу" будет как раз лучше: вот например Pinecone демонстрируют: https://docs.pinecone.io/docs/document-deduplication
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Bag of tricks для разметки текстовых данных: Часть 2. Удаление дубликатов