use_magic Apr 14 2023 at 14:36Bag of tricks для разметки текстовых данных: Часть 2. Удаление дубликатовLevel of difficultyMediumReading time9 minViews3.8KMWS AI corporate blogMachine learning * Natural Language Processing * Big Data * Artificial IntelligenceTutorialTotal votes 3: ↑3 and ↓0+3Add to bookmarks27Comments1
nikolay_karelin May 15 2023 at 13:45Спасибо за обзор!Хотел добавить, что в некоторых случаях фильтрация "по смыслу" будет как раз лучше: вот например Pinecone демонстрируют: https://docs.pinecone.io/docs/document-deduplication
Bag of tricks для разметки текстовых данных: Часть 2. Удаление дубликатов