Свой tree-фильтр на C++: убрал 20к дублирующихся файлов из вывода одной командой
Свой tree-фильтр на C++: убрал 20к дублирующихся файлов из датасета одной командой
Скачал датасет для нейронки — 50k .png + разметка. tree показал 20 тысяч objects.txt подряд. Экран кончился на 300-й строке.
Написал 40 строк C++ — фильтр с дедупликацией по маске.
До:
text
├── labels/ │ ├── objects.txt <- 20k раз │ ├── labels.txt <- 20k раз
После:
text
├── labels/ │ ├── objects.txt <- только первое │ └── labels.txt <- только первое
Использование:
bash
tree dataset/ | treefilter "*.txt"
Код + бинарник: github.com/aleksejbiriulin/tree_group
Студенческий лайфхак: когда tree тонет в мусоре — пиши свой фильтр. 0.1 сек на GB, ANSI-цвета живы! 🚀













