Да, наверное бы работало хорошо, на соседних кадрах видео обычно много похожих элементов. Проблема в производительности: получается мы увеличиваем количество пикселов в m раз, где m — сколько кадров за раз мы берём.
Постойте, но ведь дескрипторы обычно имеют достаточно большую размерность. Сравните: 128 элементов стандартного SIFT дескриптора и 27, 75 или 147 элементов квадратного окна для Non-Local Means (3 на 3, 5 на 5 и 7 на 7 соответственно, и предполагаем, что изображение цветное). При этом окно 7 на 7 потребуется только для удаления очень существенного шума. А дескрипторы надо ещё посчитать.
Собственно в той работе, на которую вы ссылаетесь, не предлагается просматривать все пиксели изображения для нахождения похожих окон. Вместо этого используется окрестность от 21 на 21 до 35 на 35 пикселей.
К слову этот же подход используется в более свежей работе: M. Lebrun, A. Buades, and J. M. Morel. A nonlocal bayesian image denoising algorithm. SIAM Journal on Imaging Sciences, 6(3):1665-1688, 2013. Для которой тоже есть чудное демо: demo.ipol.im/demo/16
Нелокальный алгоритм для сглаживания изображений