Comments 8
Я мб пропустил: а датасет вы не стали публиковать?
Классная статья получилась, читал с удовольствием! Спасибо автору за работу.
Ждём датасет симпсонов и футурамы!
В MPV может и веселее было, но быстрее было ffmpeg запустить с ключиком, чтобы, например, каждый 30-й кадр сохранило. А потом выбрать понравившиеся. :) 150 - вполне норм, чтоб руками.
А я для Wan 2.1 LoRa ролики "разбирал" на кадры. И вот когда их тысячи, тут уже руками не вариант. Как минимум смазанные кажды (там где излишнее было движение) кое-как можно проредить программно (cv2 Laplacian). Я так итеративно прогонял, контролируя процент отсева.
Дальше еще можно отсеять слишком похожие кадры. Я себе представлял как бы такую кластеризацию. Но LLM-ка предложила перцептивный хэш для сравнения соседних кадров. Интересный вариант, но не дошли руки протестировать, так как устроило и без этого. Но хочется вернуться к этому вопросу позже. Ведь для лор хорошо бы отбирать максимально отличающиеся кадры.
Сделать кадры через каждые х секунд, было первой идеей, но я отказался от неё, потому что на просмотр и поиск удачных кадров уйдет слишком много времени. Потому решил, что проще мне самому отбирать на входе, чем чистить на выходе =)
Как я обучал LoRA на стиле South Park для Flux: сбор кадров через MPV, особенности FluxGym и эксперименты с рангами