Comments 7
Главный вопрос: а в чём конкретно революция? Люди могут вместо большой дискретной GPU использовать для генерации телефон? Если статья вышла в 2024, а сейчас 2025, то, значит, есть прототип, на который можно посмотреть? А если его до сих пор нет, то почему? Почему про революционную нейронку никто ничего не слышал?
То, что пишут сами авторы: "Potential impact. We believe that our novel theoretical results have a huge potential for improving modern flow matching-based methods and inspiring the community for further studies..." пока на революцию не тянет.
У меня нет претензий к работе учёных, но пафосное название на Хабре (в оригинале про революцию тоже не нашёл) вызывает вопросы.
И, если уж у вас говорится про ускорение генерации, хотелось бы бенчмарк. Зачем вообще нужен ваш текст, если для понимания написанного надо прочитать оригинал? Без обид, но качество этого пересказа оставляет желать лучшего, я не поставил вам минус только из уважения к оригинальной статье.
А можете пояснить по рисунку 2?
В-нулевых, хочется, чтобы расшифровали подписи. Что означают все эти OT-CFM, RF и т.д.? Что из этого используют известные генеративные нейросети (Midjourney, Кандинский, etc)?
Во-первых, там, если я правильно понял, должно быть наоборот, преобразование фотографий взрослых в детей. UPD: заглянул в оригинал, так оно и есть, у вас ошибка.
Во-вторых почему преобразование "плавное"? По рисунку кажется, что оно никакое не плавное. И в подписи к рисунку в оригинальной статье тоже про плавность я не нашёл (поправьте меня
А в-третьих, а чем "на пальцах" метод отличается от c-RF? По рисунку кажется, что результаты строчек "OURS" от него не отличаются.
В статье есть ссылка на гитхаб https://github.com/Jhomanik/Optimal-Flow-Matching , там есть и исходный код, и бенчмарк.
В крупные известные модели вроде пока не имплементировали. Про метод подробнее тут
https://www.themoonlight.io/en/review/optimal-flow-matching-learning-straight-trajectories-in-just-one-step
https://openreview.net/forum?id=kqmucDKVcU&referrer=[the profile of Alexander Korotin](%2Fprofile%3Fid%3D~Alexander_Korotin2)
https://liner.com/review/optimal-flow-matching-learning-straight-trajectories-in-just-one-step
https://arxiv.org/html/2403.13117v2
https://proceedings.neurips.cc/paper_files/paper/2024/file/bc8f76d9caadd48f77025b1c889d2e2d-Paper-Conference.pdf
https://www.youtube.com/watch?v=7NNxK3CqaDk
Это всё очень близкие методы: c-RF постепенно выпрямляет траектории, а OT-CFM и OFM строят прямые линии с самого начала.
На данный момент ни одна из самых известных генеративных нейросетей (Midjourney, Stable Diffusion, DALL-E 3, Кандинский) не использует Optimal Flow Matching (OFM), OT-CFM или Rectified Flows (RF) в качестве своей основной, базовой архитектуры.
Все они построены на другом, хотя и идейно связанном, принципе — диффузионных моделях (Diffusion Models), а точнее, на их более эффективной версии, латентных диффузионных моделях (Latent Diffusion Models, LDM).
По сути, OFM, OT-CFM и RF — это технологии следующего поколения, которые обещают радикально ускорить генерацию, сохранив высокое качество.
В смысле? Те же старые Stable Diffusion 3 и Flux используют как раз Flow Matching.
Да, я ошибся, посмотрел устаревшую информацию. Эти две используют Flow Matching, опираясь на описанное еще в статье 2022-го года https://arxiv.org/abs/2209.03003 . Это обычный RF, без более поздних улучшений, которые были предложены в различных академических статьях. Но многие другие еще не используют.
Еще тут https://huggingface.co/docs/diffusers/index есть реализации и пайплайны.
Революция в генерации изображений открывает новые подходы к созданию реалистичных картинок с помощью нейронных сетей