All streams
Search
Write a publication
Pull to refresh

Comments 7

Главный вопрос: а в чём конкретно революция? Люди могут вместо большой дискретной GPU использовать для генерации телефон? Если статья вышла в 2024, а сейчас 2025, то, значит, есть прототип, на который можно посмотреть? А если его до сих пор нет, то почему? Почему про революционную нейронку никто ничего не слышал?

То, что пишут сами авторы: "Potential impact. We believe that our novel theoretical results have a huge potential for improving modern flow matching-based methods and inspiring the community for further studies..." пока на революцию не тянет.

У меня нет претензий к работе учёных, но пафосное название на Хабре (в оригинале про революцию тоже не нашёл) вызывает вопросы.

И, если уж у вас говорится про ускорение генерации, хотелось бы бенчмарк. Зачем вообще нужен ваш текст, если для понимания написанного надо прочитать оригинал? Без обид, но качество этого пересказа оставляет желать лучшего, я не поставил вам минус только из уважения к оригинальной статье.

А можете пояснить по рисунку 2?

В-нулевых, хочется, чтобы расшифровали подписи. Что означают все эти OT-CFM, RF и т.д.? Что из этого используют известные генеративные нейросети (Midjourney, Кандинский, etc)?

Во-первых, там, если я правильно понял, должно быть наоборот, преобразование фотографий взрослых в детей. UPD: заглянул в оригинал, так оно и есть, у вас ошибка.

Во-вторых почему преобразование "плавное"? По рисунку кажется, что оно никакое не плавное. И в подписи к рисунку в оригинальной статье тоже про плавность я не нашёл (поправьте меня

А в-третьих, а чем "на пальцах" метод отличается от c-RF? По рисунку кажется, что результаты строчек "OURS" от него не отличаются.

Это всё очень близкие методы: c-RF постепенно выпрямляет траектории, а  OT-CFM и OFM строят прямые линии с самого начала.

На данный момент ни одна из самых известных генеративных нейросетей (Midjourney, Stable Diffusion, DALL-E 3, Кандинский) не использует Optimal Flow Matching (OFM), OT-CFM или Rectified Flows (RF) в качестве своей основной, базовой архитектуры.

Все они построены на другом, хотя и идейно связанном, принципе — диффузионных моделях (Diffusion Models), а точнее, на их более эффективной версии, латентных диффузионных моделях (Latent Diffusion Models, LDM).

По сути, OFM, OT-CFM и RF — это технологии следующего поколения, которые обещают радикально ускорить генерацию, сохранив высокое качество.

В смысле? Те же старые Stable Diffusion 3 и Flux используют как раз Flow Matching.

Да, я ошибся, посмотрел устаревшую информацию. Эти две используют Flow Matching, опираясь на описанное еще в статье 2022-го года https://arxiv.org/abs/2209.03003 . Это обычный RF, без более поздних улучшений, которые были предложены в различных академических статьях. Но многие другие еще не используют.

Еще тут https://huggingface.co/docs/diffusers/index есть реализации и пайплайны.

Sign up to leave a comment.

Articles