Комментарии / Профиль kuznetsoff87 / Хабр

Андрей Кузнецов@kuznetsoff87

In love with multimodal and generative research

Шорт-листы «Технотекста 2023»: достойные из достойных

kuznetsoff87 16 мая 2024 в 09:54

Очень рад оказаться в шорт листе. Kandinsky 2.1 был действительно крутым событием для команды в 2023 году? Поздравляю всех!

OmniFusion 1.1: мультимодальность теперь и на русском

kuznetsoff87 23 апр 2024 в 18:56

Картинку надо заэнкодить, прогнать через адаптер, собрать эмбеддинг с img_start_emb и img_end_emb, потом на вход модели подать. В test.py есть пример вызова, но положим отдельный скрипт в корне для быстрого запуска модели

OmniFusion 1.1: мультимодальность теперь и на русском

kuznetsoff87 23 апр 2024 в 18:42

Сейчас делаем версию на базе LLM Phi 1.5, которая должна влезать и в бесплатные аккаунты

OmniFusion 1.1: мультимодальность теперь и на русском

kuznetsoff87 15 апр 2024 в 12:34

Имел в виду, что определять все объекты на изображении, понимать их взаимное расположение, количество и тд, делать подробный image captioning. Но здесь пока речь только об одной картинке. Если их будет несколько, то тут нужно специальным образом настроить следующий этап файнтюнинга, чтобы модель научилась понимать не только картинку, а и то, что их может быть несколько и в разной последовательности с текстом (так называемые interleaved данные). Задача максимально полезная для конечного пользователя, поддерживаю полностью идею

OmniFusion 1.1: мультимодальность теперь и на русском

kuznetsoff87 15 апр 2024 в 12:31

Спасибо! Вот как раз сейчас учим модель в режиме grounding объектов, чтобы могла позиционирование выдавать. Будем делиться обновлениями по мере поступления)

OmniFusion 1.1: мультимодальность теперь и на русском

kuznetsoff87 11 апр 2024 в 09:08

Первично учим картинки понимать и уметь оперировать максимально подробно ими. RAG - это бонус

OmniFusion 1.1: мультимодальность теперь и на русском

kuznetsoff87 11 апр 2024 в 08:30

2-3 A100, по 1-2 дня на каждую фазу обучения. Ну и в параллели несколько экспериментов обычно ставится под разные архитектурные особенности.

OmniFusion 1.1: мультимодальность теперь и на русском

kuznetsoff87 11 апр 2024 в 08:28

Понял теперь! Отличный кейс, добавил в лог

OmniFusion 1.1: мультимодальность теперь и на русском

kuznetsoff87 11 апр 2024 в 06:45

Думаю, что это отличная задача для комьюнити:)

OmniFusion 1.1: мультимодальность теперь и на русском

kuznetsoff87 11 апр 2024 в 06:43

OCR опция будет чуть позже, сейчас как раз активно доучиваем в сегменте анализа документов/сканов/графиков и тд

OmniFusion 1.1: мультимодальность теперь и на русском

kuznetsoff87 11 апр 2024 в 06:42

Именно так! Черипики идеальные любой может показать

Kandinsky Video — первая российская модель генерации видео по тексту

kuznetsoff87 29 ноя 2023 в 08:37

Как сейчас? Всё ок? Вероятно обновления были какие-то на платформе или на кластере что-то могло случиться в моменте

Kandinsky Video — первая российская модель генерации видео по тексту

kuznetsoff87 29 ноя 2023 в 08:36

На счёт сервера - смотря какой сервер, если про api, то на fusionbrain.ai модель доступна. Про АМД - надо думать и портировать, пока ресурсов нет на это:(

Kandinsky Video — первая российская модель генерации видео по тексту

kuznetsoff87 29 ноя 2023 в 08:35

Пожалуйста. Ответил в лс, но продублирую тут. Для обучения Kandinsky Video использовалось 8-16 карт, бОльшая часть нагрузки в плане качества падает на картиночную модель Kandinsky 3.0. KV архитектурно учится генерировать движения через специальные темпоральные блоки

Kandinsky Video — первая российская модель генерации видео по тексту

kuznetsoff87 23 ноя 2023 в 08:35

Добавил ссылку на статью на архиве про нашу модель
https://arxiv.org/abs/2311.13073

Kandinsky Video — первая российская модель генерации видео по тексту

kuznetsoff87 22 ноя 2023 в 10:24

На самом деле среди честных end-to-end моделей качество сейчас на мой взгляд очень конкурентное) Но дальше уже есть план как ещё подтянуть. Возможностей относительно, скажем, режима анимации - уйма.

Доступ одобряем последовательно по заявкам

Kandinsky 2.2 — новый шаг в направлении фотореализма

kuznetsoff87 16 июл 2023 в 18:12

Спасибо большое за фидбэк! Отработаем)

Kandinsky 2.2 — новый шаг в направлении фотореализма

kuznetsoff87 16 июл 2023 в 18:09

Да, мы реагируем на все прилетающие запросы) Спасибо за фидбэк)

Kandinsky 2.2 — новый шаг в направлении фотореализма

kuznetsoff87 16 июл 2023 в 18:08

Да, мы оставим обе версии (в тг боте будет выбор - в начале недели запустим)

Kandinsky 2.2 — новый шаг в направлении фотореализма

kuznetsoff87 12 июл 2023 в 13:01