Как стать автором
Обновить
43
0
Андрей Кузнецов @kuznetsoff87

In love with multimodal and generative research

Отправить сообщение

Очень рад оказаться в шорт листе. Kandinsky 2.1 был действительно крутым событием для команды в 2023 году? Поздравляю всех!

Картинку надо заэнкодить, прогнать через адаптер, собрать эмбеддинг с img_start_emb и img_end_emb, потом на вход модели подать. В test.py есть пример вызова, но положим отдельный скрипт в корне для быстрого запуска модели

Сейчас делаем версию на базе LLM Phi 1.5, которая должна влезать и в бесплатные аккаунты

Имел в виду, что определять все объекты на изображении, понимать их взаимное расположение, количество и тд, делать подробный image captioning. Но здесь пока речь только об одной картинке. Если их будет несколько, то тут нужно специальным образом настроить следующий этап файнтюнинга, чтобы модель научилась понимать не только картинку, а и то, что их может быть несколько и в разной последовательности с текстом (так называемые interleaved данные). Задача максимально полезная для конечного пользователя, поддерживаю полностью идею

Спасибо! Вот как раз сейчас учим модель в режиме grounding объектов, чтобы могла позиционирование выдавать. Будем делиться обновлениями по мере поступления)

Первично учим картинки понимать и уметь оперировать максимально подробно ими. RAG - это бонус

2-3 A100, по 1-2 дня на каждую фазу обучения. Ну и в параллели несколько экспериментов обычно ставится под разные архитектурные особенности.

Понял теперь! Отличный кейс, добавил в лог

Думаю, что это отличная задача для комьюнити:)

OCR опция будет чуть позже, сейчас как раз активно доучиваем в сегменте анализа документов/сканов/графиков и тд

Именно так! Черипики идеальные любой может показать

Как сейчас? Всё ок? Вероятно обновления были какие-то на платформе или на кластере что-то могло случиться в моменте

На счёт сервера - смотря какой сервер, если про api, то на fusionbrain.ai модель доступна. Про АМД - надо думать и портировать, пока ресурсов нет на это:(

Пожалуйста. Ответил в лс, но продублирую тут. Для обучения Kandinsky Video использовалось 8-16 карт, бОльшая часть нагрузки в плане качества падает на картиночную модель Kandinsky 3.0. KV архитектурно учится генерировать движения через специальные темпоральные блоки

Добавил ссылку на статью на архиве про нашу модель
https://arxiv.org/abs/2311.13073

На самом деле среди честных end-to-end моделей качество сейчас на мой взгляд очень конкурентное) Но дальше уже есть план как ещё подтянуть. Возможностей относительно, скажем, режима анимации - уйма.

Доступ одобряем последовательно по заявкам

Спасибо большое за фидбэк! Отработаем)

Да, мы реагируем на все прилетающие запросы) Спасибо за фидбэк)

Да, мы оставим обе версии (в тг боте будет выбор - в начале недели запустим)

Спасибо! Мы рады)

Информация

В рейтинге
Не участвует
Откуда
Самара, Самарская обл., Россия
Работает в
Дата рождения
Зарегистрирован
Активность

Специализация

Data Scientist, ML Engineer
Lead
Project management
Research work
Computer vision
Machine learning
Natural language processing
Pytorch
Deep Learning
Neural networks
Computer Science