Razant Nov 22 2023 at 11:30

OmniFusion: выходим за границы текста

Hard

5 min

6.6K

AIRI corporate blogAlgorithms*Interfaces*Machine learning*Artificial Intelligence

Case

+13

Comments 5

artmaro Nov 22 2023 at 19:45

Круто, надеюсь проект дальше продолжит развиваться и мы получим некий GPT-4V для GigaChat ?. Расскажите, а как будет работать защита от prompt injection в таких моделях? Такого плана, например, https://www.lakera.ai/blog/visual-prompt-injections

Обратил внимание, что через месяц после релиза GPT-4V стала более устойчива к таким запросам и корректно распознает инъекции и описывает.

Razant Nov 23 2023 at 08:12

Спасибо! Такие атаки действительно довольно сложно победить, но можно двигаться с нескольких сторон: использование дополнительных моделей детекторов, дообучение на сложных примерах и alignment, предотвращающий потенциально опасные ответы модели.

artmaro Nov 23 2023 at 08:56

Вы написали, что у вас в планах расширить модели на звук, 3D и видео. А почему работу с документами не приоритезируете? Кажется, что это наиболее востребованная функция с точки зрения пользователя.

SamoedR Nov 23 2023 at 19:56

Это больше вопрос сервиса вокруг модели, чем про саму модель. Так как, то что работает с документами просто текст вытаскивает из файлов и помещает в модель

lenant Nov 26 2023 at 13:54

Спасибо за статью!
Как я понял, на втором шаге обучения использовались только датасеты с изображениями, без использования изначальных текстовых датасетов. Пара вопросов:
1. Не снижается ли от этого результаты работы модели на обычных текстовых бенчмарках, не начинает ли она забывать то, что выучила раньше?
2. И еще вопрос, размораживаете ли вы всю сеть разом или как-то по слоям?