Мультимодальный RAG может повысить эффективность использования ИИ для бизнеса / Хабр

По мере того как компании начинают экспериментировать с мультимодальной генерацией, дополненной поисковыми данными (RAG), поставщики мультимодальных встраиваний — метода преобразования данных в файлы, читаемые RAG, — советуют предприятиям начинать с малого, осваивая внедрение изображений и видео.

Дисклеймер : это вольный перевод статьи издания Venture Beat. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.
Обсудить пилот или задать вопрос об LLM можно здесь.

Мультимодальный RAG, который может обрабатывать различные типы файлов — от текста до изображений и видео, — опирается на модели встраивания, которые преобразуют данные в числовые представления, читаемые ИИ-моделями. Встраивания, способные обрабатывать все виды файлов, позволяют компаниям находить информацию из финансовых графиков, каталогов продукции или любых информационных видеоматериалов, предоставляя более целостное представление о деятельности предприятия.

Cohere, обновившая свою модель Embed 3 для обработки изображений и видео в прошлом месяце, заявила, что предприятиям необходимо подготовить свои данные соответствующим образом, обеспечить надлежащее качество работы встраиваний и эффективнее использовать мультимодальный RAG.

«Прежде чем вкладывать значительные ресурсы в мультимодальные встраивания, стоит протестировать их в ограниченном масштабе. Это позволит вам оценить производительность модели и ее пригодность для конкретных задач, а также выявить возможные корректировки перед полноценным внедрением», — написал архитектор решений Cohere Янн Стоунман в своем блоге.

Компания отметила, что многие из описанных процессов характерны для большинства других мультимодальных моделей встраивания.

Стоунман подчеркнул, что в зависимости от отрасли модели могут нуждаться в «дополнительном обучении для улавливания тонких деталей и вариаций на изображениях». В качестве примера он привел медицинские приложения, где радиологические снимки или фотографии микроскопических клеток требуют специализированной системы встраивания, способной понимать нюансы подобных изображений.

Подготовка данных — ключевой этап

Прежде чем вводить изображения в мультимодальную систему RAG, их необходимо предварительно обработать, чтобы модель встраивания могла их правильно считать.

Изображения могут нуждаться в изменении размера для достижения единообразия, а организациям необходимо решить, стоит ли улучшать качество низкокачественных фото, чтобы не терялись важные детали, или, наоборот, понижать разрешение слишком качественных снимков, чтобы не перегружать систему обработкой.

«Система должна уметь обрабатывать указатели изображений (например, URL-адреса или пути к файлам) наряду с текстовыми данными, что может быть невозможно при использовании текстовых встраиваний. Чтобы создать удобный пользовательский интерфейс, организациям, возможно, придется разработать пользовательский код для интеграции поиска изображений с существующими системами текстового поиска», — говорится в блоге.

Мультимодальные встраивания становятся все более полезными

Многие системы RAG в основном работают с текстовыми данными, поскольку текстовые встраивания проще использовать, чем изображения или видео. Однако, поскольку у большинства предприятий есть данные различных типов, RAG, способный искать как изображения, так и тексты, становится все более востребованным. Ранее организациям приходилось внедрять отдельные системы и базы данных для разных типов данных, что не позволяло осуществлять смешанные поисковые запросы.

Мультимодальный поиск не является чем-то новым: OpenAI и Google уже предлагают подобные решения в своих чат-ботах. OpenAI запустила последнее поколение моделей встраиваний в январе. Другие компании также предлагают решения для интеграции данных различных типов в мультимодальные RAG. Например, Uniphore представила инструмент, помогающий предприятиям подготавливать мультимодальные наборы данных для RAG.