Обновить
5
Nastassia Yankova@dumonten

Пользователь

1
Подписчики
Отправить сообщение

Внутри crewAI мы API не использовали, там чистые агенты, которые предоставляет этот фреймворк. А вот сам Mistral AI API не заработал

Статья очень интересная! Огромное спасибо!

Как насчет идеи натренировать Swin-T/VIT или любую другую модель SOTA в задачах детекции объектов на изображениях для улучшения разметки вместо использования сетки? Можно было бы создать условный датасет из скриншотов Telegram, где найденные "пузыри" чата будут контрастировать с фоном (преобразовать изображения в приблизительно единый формат: бинаризация или монохром, затем применение алгоритмов автокоррекции контраста и т.д. - т.к. может быть разная цветовая расцветка или даже фон чата с картинкой). Затем необходимо разметить все изображения (при этом в датасет можно добавить изображения, содержащие цитаты или пересылки, и также при разметке указать отдельным прямоугольником). А затем, перед передачей изображения в GPT4o, просто пропускать его через эту модель, получив на ее выходе координаты всех блоков с текстом, которые будут использоваться в промпте. Мне кажется, что такая система будет давать лучшее качество, чем использование сетки

Информация

В рейтинге
Не участвует
Откуда
Беларусь
Зарегистрирована
Активность