Как стать автором
Обновить

Комментарии 9

А баланс значимости ваш AI может определить?

да, все базовые сигналы, признаки, приемы определяет 😏

Классная статья!

Нашёл небольшое typo:

Как человек, который постоянно в новостей в мире ИИ, наверняка он видел…

спасибо большое, пофиксил

Ну с первым пропмптом всё понятно. Дело в том, что OpenAI, перед тем, как передать картинку в нейросеть, производит её предварительную обработку, в том числе изменение размера. Вы попросите нейросеть добавить в вывод ширину и высоту картинки, а потом нормируйте вывод относительно размеров, и получите достаточно точную сегментацию. В вашем примере я передал в OpenAI картинку 598х941, а нейросеть написала, что её размер 941х1390.

нет, проблема не в нормировке, Я пробовал
проблема именно в том, как GPT бьёт картинку на патчи

рекомендую к прочтению, сегодня вышла
https://www.oranlooney.com/post/gpt-cnn/

Small but pretty hack, спасибо за статью! У тебя получилось в итоге полностью избавиться в пайплайне от OCR и ручных фильтраций, или ты их как-то с gpt-4o сегментатором как-то комбинируешь?

Статья очень интересная! Огромное спасибо!

Как насчет идеи натренировать Swin-T/VIT или любую другую модель SOTA в задачах детекции объектов на изображениях для улучшения разметки вместо использования сетки? Можно было бы создать условный датасет из скриншотов Telegram, где найденные "пузыри" чата будут контрастировать с фоном (преобразовать изображения в приблизительно единый формат: бинаризация или монохром, затем применение алгоритмов автокоррекции контраста и т.д. - т.к. может быть разная цветовая расцветка или даже фон чата с картинкой). Затем необходимо разметить все изображения (при этом в датасет можно добавить изображения, содержащие цитаты или пересылки, и также при разметке указать отдельным прямоугольником). А затем, перед передачей изображения в GPT4o, просто пропускать его через эту модель, получив на ее выходе координаты всех блоков с текстом, которые будут использоваться в промпте. Мне кажется, что такая система будет давать лучшее качество, чем использование сетки

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории