Pride0910 июн в 04:19

Как построить умный реестр документов с бесплатным OCR и обходом лимитов API AI

Средний

6 мин

8.3K

Google API * Google App Engine *

Кейс

Комментарии 3

K0Jlya9 10 июн в 06:06

Попробовал сделать ocr pdf таким способом. Получил текст с первых 3 страниц. Это ограничение бесплатной версии или что?

Pride09 10 июн в 07:47

Это не ограничение бесплатной версии, а специфика Google Drive OCR. Для тяжелых файлов он бывает извлекает только 3-10 страниц. В задаче формирования каталога/описания этого достаточно. А для полного OCR проще использовать вызов мультимодальной модели (gemini-3.5-flash или gemini-3.1-flash-lite) и передавать им файл через File API или прямо в запросе.

K0Jlya9 10 июн в 10:45

Обычной модель для ocr не подходит (в чистом виде). Как минимум ей надо нарезать pdf на части, у нее максимальный размер ответа ограничен. А еще надо бороться с ее глюками, то она не весь текст вернет, то исправит его, то вообще откажется потому что ии-цензура сработала - детей и лекарства(drugs) в одном предложении рядом увидела.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий