ChatGPT + компьютерное зрение

Я занимаюсь разработкой своего ChatGPT Telegram бота на Python. Мне пришла идея использовать компьютерное зрение для поиска текста на изображение, для составления запроса в ChatGPT.
В этой статье мы рассмотрим реализацию и примеры работы ChatGPT с компьютерным зрением.
Реализация
Tesseract — это популярный движок OCR с открытым исходным кодом, который был предварительно обучен для поддержки более 100 языков. В этой статье мы используем Python-tesseract (pytesseract), оболочку Python для Tesseract, которая позволяет использовать Tesseract с Python.
Прежде чем использовать Tesseract, его нужно установить. Не забудьте добавить русский язык в параметрах установки.

pip install pytesseract
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
print(pytesseract.image_to_string('test.jpg'))
Вместе с ChatGPT получится что то такое
pip install openai
import pytesseract
import openai
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
openai.api_key = 'key'
image_to_string = pytesseract.image_to_string('test.jpg', lang='rus+eng')
caption = input()
prompt = caption + image_to_string
messages = [{"role": "user", "content": prompt}]
response = openai.ChatCompletion.create(model="gpt-3.5-turbo", messages=messages)
print(response["choices"][0]["message"]["content"])
Примеры
Для более наглядного тестирования я добавил эту функцию в своего ChatGPT Telegram бота.
Telegram бот может обрабатывать фотографию в двух режимах:
Получение текста с изображения без запроса в ChatGPT. Для этого нужно написать команду /text в подписи к изображению или оставить это поле пустым.
Обработка текста с использованием инструкции для ChatGPT. Инструкция (запрос) пишется в подписи к изображению.
Попробуем распознать текст с этой фотографии документа, сделанной на телефон.


Попробуем решить тестовое задание с применением ChatGPT.


Как насчет рукописного текста

Что то из очень смешного

Обработка текста


Как по мне, вполне себе применимая штука получилась. Может пригодится. Все примеры вы можете опробовать сами, воспользовавшись моим Telegram ботом.
