ByteDance выпустили нейросеть Dolphin, которая перегоняет pdf в классический формат документов, не превращая их в кучу непонятных символов:
выходе получаете тот же документ, но в другом формате.
cохраняются все подписи, изображения, графики и таблицы в оригинале.
работает за секунды, потому что парсит несколько фрагментов текста и визуала параллельно.
весить очень мало и не требует жесткой производительности.
Код на GitHub лежит — тут. Онлайн-демка — здесь.
