Обновить
15
Вячеслав Сапроненко@SlaSapro

Разработчик, пишу на C++

1
Подписчики
Отправить сообщение

Что-то пропущено в этом фрагменте статьи - большим чем?

«Когда все получилось

И вот он, наш интерфейс со строкой ввода и большим вывода о котором мы мечтали»

Да, причём уже лет 5 назад в популярных дистрибутивах Линукса с ним не было проблем, как и с 4K.

У меня на компе с Win10 3756 пустых папок.
А на другом компе, с Win11, 60 пустых папок в этом же месте.
Это что же, 11я Винда более чем в 60 раз круче 10й? (смущённо)

Я на вас не обижался, да и критики не уловил — с чего вы взяли? И про какие минусы речь? (я не спец по «карме» и прочим местным «оттенкам штанов»)
Просто ваша формулировка мне напомнила некоторые… не очень глубокие, скажем так… советы «бывалых» пользователей «молодым» на форуме именно по FineReader.
Да, читал.
А вы мой ответ и встречный вопрос, надеюсь, тоже прочитали? Что именно хотелось бы узнать ближе, кроме уже описанного в блоге?
Просто не очень понятно, как правильно понимать фразу «были реально усовершенствованы за последние хотя бы десять лет его существования».
Поясните: если FR научились распознавать обрабатывать :) очень многие ближневосточные и дальневосточные языки — это «реальное усовершенствование», или нет? (При этом очень много работы досталось не только технологиям, но и UI.)
Или если научились (и продолжаем учиться) распознавать обрабатывать фотографии — значимое ли это улучшение, стоит ли о нём писать?
К сожалению — не любой из тех, кто считает что «серьёзно» использует FR :(
Тут же дело не в частоте использования, а в сложности решаемых задач и готовности конкретного человека присмотреться к доступным промежуточным данным и поэкспериментировать.
Да и эта серия статей ещё не закончена, чтобы не забыть чего-то важного — пишите вопросы.

Про улучшения в новых версиях были записи и в данном блоге, вот например про 2 последних версии Windows-версии FR —
habrahabr.ru/company/abbyy/blog/214681/
habrahabr.ru/company/abbyy/blog/126850/
А про используемые технологий найдётся ещё минимум десяток постов — сами полистайте habrahabr.ru/company/abbyy/blog/
Уточните, что особенно интересно из упомянутого в материалах блога (или кроме этого) — поищем автора, могущего и желающего поделиться тайными знаниями :)
Про сохранение — это ко мне :)
Ваш вопрос про Вордовый документ весьма типичный, как и ответ на него: для форматов MS Word (DocX/Rtf/Doc) и OpenOffice/LibreOffice Writer (Odt) есть 4 основных режима сохранения — «Точная копия», «Редактируемая копия», «Форматированный текст» и «Простой текст». От начала к концу этого списка упрощается структура и редактирование текста, но (возможно) ухудшается похожесть результата на оригинал.
Только сам пользователь знает, что ему важнее из этих характеристик — программа лишь исполняет его указания. Так что правильный выбор нужного режима сохранения — первый шаг, который может решить многие или все ваши проблемы.
Кстати, экспериментировать с изменением параметров сохранения довольно просто всего один раз распознав документ, причём рекомендую его сохранять на диске во внутреннем представлении (как «Документ FineReader»), чтобы иметь возможность вернуться к правкам и/или сохранению с другими настройками позже, хоть через месяц или год.
Следующие шаги по укрощению результатов сохранения в Ворде требуют от пользователя понимания — как устроен документ произвольной, иногда весьма сложной структуры в Ворде, и какие его элементы Файнридер использует для передачи визуальной и логической структуры исходного документа (с учётом разметки на области — от её разумности зависит очень много).
К сожалению, осветить эти темы в комментарии не хватит и 10 абзацев, так что правильнее про это написать статью, возможно и не одну.
Ну разве что так.
А правда — попробуйте прогнать DOC через PDF и FR10 обратно в RTF/DOC, может эта связка и будет умнее совсем уж дикого пользователя… :)
Не совсем понял — зачем «распознавать» изначально редактируемый формат (doc)?
XPS — прямой конкурент PDF по назначению и возможностям, но пока не очень успешный.
Под вычурными возможностями я понимаю индивидуальное позиционирование небольших фрагментов текста во фреймах или текстбоксах, на которое выше жаловались. А вы что?
Если уж зашла речь, почитайте про то, что из логической структуры документа умеет находить и сохранять в форматы Ворда тот же FineReader 10. Не каждый офисный пользователь знает столько терминов… :)
Ну так ODT — формат текстового процессора, конкурирующего с MS Word, с аналогичным Ворду назначением (создавать редактируемые документы и редактировать их) и набором возможностей.
Инструментарий для разрабочиков здесь — www.abbyy.ru/sdk/
А чем LATEX выбивается из кучи форматов-источников, не совсем понял?
Основная проблема в том, что обсуждаемый portable формат по сути не даёт ничего менять в передаваемых документах (то что криво прикручено через много лет — смех и грех). Так что об «обмене документами» я бы говорил в кавычках — скорее речь об «удобном просмотре электронных твёрдых копий документов» — да, это у PDF хорошо получается. Но не все потребности пользователей можно удовлетворить просмотром и простым аннотированием.
Прежде всего на www.abbyy.ru/download/finereader_pro, www.abbyy.ru/download/pdftransformer
Ну и прочие продукты на www.abbyy.ru/download/ и в магазинах, обычных и электронных.
На чужих приложениях и их форматах, в которых и создаются все качественные (несканированные) документы.
Делаем просто потому, что на такое преобразование есть платёжеспособный спрос.
Разумеется, нехалтурное изделие не должно «каждую букву оформлять как надпись» :) К счастью, большинство документов свёрстано так, что восстановление макета происходит с хорошей точностью даже без использования вычурных возможностей MS Word и других текстовых процессоров.
Чем дальше, тем больше в типичном PDF будет информации о структуре исходных документов, что упрощает решение некоторых сложных задач — так что время тоже работает на нас.
С уважением,
Вячеслав
Есть, ибо тема очень актуальна. Сразу же нашёл в Избранном www.planetpdf.com/article.asp?ContentID=PDF-to-Word_Conversion_-_Why_it_is_so_hard_to_do&gid=7837 (там 4 страницы, эта первая). Почему-то оригинал у меня в IE8 и в FireFox открывается криво и без полезного содержимого, но у Google есть сохранённые варианты:
Стр 1
Стр 2
Стр 3
Стр 4

С уважением,
Вячеслав

Информация

В рейтинге
Не участвует
Откуда
Сергиев Посад, Москва и Московская обл., Россия
Работает в
Дата рождения
Зарегистрирован
Активность