Комментарии 24
Посмотрел пример для получения XML-документа с распознанным текстом и сразу вспомнил цикл статей PDF — текст любой ценой. С подобным сервисом всё становится проще.
С интересом читал />этот цикл статей. Участвовал в разработке проектов, где была необходимость парсить текст из различных документов, поэтому интересовался этой темой.
Но если там добивались только текста, то здесь XML даёт нам и немного информации о форматировании текста: расположении блоков текста и размерах шрифта:
Вот что мы видим: «l» — отступ блока слева от края страницы, «t» — отступ сверху, «w» — ширина, «h» — высота (которая одновременно даёт информацию и о размере шрифта в блоке), «p» — позиции «подблоков» (используемых при выделении во вьювере), по паре значений на каждый (первое значение отступ слева от края страницы и ширина).
Но если там добивались только текста, то здесь XML даёт нам и немного информации о форматировании текста: расположении блоков текста и размерах шрифта:
<block l="276" t="204" w="59" h="14">
<text l="276" t="204" w="59" h="14" p="276,38,317,18">
Google, Inc.
</text>
</block>
Вот что мы видим: «l» — отступ блока слева от края страницы, «t» — отступ сверху, «w» — ширина, «h» — высота (которая одновременно даёт информацию и о размере шрифта в блоке), «p» — позиции «подблоков» (используемых при выделении во вьювере), по паре значений на каждый (первое значение отступ слева от края страницы и ширина).
Хотел оставить ссылку на цикл статей «текст любой ценой», но её проглотил парсер.
Действительно, очень полезный и удобный сервис. Жалко, что он не поддерживает многие расширения файлов изображений.
А я один так испорчен, что не сразу разглядел белку на картинке?
> без авторизации просматривать документы
Нажимал на примеры, направляет на авторизацию сначала. Конкретно ссылка из pagenumber.
Нажимал на примеры, направляет на авторизацию сначала. Конкретно ссылка из pagenumber.
К сожалению, у меня не получается сэмулировать такую же ситуацию как у Вас. Отлючил сессию пользователя на гугле во всех браузерах, после чего удалил куки по фильтру «goo*», но ссылка в примере у GET-параметра сразу возвращала PNG-изображение.
Очень хотелось бы разобраться в ситуации, которая произошла у Вас.
Очень хотелось бы разобраться в ситуации, которая произошла у Вас.
Мне, к сожалению и стыду, тоже не удается воспроизвести это.
Было: Опера, нажал на ссылку, случился переход на вход Гугля, где мой логин был введен, а пароль спрашивался. Ввел пароль, кинуло куда надо.
Удалил куки гугля, пробовал входить — выходить, всё работает.
Если ещё придумаю что — напишу, а так, если больше никто подобного не сообщит, можно и на невысыпание отнести :)
PS Спасибо за статью.
Было: Опера, нажал на ссылку, случился переход на вход Гугля, где мой логин был введен, а пароль спрашивался. Ввел пароль, кинуло куда надо.
Удалил куки гугля, пробовал входить — выходить, всё работает.
Если ещё придумаю что — напишу, а так, если больше никто подобного не сообщит, можно и на невысыпание отнести :)
PS Спасибо за статью.
Такая-же ситуация. Тоже отправился на авторизацию. Причем, в приватной вкладке (в опере) картинка открылась.
>случился переход на вход Гугля, где мой логин был введен, а пароль спрашивался
Вы были залогинены, но в результате какихто проверок безопасности вы были перенаправлены на страницу повторного ввода пароле. такое бывает не только в доксах.
Вы были залогинены, но в результате какихто проверок безопасности вы были перенаправлены на страницу повторного ввода пароле. такое бывает не только в доксах.
Классно, жаль проверить не могу из-за быстрого Мегафон-модема
Не подскажете как решить обратную задачу? Скачать гуглодок по ссылке. Требование только одно — отсутствие необходимости в каком бы то ни было графическом интерфейсе, чтобы можно было скриптом на сервере запускать.
Если я правильно понял, то это возможно разными способами.
Например через публикацию документа в гуглодоксе: у вас появиться ссылка вида docs.google.com/document/pub?id={id-документа} на док с облегченным интерфейсом, из которой можно получить ссылку на документ совсем без интерфейса добавив параметр &embedded=true, вот так:
docs.google.com/document/pub?id={id-документа}&embedded=true
Например через публикацию документа в гуглодоксе: у вас появиться ссылка вида docs.google.com/document/pub?id={id-документа} на док с облегченным интерфейсом, из которой можно получить ссылку на документ совсем без интерфейса добавив параметр &embedded=true, вот так:
docs.google.com/document/pub?id={id-документа}&embedded=true
Из соседнего топика docs.google.com/Doc?id=dcdgbct3_265ccscdkcz
docs.google.com/document/pub?id=dcdgbct3_265ccscdkcz не открывается в браузере.
docs.google.com/document/pub?id=dcdgbct3_265ccscdkcz не открывается в браузере.
качественный первый пост. поздравляю!
pptx тоже открывает, можете добавить в таблицу
Спасибо за подсказку, я совсем и забыл про форматы MS Office 2007. Проверил, PPTX тоже поддерживается (пример).
А так же проверил другие форматы введённые в MS Office 2007:
dotx (не поддерживается, пример),
xlsx (поддерживается, пример),
xlsm (не поддерживается, пример),
pptm (не поддерживается, пример),
ppsx (не поддерживается, пример).
Обновлю таблицу.
А так же проверил другие форматы введённые в MS Office 2007:
dotx (не поддерживается, пример),
xlsx (поддерживается, пример),
xlsm (не поддерживается, пример),
pptm (не поддерживается, пример),
ppsx (не поддерживается, пример).
Обновлю таблицу.
Можно ли как то вручную обновить файл который показывается.
А то google берет не свежую только залитую версию, а из своего кэша.
например если прайс лист обновляется каждые пол часа.
А то google берет не свежую только залитую версию, а из своего кэша.
например если прайс лист обновляется каждые пол часа.
Кто-нибудь знает, гугл закрыл сервис?
Страница генерации ссылок — похоже да, закрыта-убрана.
Однако, ссылки на просмотр файлов продолжают работать, например https://docs.google.com/viewer?url=www.ada.gov%2Femerprepguideprt.pdf
Однако, ссылки на просмотр файлов продолжают работать, например https://docs.google.com/viewer?url=www.ada.gov%2Femerprepguideprt.pdf
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Google Docs Viewer