nekt 18 янв 2008 в 00:06

Получение текста из.doc. Как это лучше сделать?

2 мин

1.1K

Чулан

Комментарии 10

НЛО прилетело и опубликовало эту надпись здесь

nekt 18 янв 2008 в 00:52

задача сама по себе уже решена, так что здесь я хотел бы рассмотреть именно общетеоретические вопросы. Т.е. системные требования к решению особо не принципиальны. Конечно хорошо, если это будет линух. Конкретно дебиан. Если нет - то можно будет это дело эмулировать, запустить на другой машине... или еще что придумать, в случае ежели понадобится реализовать. К языку тоже особо вопросов нет. На быстродействие там упор не ставится, а потому можно позволить себе это системными вызовами реализовать.

nekt 18 янв 2008 в 01:01

в комментарии к дублю этой записи хабраюзером

aleks_raiden были упомянуты такие вещи как поисковые движки Apache Lucene и Nutch

У меня сразу возник вопрос - кто пользовался, насколько эти вещи поддерживают не-совсем-текстовые форматы файлов вроде тех-же .doc?

НЛО прилетело и опубликовало эту надпись здесь

nekt 18 янв 2008 в 09:38

Как я понимаю, у вас задача все же несколько отличается - вам нужно почистить теги, которые появляются при копировании из ворда, не нарушив оформление? Или я не понял и у вас копировать из вордовского файла происходит как и у меня, не через буфер обмена?

josser 18 янв 2008 в 12:25

Я кажется понял что имелось ввиду. Нужен консольный вариант програмки которая могла бы читать .doc и генерировать любой удобоваримый формат (HTML).

Недавно сам пытался искать чтото пордобное но wv помомему лучшее что есть.
Из альтернатив:
- catdoc (http://www.wagner.pp.ru/~vitus/software/…)
- Antiword (http://www.winfield.demon.nl)

nekt 18 янв 2008 в 13:38

Именно.

А вы в итоге стали их использовать, или ваша проблема осталась без решения?

josser 18 янв 2008 в 13:46

Ну у меня как бы не проблема была :) Обсуждали одну инетересную идею и в процессе обсуждения возник вопрос: А есть ли такие средства? Ну вот и нашли. Дальше не копалоись - достаточно было информации о том что текст можно вытянуть.

nekt 18 янв 2008 в 13:56

а, понятно :)

еще непонятно как оно с 2007 вордом будет себя вести...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Получение текста из.doc. Как это лучше сделать?

Комментарии 10

Публикации

Истории