Comments 10
задача сама по себе уже решена, так что здесь я хотел бы рассмотреть именно общетеоретические вопросы. Т.е. системные требования к решению особо не принципиальны. Конечно хорошо, если это будет линух. Конкретно дебиан. Если нет - то можно будет это дело эмулировать, запустить на другой машине... или еще что придумать, в случае ежели понадобится реализовать. К языку тоже особо вопросов нет. На быстродействие там упор не ставится, а потому можно позволить себе это системными вызовами реализовать.
в комментарии к дублю этой записи хабраюзером
aleks_raiden были упомянуты такие вещи как поисковые движки Apache Lucene и Nutch
У меня сразу возник вопрос - кто пользовался, насколько эти вещи поддерживают не-совсем-текстовые форматы файлов вроде тех-же .doc?

У меня сразу возник вопрос - кто пользовался, насколько эти вещи поддерживают не-совсем-текстовые форматы файлов вроде тех-же .doc?
Я кажется понял что имелось ввиду. Нужен консольный вариант програмки которая могла бы читать .doc и генерировать любой удобоваримый формат (HTML).
Недавно сам пытался искать чтото пордобное но wv помомему лучшее что есть.
Из альтернатив:
- catdoc (http://www.wagner.pp.ru/~vitus/software/…)
- Antiword (http://www.winfield.demon.nl)
Недавно сам пытался искать чтото пордобное но wv помомему лучшее что есть.
Из альтернатив:
- catdoc (http://www.wagner.pp.ru/~vitus/software/…)
- Antiword (http://www.winfield.demon.nl)
Именно.
А вы в итоге стали их использовать, или ваша проблема осталась без решения?
А вы в итоге стали их использовать, или ваша проблема осталась без решения?
Sign up to leave a comment.
Получение текста из.doc. Как это лучше сделать?