Комментарии 10
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
задача сама по себе уже решена, так что здесь я хотел бы рассмотреть именно общетеоретические вопросы. Т.е. системные требования к решению особо не принципиальны. Конечно хорошо, если это будет линух. Конкретно дебиан. Если нет - то можно будет это дело эмулировать, запустить на другой машине... или еще что придумать, в случае ежели понадобится реализовать. К языку тоже особо вопросов нет. На быстродействие там упор не ставится, а потому можно позволить себе это системными вызовами реализовать.
0
в комментарии к дублю этой записи хабраюзером aleks_raiden были упомянуты такие вещи как поисковые движки Apache Lucene и Nutch
У меня сразу возник вопрос - кто пользовался, насколько эти вещи поддерживают не-совсем-текстовые форматы файлов вроде тех-же .doc?
У меня сразу возник вопрос - кто пользовался, насколько эти вещи поддерживают не-совсем-текстовые форматы файлов вроде тех-же .doc?
0
НЛО прилетело и опубликовало эту надпись здесь
Я кажется понял что имелось ввиду. Нужен консольный вариант програмки которая могла бы читать .doc и генерировать любой удобоваримый формат (HTML).
Недавно сам пытался искать чтото пордобное но wv помомему лучшее что есть.
Из альтернатив:
- catdoc (http://www.wagner.pp.ru/~vitus/software/…)
- Antiword (http://www.winfield.demon.nl)
Недавно сам пытался искать чтото пордобное но wv помомему лучшее что есть.
Из альтернатив:
- catdoc (http://www.wagner.pp.ru/~vitus/software/…)
- Antiword (http://www.winfield.demon.nl)
0
Именно.
А вы в итоге стали их использовать, или ваша проблема осталась без решения?
А вы в итоге стали их использовать, или ваша проблема осталась без решения?
0
Ну у меня как бы не проблема была :) Обсуждали одну инетересную идею и в процессе обсуждения возник вопрос: А есть ли такие средства? Ну вот и нашли. Дальше не копалоись - достаточно было информации о том что текст можно вытянуть.
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Получение текста из.doc. Как это лучше сделать?