Как стать автором
Обновить

Комментарии 10

НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
задача сама по себе уже решена, так что здесь я хотел бы рассмотреть именно общетеоретические вопросы. Т.е. системные требования к решению особо не принципиальны. Конечно хорошо, если это будет линух. Конкретно дебиан. Если нет - то можно будет это дело эмулировать, запустить на другой машине... или еще что придумать, в случае ежели понадобится реализовать. К языку тоже особо вопросов нет. На быстродействие там упор не ставится, а потому можно позволить себе это системными вызовами реализовать.
в комментарии к дублю этой записи хабраюзером посмотреть профиль aleks_raiden были упомянуты такие вещи как поисковые движки Apache Lucene и Nutch

У меня сразу возник вопрос - кто пользовался, насколько эти вещи поддерживают не-совсем-текстовые форматы файлов вроде тех-же .doc?
НЛО прилетело и опубликовало эту надпись здесь
Как я понимаю, у вас задача все же несколько отличается - вам нужно почистить теги, которые появляются при копировании из ворда, не нарушив оформление? Или я не понял и у вас копировать из вордовского файла происходит как и у меня, не через буфер обмена?
Я кажется понял что имелось ввиду. Нужен консольный вариант програмки которая могла бы читать .doc и генерировать любой удобоваримый формат (HTML).

Недавно сам пытался искать чтото пордобное но wv помомему лучшее что есть.
Из альтернатив:
- catdoc (http://www.wagner.pp.ru/~vitus/software/…)
- Antiword (http://www.winfield.demon.nl)
Именно.

А вы в итоге стали их использовать, или ваша проблема осталась без решения?
Ну у меня как бы не проблема была :) Обсуждали одну инетересную идею и в процессе обсуждения возник вопрос: А есть ли такие средства? Ну вот и нашли. Дальше не копалоись - достаточно было информации о том что текст можно вытянуть.
а, понятно :)

еще непонятно как оно с 2007 вордом будет себя вести...
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории