Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Прошу меня понять и простить:
import sys
import os,os.path
import comtypes.client
wdFormatPDF = 17
input_dir = 'input directory'
output_dir = 'output directory'
for subdir, dirs, files in os.walk(input_dir):
for file in files:
in_file = os.path.join(subdir, file)
output_file = file.split('.')[0]
out_file = output_dir+output_file+'.pdf'
word = comtypes.client.CreateObject('Word.Application')
doc = word.Documents.Open(in_file)
doc.SaveAs(out_file, FileFormat=wdFormatPDF)
doc.Close()
word.Quit()Взято тут: https://stackoverflow.com/questions/29637626/converting-rtf-to-pdf-using-python
Есть ощущение, что с таким уровнем лабы как минимум по программированию можно было не делать ;)
Это может быть необходимо для вычленения какой-то конкретной информации или просто проверки содержимого, потом решили конвертировать из одного формата в другой, да причем на VBS… Язык был выбран скорее всего по причине — когда-то его учили…
ext = 'html'
os.chdir(oo_path)
try:
subprocess.check_call(oo_executable + ' --headless --convert-to ' + ext + ' --outdir ' + destPath + ' ' + srcFile, shell=True)
except subprocess.CalledProcessError as e:
print(e.output)
Возможно вам понравится: doc2html. Из недостатков
— некроссплатформенно, потому что использует jscript и
— требует наличие установленного в системе ворда
Из плюсов
— быстр (скорость загрузки опредяется скоростью открытия/закрытия документов)
— оптимально использует одну копию ворда
Хотя имеет смысл посмотреть в сторону других утилит, например, pandoc
Вот ещё http://tika.apache.org
Автоматизация конвертирования word файлов в другие форматы