PDF (또는 텍스트 파일)를 Python에서 Word 문서로 변환하는 방법이 있습니까? 교수님을 위해 웹 스크래핑을하고 있는데 원본 문서는 PDF입니다. 그 중 1,611 개를 모두 텍스트 파일로 변환했고 이제 Word 문서로 변환해야합니다. 내가 찾을 수있는 유일한 것은 Word-to-txt 변환기였으며 그 반대가 아닙니다.
감사!
python-docx를 사용하여 txt 파일을 Word 문서로 쉽게 변환 할 수있었습니다.
내가 한 일입니다.
from docx import Document
import re
import os
path = '/users/tdobbins/downloads/smithtxt'
direct = os.listdir(path)
for i in direct:
document = Document()
document.add_heading(i, 0)
myfile = open('/path/to/read/from/'+i).read()
myfile = re.sub(r'[^\x00-\x7F]+|\x0c',' ', myfile) # remove all non-XML-compatible characters
p = document.add_paragraph(myfile)
document.save('/path/to/write/to/'+i+'.docx')
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다