如何使用Python从.doc文件中检索纯文本?

艾达·林(Ida Lim)

如何从.doc文件中提取纯文本?(MSDoc 97-03)我可以从.docx中提取纯文本,但不能从.doc中提取纯文本

我有一个几乎可以工作的.doc代码,它像这样

        if file.endswith('.doc'):
            app = win32com.client.Dispatch('Word.Application')
            doc = app.Documents.Open(fullpath)
            docText = (doc.Content)
            print docText
            app.Quit()

问题是,每当我运行此代码时,我都会得到纯文本和如下错误:

这是一个测试文件以测试代码:

Traceback (most recent call last):
  File "C:\Users\IdaLim\Desktop\MyTestCode\FileIO.py", line 76, in <module> doc =                  

  app.Documents.Open(fullpath) File "C:\Python27\lib\site-
  packages\win32com\client\dynamic.py", line 522, in __getattr__ raise 
  AttributeError("%s.%s"% (self._username_, attr)) AttributeError: Word.Application.Documents

最重要的是,如果纯文本包含诸如“!@#$%”之类的非字母字符,则程序将不会输出纯文本,并会给出错误消息,指出不兼容的Unicode或其他内容。

您是否知道有任何功能代码可以从.doc文件中完美检索纯文本?

艾达·林(Ida Lim)

好吧,我找到了该解决方案的解决方法。

我将.doc文件成功转换为.txt文件,并将所有特殊字符和编码转换为.txt格式。代码如下。我想您可以(如果需要)做的是读取新创建的文本文件,然后将其存储在python程序的变量中。从那里,您可以使用它来做任何想要的事情。

import win32com.client 
import os
import re
rootdir ='C:\Users\IdaLim\Desktop\docs'     
try:
    app = win32com.client.Dispatch('Word.Application')
    app.Visible = True
    for subdir, dirs, files in os.walk(rootdir):
        for file in files:
            fullpath = os.path.join(*[subdir, file])
            if file.endswith(".doc"):
                out_name = file.replace("doc", r"txt")
                in_file = os.path.abspath(rootdir + "\\" + file)
                out_file = os.path.abspath(rootdir + "\\" + out_name)
                doc = app.Documents.Open(in_file)
                content = doc.Content.Text
                print 'Exporting', out_file
                doc.SaveAs(out_file, FileFormat=7)
                doc.Close()
except Exception, e:
    print e
finally:
    app.Quit()

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何使用Python从.doc文件中检索纯文本?

来自分类Dev

使用js函数替换HTML文件中的纯文本

来自分类Dev

如何使用grep从文件中检索匹配的文本?

来自分类Dev

使用Python从文本文件中检索坐标

来自分类Dev

如何逐行检索文本,从“contenteditable”到纯 javascript 中的变量,没有 jquery

来自分类Dev

如何使用纯文本脚本插入(文件数据中的原始字节)

来自分类Dev

如何在Lubuntu中默认使PCManFM使用Leafpad打开纯文本文件?

来自分类Dev

如何使用Objective-C从纯文本远程文件中读取内容

来自分类Dev

使用 Gedit 时如何去除纯文本文件中的无效字符?

来自分类Dev

使用Python在.doc中输出粗体文本

来自分类Dev

使用较小的匹配标头从大文件中检索文本

来自分类Dev

如何在嵌套标签内检索标签纯文本

来自分类Dev

如何在嵌套标签内检索标签纯文本

来自分类Dev

如何使用python从csv文件中检索一列?

来自分类Dev

如何使用python脚本将文件从文件夹检索到文本文件的路径?

来自分类Dev

如何从python中的URL保存.doc文件?

来自分类Dev

如何在python中的纯文本中添加后缀

来自分类Dev

如何在自述文件中以纯文本形式显示链接

来自分类Dev

如何控制机器人框架中纯文本调试文件的日志级别?

来自分类Dev

如何将 EditText(纯文本)的内容保存到内部存储上的 Txt 文件中

来自分类Dev

在R文件中安全使用密码-防止将密码存储为纯文本

来自分类Dev

使用Vigenere密码进行加密,其中从文件中读取纯文本(JAVA)

来自分类Dev

如何从doc文件中提取文本?

来自分类Dev

如何使用纯Javascript从Div中的Span获取文本值

来自分类Dev

如何在CGI中打印纯文本?

来自分类Dev

如何在Linux中证明纯文本?

来自分类Dev

如何在ExtJs中显示纯文本

来自分类Dev

如何从文本文件中检索随机行,然后在PHP中从文本文件中删除该行

来自分类Dev

如何从xml中检索文本

Related 相关文章

  1. 1

    如何使用Python从.doc文件中检索纯文本?

  2. 2

    使用js函数替换HTML文件中的纯文本

  3. 3

    如何使用grep从文件中检索匹配的文本?

  4. 4

    使用Python从文本文件中检索坐标

  5. 5

    如何逐行检索文本,从“contenteditable”到纯 javascript 中的变量,没有 jquery

  6. 6

    如何使用纯文本脚本插入(文件数据中的原始字节)

  7. 7

    如何在Lubuntu中默认使PCManFM使用Leafpad打开纯文本文件?

  8. 8

    如何使用Objective-C从纯文本远程文件中读取内容

  9. 9

    使用 Gedit 时如何去除纯文本文件中的无效字符?

  10. 10

    使用Python在.doc中输出粗体文本

  11. 11

    使用较小的匹配标头从大文件中检索文本

  12. 12

    如何在嵌套标签内检索标签纯文本

  13. 13

    如何在嵌套标签内检索标签纯文本

  14. 14

    如何使用python从csv文件中检索一列?

  15. 15

    如何使用python脚本将文件从文件夹检索到文本文件的路径?

  16. 16

    如何从python中的URL保存.doc文件?

  17. 17

    如何在python中的纯文本中添加后缀

  18. 18

    如何在自述文件中以纯文本形式显示链接

  19. 19

    如何控制机器人框架中纯文本调试文件的日志级别?

  20. 20

    如何将 EditText(纯文本)的内容保存到内部存储上的 Txt 文件中

  21. 21

    在R文件中安全使用密码-防止将密码存储为纯文本

  22. 22

    使用Vigenere密码进行加密,其中从文件中读取纯文本(JAVA)

  23. 23

    如何从doc文件中提取文本?

  24. 24

    如何使用纯Javascript从Div中的Span获取文本值

  25. 25

    如何在CGI中打印纯文本?

  26. 26

    如何在Linux中证明纯文本?

  27. 27

    如何在ExtJs中显示纯文本

  28. 28

    如何从文本文件中检索随机行,然后在PHP中从文本文件中删除该行

  29. 29

    如何从xml中检索文本

热门标签

归档