当文档包含图片时,使用python-docx读取文本

格雷戈尔

我在解析包含图像的文档中的文本时遇到问题。

我在运行Ubuntu 12.04.4 LTS(GNU / Linux 3.2.0-60-generic x86_64)的Ubuntu Linux机器上使用Python docx的0.7.0版

我正在使用此逻辑:

```

        document = Document(path)
        # Get all paragraphs
        paras = document.paragraphs

        text = ""

        # Push the text from the paragraph on a single string
        for para in paras:
            # Don't forget the line break
            text += "\n" + para.text

        return text.strip()

```

当有图像时,此过程失败。

我做错什么了吗?

斯堪尼

python-docx应该支持您在这里尝试做的事情。如果您提供堆栈跟踪信息,则在出现错误时会得到提示,我来看一下。

顺便说一句,您可以将其编码为:

document = Document(path)
text = '\n'.join([para.text for para in document.paragraphs])

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

当文档包含图片时,使用python-docx读取文本

来自分类Dev

使用 Docx4j 从 Docx 文件中读取文本

来自分类Dev

Python docx库文本对齐

来自分类Dev

如何使用python从docx读取json文件

来自分类Dev

在.docx文件中添加文本和图片

来自分类Dev

使用变量从python中的文本文档中读取

来自分类Dev

使用Apache POI读取.docx文件

来自分类Dev

如何使用 .NET 从 URL 读取 docx 文件

来自分类Dev

根据文档中的文本用python重命名.doc或.docx

来自分类Dev

使用带有HTML文本的docx库创建文档

来自分类Dev

Python读取大块文本

来自分类Dev

如何使用python-docx替换Word文档中的文本并保存

来自分类Dev

如何使用python docx获取Word文档中的实际文本样式

来自分类Dev

使用Python-docx编写word文档时如何更改段落中特定文本的字体?

来自分类Dev

用python docx居中文本

来自分类Dev

Spark - Scala:解析和提取同时包含文本和图像的文档 - .doc、.docx 文件

来自分类Dev

使用Java将.doc / .docx文档转换为.odt(打开文档文本),反之亦然。

来自分类Dev

如何使用python从docx文件中的标题下提取文本

来自分类Dev

从文本读取并写入csv Python

来自分类Dev

使用python docx合并word文档

来自分类Dev

使用python读取文本文件

来自分类Dev

使用套接字 Python 从网站读取文本

来自分类Dev

使用 Python 读取 Excel 文本标题

来自分类Dev

如何从.docx / .odt / .doc文件读取或复制文本

来自分类Dev

如何从.docx / .odt / .doc文件读取或复制文本

来自分类Dev

在python docx中创建表并以粗体显示文本

来自分类Dev

提取文本并比较表中的单元格-python docx

来自分类Dev

使用OpenXML替换DOCX文件中的文本-奇怪的内容

来自分类Dev

使用保留表将.doc / .docx转换为文本

Related 相关文章

  1. 1

    当文档包含图片时,使用python-docx读取文本

  2. 2

    使用 Docx4j 从 Docx 文件中读取文本

  3. 3

    Python docx库文本对齐

  4. 4

    如何使用python从docx读取json文件

  5. 5

    在.docx文件中添加文本和图片

  6. 6

    使用变量从python中的文本文档中读取

  7. 7

    使用Apache POI读取.docx文件

  8. 8

    如何使用 .NET 从 URL 读取 docx 文件

  9. 9

    根据文档中的文本用python重命名.doc或.docx

  10. 10

    使用带有HTML文本的docx库创建文档

  11. 11

    Python读取大块文本

  12. 12

    如何使用python-docx替换Word文档中的文本并保存

  13. 13

    如何使用python docx获取Word文档中的实际文本样式

  14. 14

    使用Python-docx编写word文档时如何更改段落中特定文本的字体?

  15. 15

    用python docx居中文本

  16. 16

    Spark - Scala:解析和提取同时包含文本和图像的文档 - .doc、.docx 文件

  17. 17

    使用Java将.doc / .docx文档转换为.odt(打开文档文本),反之亦然。

  18. 18

    如何使用python从docx文件中的标题下提取文本

  19. 19

    从文本读取并写入csv Python

  20. 20

    使用python docx合并word文档

  21. 21

    使用python读取文本文件

  22. 22

    使用套接字 Python 从网站读取文本

  23. 23

    使用 Python 读取 Excel 文本标题

  24. 24

    如何从.docx / .odt / .doc文件读取或复制文本

  25. 25

    如何从.docx / .odt / .doc文件读取或复制文本

  26. 26

    在python docx中创建表并以粗体显示文本

  27. 27

    提取文本并比较表中的单元格-python docx

  28. 28

    使用OpenXML替换DOCX文件中的文本-奇怪的内容

  29. 29

    使用保留表将.doc / .docx转换为文本

热门标签

归档