当文档包含图片时，使用python-docx读取文本

debugcn 发表于 Dev

格雷戈尔

我在解析包含图像的文档中的文本时遇到问题。

我在运行Ubuntu 12.04.4 LTS（GNU / Linux 3.2.0-60-generic x86_64）的Ubuntu Linux机器上使用Python docx的0.7.0版

我正在使用此逻辑：

```

        document = Document(path)
        # Get all paragraphs
        paras = document.paragraphs

        text = ""

        # Push the text from the paragraph on a single string
        for para in paras:
            # Don't forget the line break
            text += "\n" + para.text

        return text.strip()

```

当有图像时，此过程失败。

我做错什么了吗？

斯堪尼

python-docx应该支持您在这里尝试做的事情。如果您提供堆栈跟踪信息，则在出现错误时会得到提示，我来看一下。

顺便说一句，您可以将其编码为：

document = Document(path)
text = '\n'.join([para.text for para in document.paragraphs])

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-7

我来说两句

0条评论

登录后参与评论

来自分类Dev

当文档包含图片时，使用python-docx读取文本

来自分类Dev

使用 Docx4j 从 Docx 文件中读取文本

来自分类Dev

Python docx库文本对齐

来自分类Dev

如何使用python从docx读取json文件

来自分类Dev

在.docx文件中添加文本和图片

来自分类Dev

使用变量从python中的文本文档中读取

来自分类Dev

使用Apache POI读取.docx文件

来自分类Dev

如何使用 .NET 从 URL 读取 docx 文件

来自分类Dev

根据文档中的文本用python重命名.doc或.docx

来自分类Dev

使用带有HTML文本的docx库创建文档

来自分类Dev

Python读取大块文本

来自分类Dev

如何使用python-docx替换Word文档中的文本并保存

来自分类Dev

如何使用python docx获取Word文档中的实际文本样式

来自分类Dev

使用Python-docx编写word文档时如何更改段落中特定文本的字体？

来自分类Dev

用python docx居中文本

来自分类Dev

Spark - Scala：解析和提取同时包含文本和图像的文档 - .doc、.docx 文件

来自分类Dev

使用Java将.doc / .docx文档转换为.odt（打开文档文本），反之亦然。

来自分类Dev

如何使用python从docx文件中的标题下提取文本

来自分类Dev

从文本读取并写入csv Python

来自分类Dev

使用python docx合并word文档

来自分类Dev

使用python读取文本文件

来自分类Dev

使用套接字 Python 从网站读取文本

来自分类Dev

使用 Python 读取 Excel 文本标题

来自分类Dev

如何从.docx / .odt / .doc文件读取或复制文本

来自分类Dev

如何从.docx / .odt / .doc文件读取或复制文本

来自分类Dev

在python docx中创建表并以粗体显示文本

来自分类Dev

提取文本并比较表中的单元格-python docx

来自分类Dev

使用OpenXML替换DOCX文件中的文本-奇怪的内容

来自分类Dev

使用保留表将.doc / .docx转换为文本

Related 相关文章

文章