我正在尝试拆开一个像这样的word文档:
1.0清单项目
1.1清单项目
1.2清单项目
2.0清单项目
它存储在docx中,我正在使用python-docx尝试对其进行解析。不幸的是,它一开始丢失了所有编号。我正在尝试确定每个有序列表项的开始。
python-docx库还允许我访问样式,但是我无法弄清楚如何确定样式是否为列表样式。
到目前为止,我一直在弄乱一个函数并检查输出,但是标准格式如下:
for p in doc.paragraphs:
s = p.style
while s.base_style is not None:
print s.name
s = s.base_style
print s.name
我一直在尝试搜索自定义样式,但是全部以“ Normal”结尾,而不是“ ListNumber”。
我尝试在文档,段落和运行下搜索样式,但是没有运气。我也尝试过搜索p.text,但是如前所述,编号不会持续。
列表项可以通过多种方式在XML中实现。不幸的是,最常见的方法是,使用工具栏添加列表项(与使用样式相反)也可能是最复杂的。
最好的选择是开始使用opc-diag查看document.xml中正在使用的XML,然后从那里制定策略。
python-docx的列表处理API尚未真正实现,因此,如果要使用今天的版本完成此操作,则需要在lxml级别进行操作。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句