我有一个字文件。我需要使用GATE匹配特定的表部分或标题部分。我想,是否有任何步骤可让我们首先检查标题的任何字体大小或字体样式,然后匹配其余内容,直到重复下一个标题模式。
GATE仅对Apache Tika和Apache POI库提供的MS Word文档提供有限支持。我不知道有没有其他免费的替代品...我们为此目的在公司中开发了自己的插件(),但目前无法在外部使用。gate.DocumentFormat
您可以尝试通过其他工具(例如,直接使用MS Word,OpenOffice,docx4j或其他工具-尝试使用google-您会看到很多结果)将word文档转换为HTML,然后改为在GATE中处理HTML文档。您将在注释集中看到所有可用的格式。docx to html
Original markups
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句