如何从R中读取PDF元数据

神父

我们出于好奇,是否有一种方法可以从R中读取PDF元数据(例如下面显示的信息)?

通过在[r] pdf metadata当前问题库中进行搜索,我对此一无所知任何指针都非常欢迎!

在此处输入图片说明

A5C1D2H2I1M1N2O1R2T1

我想不出一种纯R的方法,但是您可能可以安装自己喜欢的PDF命令行工具(例如PDF工具包,PDFtk,并使用它来获取至少一些您正在寻找的数据。

以下是使用PDFtk的基本示例。它假定pdftk您在路径中可以访问

x <- getwd() ## I'll run this example in a tempdir to keep things clean
setwd(tempdir())
list.files(pattern="*.txt$|*.pdf$")
# character(0)

pdf(file = "SomeOutputFile.pdf")
plot(rnorm(100))
dev.off()

system("pdftk SomeOutputFile.pdf data_dump output SomeOutputFile.txt")
list.files(pattern="*.txt$|*.pdf$")
# [1] "SomeOutputFile.pdf" "SomeOutputFile.txt"

readLines("SomeOutputFile.txt")
#  [1] "InfoBegin"                    "InfoKey: Creator"            
#  [3] "InfoValue: R"                 "InfoBegin"                   
#  [5] "InfoKey: Title"               "InfoValue: R Graphics Output"
#  [7] "InfoBegin"                    "InfoKey: Producer"           
#  [9] "InfoValue: R 3.0.1"           "InfoBegin"                   
# [11] "InfoKey: ModDate"             "InfoValue: D:20131102170720" 
# [13] "InfoBegin"                    "InfoKey: CreationDate"       
# [15] "InfoValue: D:20131102170720"  "NumberOfPages: 1"            
# [17] "PageMediaBegin"               "PageMediaNumber: 1"          
# [19] "PageMediaRotation: 0"         "PageMediaRect: 0 0 504 504"  
# [21] "PageMediaDimensions: 504 504"

setwd(x)

我将研究还有哪些其他选项可以指定要提取哪些元数据,并查看是否存在一种方便的方法将这些信息解析为对您更有用的形式。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何从PDF读取PieceInfo每页元数据

来自分类Dev

在 PDF/A 文档中读取和写入 xml 元数据

来自分类Dev

如何从R箭头的羽毛文件中读取列名和元数据?

来自分类Dev

读取PDF元数据并写入CSV的脚本

来自分类Dev

如何在使用 FlyingSaucer 创建的 PDF 中设置元数据

来自分类Dev

如何在R中读取GeoJSONP数据?

来自分类Dev

如何从R中的串行端口读取数据

来自分类Dev

如何在R中读取卡住的数据?

来自分类Dev

如何从清单文件读取元数据

来自分类Dev

如何读取 PDFsharp 返回的 UTF 元数据?

来自分类Dev

在Haxe宏中读取元数据

来自分类Dev

在目标c中读取视频元数据

来自分类Dev

读取时删除图像中的元数据?

来自分类Dev

如何使Ghostscript不会擦除PDF元数据

来自分类Dev

如何通过元数据搜索pdf文件

来自分类Dev

如何使Ghostscript不会擦除PDF元数据

来自分类Dev

如何通过元数据搜索pdf文件

来自分类Dev

如何使用MUPDF获取PDF元数据

来自分类Dev

编辑PDF文件中的OCR元数据

来自分类Dev

如何通过R中的用户定义语句过滤元数据?

来自分类Dev

如何在C#或C ++中读取/写入XMP元数据

来自分类Dev

如何读取S3存储桶中每个项目的元数据?

来自分类Dev

如何从swift / AVKIT的HLS流中读取id3标签/其他元数据

来自分类Dev

如何从JavaScript中的MP3文件读取元数据属性?

来自分类Dev

如何使用cassandra中的元数据查询/日志查找是否正在读取表

来自分类Dev

如何在Qt中使用vlc-qt libvlc从视频中读取元数据

来自分类Dev

如何读取亚马逊S3中文件的元数据

来自分类Dev

如何在Windows Phone 8.1中读取音乐文件的完整元数据

来自分类Dev

如何以编程方式从Rails中的AWS S3对象读取元数据?

Related 相关文章

热门标签

归档