我试图提取Wikipedia文章中存在的视频或音频文件的数量,我搜索了API,但没有找到一个。
我确实注意到,当使用API提取特定页面的图像时,带有.ogg扩展名的音频文件将出现在图像列表中。
我不知道这种情况是否可以推广,是否可以用来计算视频和音频文件?有人有其他方法可以做到这一点吗?
基本上,API会平等对待所有文件类型,但是您可以获取每个文件的媒体类型,然后使用该媒体类型过滤视频和音频文件。
为了让你可以使用一个文件的介质类型prop=imageinfo
(这将被改变,以更准确的prop=fileinfo
在未来的版本),为每个文件。由于prop=images
可以作为发电机使用,你可以得到的文件列表,以及它们的介质类型,在一个单一的API调用,就像这样:
https://ar.wikipedia.org/w/api.php?action=query&generator=images&titles=%D8%AD%D9%88%D8%AB%D9%8A%D9%88%D9%86&redirects=&prop=imageinfo&iiprop=mediatype&continue=&format=xml
这里images
用作生成器,返回文件列表,而文件列表又被馈送到imageinfo
调用中。
对于每个文件,您将获得以下内容:
"2014232": {
"pageid": 2014232,
"ns": 6,
"title": "\u0645\u0644\u0641:06-Salame-Al Aadm 001.ogg",
"imagerepository": "local",
"imageinfo": [
{
"mediatype": "AUDIO"
}
]
}
的mediatype
可以是以下任意的(从复制和粘贴手册):
UNKNOWN // unknown format
BITMAP // some bitmap image or image source (like psd, etc). Can't scale up.
DRAWING // some vector drawing (SVG, WMF, PS, ...) or image source (oo-draw, etc). Can scale up.
AUDIO // simple audio file (ogg, mp3, wav, midi, whatever)
VIDEO // simple video file (ogg, mpg, etc; no not include formats here that may contain executable sections or scripts!)
MULTIMEDIA // Scriptable Multimedia (flash, advanced video container formats, etc)
OFFICE // Office Documents, Spreadsheets (office formats possibly containing apples, scripts, etc)
TEXT // Plain text (possibly containing program code or scripts)
EXECUTABLE // binary executable
ARCHIVE // archive file (zip, tar, etc)
此处提供了mimetype <=>媒体类型的默认映射,尽管可以为单个Wiki覆盖它。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句