好的,我只是想解析Wikimedia提供的Wiktionary Data Dump。
我的意图是解析XML数据转储到MySQL数据库中。我没有找到有关此XML结构的适当文档。另外,我无法打开该文件,因为它实际上非常大(〜1 GB)。
我曾想过使用一些PHP脚本来解析它,但是我对要进行的XML结构一无所知。因此,如果有人已经使用PHP解析了MySQL(或对解析任何工具有想法),请分享详细信息。如果PHP中没有任何内容,则其他方法也可以。
我只是关注了这篇文章(http://www.igrec.ca/lexicography/installing-a-local-copy-of-wiktionary-mysql/),但是它没有成功.. :(如果有人在此方面取得了成功过程中,请提供帮助。
可以在PHP中通过对流进行XMLReader
操作来解析这些文件。您拥有的文件的结构是示例性的(查看大约前3000个元素):compress.bzip2://
\-mediawiki (1)
|-siteinfo (1)
| |-sitename (1)
| |-base (1)
| |-generator (1)
| |-case (1)
| \-namespaces (1)
| \-namespace (40)
\-page (196)
|-title (196)
|-ns (196)
|-id (196)
|-restrictions (2)
|-revision (196)
| |-id (196)
| |-parentid (194)
| |-timestamp (196)
| |-contributor (196)
| | |-username (182)
| | |-id (182)
| | \-ip (14)
| |-comment (183)
| |-text (195)
| |-sha1 (195)
| |-model (195)
| |-format (195)
| \-minor (99)
\-redirect (5)
该文件本身稍大,因此需要花费很多时间来处理。或者,不对XML转储进行操作,而仅通过mysql
命令行工具导入SQL转储。该站点上也提供SQL转储,请参见英语Wiktionary的所有转储格式:
总体文件较小,包含66 849 000个元素:
\-mediawiki (1)
|-siteinfo (1)
| |-sitename (1)
| |-base (1)
| |-generator (1)
| |-case (1)
| \-namespaces (1)
| \-namespace (40)
\-page (3993913)
|-title (3993913)
|-ns (3993913)
|-id (3993913)
|-restrictions (552)
|-revision (3993913)
| |-id (3993913)
| |-parentid (3572237)
| |-timestamp (3993913)
| |-contributor (3993913)
| | |-username (3982087)
| | |-id (3982087)
| | \-ip (11824)
| |-comment (3917241)
| |-text (3993913)
| |-sha1 (3993913)
| |-model (3993913)
| |-format (3993913)
| \-minor (3384811)
|-redirect (27340)
\-DiscussionThreading (4698)
|-ThreadSubject (4698)
|-ThreadPage (4698)
|-ThreadID (4698)
|-ThreadAuthor (4698)
|-ThreadEditStatus (4698)
|-ThreadType (4698)
|-ThreadSignature (4698)
|-ThreadParent (3605)
|-ThreadAncestor (3605)
\-ThreadSummaryPage (11)
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句