提取维基百科信息框数据

淫荡的

我想从Wikipedia信息框中提取数据,并遇到JavaWikipedia信息框提取中的代码,该代码提出了使用Java做到这一点的方法。我不像使用Python那样方便使用Java,所以我在eclipse中将wikixmlj-r43.jar与代码一起使用:

import edu.jhu.nlp.wikipedia.*;
public class InfoboxParser {

    public static void main(String[] args) throws Exception{
        WikiXMLParser parser = WikiXMLParserFactory.getSAXParser("/home/siddhartha/Documents/wiki/enwiki-latest-pages-articles.xml");
        parser.setPageCallback(new PageCallbackHandler() {
            public void process(WikiPage page) {
                InfoBox infobox=page.getInfoBox();
                //do something with info box
            }
        });
        parser.parse();
    }

}

我收到以下错误:

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/tools/bzip2/CBZip2InputStream
    at edu.jhu.nlp.wikipedia.WikiXMLParserFactory.getSAXParser(WikiXMLParserFactory.java:15)
    at parser.InfoboxParser.main(InfoboxParser.java:7)
Caused by: java.lang.ClassNotFoundException: org.apache.tools.bzip2.CBZip2InputStream
    at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
    at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
    at java.security.AccessController.doPrivileged(Native Method)
    at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:308)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:358)
    ... 2 more

我在eclipse中的属性> Java构建路径>库下添加了JAR。我得到的是它找不到CBZip2InputStream类。

请帮忙。

拉贾塞卡·穆图萨米
    Response res = Jsoup.connect("http://en.wikipedia.org/wiki/Carbon")
            .execute();

    String html = res.body();

    Document doc = Jsoup.parseBodyFragment(html);
    Element body = doc.body();
    Elements tables = body.getElementsByTag("table");// hasClass("infobox bordered");

    for (Element table : tables) {

        if (table.className().equalsIgnoreCase("infobox bordered")) {
            System.out.println(table.outerHtml());
            break;
        }

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

维基百科API信息框

来自分类Dev

维基百科信息框-故障匹配模式

来自分类Dev

维基百科如何呈现信息框

来自分类Dev

维基百科信息框-故障匹配模式

来自分类Dev

抓取维基百科信息框地理 vcard

来自分类Dev

从维基百科获取数据

来自分类Dev

如何整理数据框中的数据(维基百科内部链接)?

来自分类Dev

维基百科API缺少信息的问题

来自分类Dev

提取维基百科中的所有城市

来自分类Dev

维基百科提取器-摆脱文本标题

来自分类Dev

维基百科提取器产生空文件

来自分类Dev

Javascript 维基百科摘要提取错误

来自分类Dev

用R刮擦维基百科以创建列表和数据框

来自分类Dev

用R刮擦维基百科以创建列表和数据框

来自分类Dev

从维基百科页面解析OpenURL数据

来自分类Dev

如何输出简单的维基百科行数据?

来自分类Dev

从维基百科 api 中获取响应数据

来自分类Dev

如何从希伯来语维基百科获取数据?

来自分类Dev

从维基百科页面获取坐标

来自分类Dev

从维基百科获取链接

来自分类Dev

维基百科的JAVA API

来自分类Dev

网站的维基百科模板

来自分类Dev

维基百科的Python API

来自分类Dev

使用API搜索维基百科

来自分类Dev

获取维基百科文章摘要

来自分类Dev

刮维基百科表

来自分类Dev

发送请求到维基百科

来自分类Dev

获取维基百科API

来自分类Dev

从维基百科获取标题