Wikipedia Infobox 데이터 추출

대담한

나는 wikipedia infobox에서 데이터를 추출하고 Java 로 수행하는 방법을 제안하는 Java의 Wikipedia infobox 추출 코드를 발견했습니다 . 나는 파이썬과 함께 자바와 함께 편리하지 않으므로 이클립스에서 wikixmlj-r43.jar을 코드와 함께 사용하고 있습니다.

import edu.jhu.nlp.wikipedia.*;
public class InfoboxParser {

    public static void main(String[] args) throws Exception{
        WikiXMLParser parser = WikiXMLParserFactory.getSAXParser("/home/siddhartha/Documents/wiki/enwiki-latest-pages-articles.xml");
        parser.setPageCallback(new PageCallbackHandler() {
            public void process(WikiPage page) {
                InfoBox infobox=page.getInfoBox();
                //do something with info box
            }
        });
        parser.parse();
    }

}

다음과 같은 오류가 발생합니다.

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/tools/bzip2/CBZip2InputStream
    at edu.jhu.nlp.wikipedia.WikiXMLParserFactory.getSAXParser(WikiXMLParserFactory.java:15)
    at parser.InfoboxParser.main(InfoboxParser.java:7)
Caused by: java.lang.ClassNotFoundException: org.apache.tools.bzip2.CBZip2InputStream
    at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
    at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
    at java.security.AccessController.doPrivileged(Native Method)
    at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:308)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:358)
    ... 2 more

속성> Java 빌드 경로> 라이브러리 아래 이클립스에 JAR을 추가했습니다. 내가 얻는 것은 CBZip2InputStream 클래스를 찾을 수 없다는 것입니다.

도와주세요.

라 자세 카르 무투 사미
    Response res = Jsoup.connect("http://en.wikipedia.org/wiki/Carbon")
            .execute();

    String html = res.body();

    Document doc = Jsoup.parseBodyFragment(html);
    Element body = doc.body();
    Elements tables = body.getElementsByTag("table");// hasClass("infobox bordered");

    for (Element table : tables) {

        if (table.className().equalsIgnoreCase("infobox bordered")) {
            System.out.println(table.outerHtml());
            break;
        }

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

분류에서Dev

Wikipedia API에서 테이블 데이터 추출

분류에서Dev

Wikipedia에서 사람 날짜 데이터 추출

분류에서Dev

Javascript는 Wikipedia API에서 데이터를 추출합니다.

분류에서Dev

Wikipedia JSONP-페이지 ID 추출

분류에서Dev

Wikipedia Infobox-문제 일치 패턴

분류에서Dev

DBPedia를 사용하여 Wikipedia 정보 상자 데이터를 추출하는 SPARQL 쿼리

분류에서Dev

R의 wikipedia에서 특정 테이블 추출

분류에서Dev

Wikipedia 스크레이퍼 기사 목록을 찾아 데이터 프레임 Python에 추가

분류에서Dev

Javascript Wikipedia 요약 추출 오류

분류에서Dev

HtmlAgilityPack 데이터 추출

분류에서Dev

jansson JSON 데이터 추출

분류에서Dev

데이터 추출 방법

분류에서Dev

Wikipedia에서 데이터 가져 오기

분류에서Dev

사이트에서 데이터 추출

분류에서Dev

행 r 사이의 데이터 추출

분류에서Dev

이중 백업 데이터 추출

분류에서Dev

Wikipedia 페이지에서 테이블 데이터 스크랩

분류에서Dev

RavenDB에서 메타 데이터 추출

분류에서Dev

Bloomberg에서 재무 데이터 추출

분류에서Dev

UIPath에서 PDF로 데이터 추출

분류에서Dev

Yahoo Finance에서 데이터 추출

분류에서Dev

R SurvFit에서 데이터 추출

분류에서Dev

Python 3에서 HTML 데이터 추출

분류에서Dev

구분 된 데이터 추출

분류에서Dev

축구 데이터 추출 시도

분류에서Dev

Outlook에서 데이터 추출

분류에서Dev

Pandas Dataframe에서 월 데이터 추출

분류에서Dev

txt 파일에서 데이터 추출

분류에서Dev

Selenium 및 VBA로 데이터 추출