Wikipedia 토케 나이저 Lucene

RalfB

Lucene으로 Wikipedia 마크 업을 구문 분석하려고 시도한 결과이 작은 프로젝트를 찾았습니다.

http://lucene.apache.org/core/3_0_3/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html

(적절한 웹 사이트를 검색 할 수 없습니다. 죄송합니다)

다음은이 라이브러리를 순환하는 코드 예제의 짧은 버전입니다. 실행할 때 null이 아닌 WikipediaTokenizer가 발생하지만 incrementToken ()을 실행하자마자 null 포인터 예외가 발생합니다. 어떤 아이디어?

import org.apache.log4j.Logger;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.wikipedia.WikipediaTokenizer;

import java.io.StringReader;

public class WikipediaTokenizerTest {
  static Logger logger = Logger.getLogger(WikipediaTokenizerTest.class);
  protected static final String LINK_PHRASES = "click [[link here again]] click     [http://lucene.apache.org here again] [[Category:a b c d]]";

public WikipediaTokenizer testSimple() throws Exception {
    String text = "This is a [[Category:foo]]";
    return new WikipediaTokenizer(new StringReader(text));
}
public static void main(String[] args){
    WikipediaTokenizerTest wtt = new WikipediaTokenizerTest();

    try {
        WikipediaTokenizer x = wtt.testSimple();

        logger.info(x.hasAttributes());

        while (x.incrementToken() == true) {
            logger.info("Token found!");
        }

    } catch(Exception e){
        logger.error("Exception while tokenizing Wiki Text: " + e.getMessage());
    }

}

Maven (pom.xml)에 다음 종속성을 사용합니다.

<dependency>
        <groupId>org.apache.lucene</groupId>
        <artifactId>lucene-core</artifactId>
        <version>4.2.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.lucene</groupId>
        <artifactId>lucene-analyzers-common</artifactId>
        <version>4.2.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.lucene</groupId>
        <artifactId>lucene-queryparser</artifactId>
        <version>4.2.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.lucene</groupId>
        <artifactId>lucene-wikipedia</artifactId>
        <version>3.0.3</version>
    </dependency>
    <dependency>
        <groupId>org.apache.lucene</groupId>
        <artifactId>lucene-analyzers</artifactId>
        <version>3.1.0</version>
    </dependency>

어떤 도움을 주시면 감사하겠습니다! 누군가가 더 나은 라이브러리 또는 솔루션을 가지고 있다면 알려주십시오.

펨토 Rgon

lucene 버전을 믹스 앤 매치 할 수 없습니다. 버전 4.2.1을 사용하고 있습니다. 버전 3.1.0 또는 3.0.3과 호환되지 않습니다. 이러한 종속성을 제거해야합니다.

WikipediaTokenizer 분석기 공통에 포함됩니다.


또한에서 요구하는 계약을 이행하지 않습니다 TokenStream. TokenStream API의 워크 플로우가 설명 된 TokenStream문서를 참조하십시오 . 특히를 호출하기 전에를 호출 incrementToken()해야합니다 reset(). 당신은 정말도해야 end()하고 close()그것.

WikipediaTokenizer x = wtt.testSimple();
logger.info(x.hasAttributes());
x.reset();
while (x.incrementToken() == true) {
    logger.info("Token found!");
}
x.end();
x.close();

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

분류에서Dev

Lucene / Solr에서 내 사용자 정의 토크 나이저를 올바르게 구현하는 방법은 무엇입니까?

분류에서Dev

Wikipedia 토큰 획득 문제

분류에서Dev

Lucene을 .NET 데스크탑 애플리케이션에 통합

분류에서Dev

Huggingface 저장 토크 나이저

분류에서Dev

Wikipedia Infobox 데이터 추출

분류에서Dev

Shingle 필터로 생성 된 토큰이 쿼리에 포함되지 않음-Lucene

분류에서Dev

spacy 문장 토크 나이저 범위

분류에서Dev

Python에서 토크 나이저 구현

분류에서Dev

토크 나이저 재 할당 촉진

분류에서Dev

Fletcher32 : Wikipedia의 360 제한이 잘못 되었나요?

분류에서Dev

여러 애플리케이션이 동일한 Lucene 색인을 공유 할 수 있습니까?

분류에서Dev

리팩토링 스위치 케이스

분류에서Dev

마 젠토 카멜 케이스 변환

분류에서Dev

Wikipedia 페이지의 엔티티 식별

분류에서Dev

웹 사이트 용 Wikipedia 템플릿

분류에서Dev

Wikipedia, badtoken의 페이지 편집

분류에서Dev

wikipedia 테이블에서 URL 스크랩

분류에서Dev

Wikipedia JSONP-페이지 ID 추출

분류에서Dev

Wikipedia 페이지보기 통계 얻기

분류에서Dev

Wikipedia에서 데이터 가져 오기

분류에서Dev

Prolog S-expression 토크 나이저가 기본 케이스에서 실패하는 이유는 무엇입니까?

분류에서Dev

Elasticsearch에서 이메일 토크 나이저 사용

분류에서Dev

스케일링 된 매개 변수가 다른 토치 옵티 마이저

분류에서Dev

BERT 토크 나이저 및 모델 다운로드

분류에서Dev

정규식을 토크 나이저로 사용하십니까?

분류에서Dev

"공백"규칙 만있는 공간 토크 나이저

분류에서Dev

간단한 토크 나이저를 만드는 방법

분류에서Dev

Elasticsearch 토크 나이저 ngram에 선행 / 후행 공백 추가

분류에서Dev

GPU에서 Huggingface Bert 토크 나이저 실행

Related 관련 기사

  1. 1

    Lucene / Solr에서 내 사용자 정의 토크 나이저를 올바르게 구현하는 방법은 무엇입니까?

  2. 2

    Wikipedia 토큰 획득 문제

  3. 3

    Lucene을 .NET 데스크탑 애플리케이션에 통합

  4. 4

    Huggingface 저장 토크 나이저

  5. 5

    Wikipedia Infobox 데이터 추출

  6. 6

    Shingle 필터로 생성 된 토큰이 쿼리에 포함되지 않음-Lucene

  7. 7

    spacy 문장 토크 나이저 범위

  8. 8

    Python에서 토크 나이저 구현

  9. 9

    토크 나이저 재 할당 촉진

  10. 10

    Fletcher32 : Wikipedia의 360 제한이 잘못 되었나요?

  11. 11

    여러 애플리케이션이 동일한 Lucene 색인을 공유 할 수 있습니까?

  12. 12

    리팩토링 스위치 케이스

  13. 13

    마 젠토 카멜 케이스 변환

  14. 14

    Wikipedia 페이지의 엔티티 식별

  15. 15

    웹 사이트 용 Wikipedia 템플릿

  16. 16

    Wikipedia, badtoken의 페이지 편집

  17. 17

    wikipedia 테이블에서 URL 스크랩

  18. 18

    Wikipedia JSONP-페이지 ID 추출

  19. 19

    Wikipedia 페이지보기 통계 얻기

  20. 20

    Wikipedia에서 데이터 가져 오기

  21. 21

    Prolog S-expression 토크 나이저가 기본 케이스에서 실패하는 이유는 무엇입니까?

  22. 22

    Elasticsearch에서 이메일 토크 나이저 사용

  23. 23

    스케일링 된 매개 변수가 다른 토치 옵티 마이저

  24. 24

    BERT 토크 나이저 및 모델 다운로드

  25. 25

    정규식을 토크 나이저로 사용하십니까?

  26. 26

    "공백"규칙 만있는 공간 토크 나이저

  27. 27

    간단한 토크 나이저를 만드는 방법

  28. 28

    Elasticsearch 토크 나이저 ngram에 선행 / 후행 공백 추가

  29. 29

    GPU에서 Huggingface Bert 토크 나이저 실행

뜨겁다태그

보관