Stanford CoreNLP 병합 토큰

debugcn 에 게시 Dev

미친 것 같은

강력한 RegexNER를 찾았고 Stanford CoreNLP 의 Superset TokensRegex 입니다.
제목이
"g. Meho Mehic"또는 "gdin. N. Neko"(g. 및 gdin.은 Mr.의 경우 Bosnian의 약어입니다) 와 같이 제목이있는 PERSON의 패턴과 같이 나에게 좋은 결과를 제공해야하는 몇 가지 규칙이 있습니다.

기존 토크 나이저에 문제가 있습니다. 예를 들어 토큰 "g"와 같이 일부 문자열을 두 개의 토큰으로 분리하고 일부는 하나로 분리합니다. 단어 <word>g.</word>와 토큰 "gdin"으로 남습니다. 두 개의 토큰으로 분할됩니다 : <word>gdin</word>및 <word>.</word>.

이로 인해 정규식에 문제가 발생합니다. 단일 토큰 및 다중 토큰 케이스를 처리해야합니다 (두 개의 "아마도 점"에주의), RegexNER 예제 :

( /g\.?|gdin\.?/ /\./? ([{ word:/[A-Z][a-z]*\.?/ }]+) ) PERSON

또한 이로 인해 문장 분할과 관련된 또 다른 문제가 발생합니다. 일부 문장이 잘 인식되지 않아 정규식이 실패합니다 ... 예를 들어 문장에 "gdin"이 포함 된 경우. 두 개로 분할되므로 점이 (존재하지 않는) 문장을 끝냅니다. 지금은 이것을 우회 할 수있었습니다 ssplit.isOneSentence = true.

질문 :

나만의 토크 나이저를 만들어야하며 어떻게해야합니까? ( "gdin"과 같은 일부 토큰을 병합합니다.)
이 문제에 도움이 될 수있는 놓친 설정이 있습니까?

StanfordNLP 도움말

Ok 나는 이것에 대해 잠시 생각했고 실제로 당신의 경우에 대해 꽤 솔직한 것을 생각할 수 있습니다. 할 수있는 한 가지는 토크 나이저의 제목 목록에 "gdin"을 추가하는 것입니다.

토크 나이저 규칙은 edu.stanford.nlp.process.PTBLexer.flex에 있습니다 (741 행 참조).

나는 토크 나이저를 잘 이해하지 못하지만 거기에 직함 목록이 분명히 있으므로 기간이 분리되지 않는 경우 일 것입니다.

물론이를 위해서는 Stanford CoreNLP의 사용자 지정 빌드로 작업해야합니다.

GitHub : https://github.com/stanfordnlp/CoreNLP 에서 전체 코드를 얻을 수 있습니다.

모든 주요 Stanford CoreNLP 클래스로 jar를 빌드하기위한 기본 페이지에 지침이 있습니다. ant 프로세스를 실행하면 PTBLexer.flex를 기반으로 새로운 PTBLexer.java가 자동으로 생성됩니다.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-06-13

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

Stanford CoreNLP 병합 토큰

Stanford CoreNLP 병합 토큰

Stanford CoreNLP는 NullPointerException을 제공합니다.

Stanford CoreNLP 토큰 이해 임의의 구문 일치를위한 Regex 구문

Stanford CoreNLP Conll 출력

Stanford Core NLP는 토큰을 사용합니다.

Stanford CoreNLP TokensRegex의 일치 토큰에서 결과 데이터를 가져 오는 데 사용되는 Annotation 클래스는 무엇입니까?

Stanford Corenlp의 Berkley 파서 교체

중국 모델의 Stanford CoreNLP 정보

Ignore text inside XML elements when parsing text with Stanford CoreNLP

Stanford CoreNLP Server 비활성화 로깅

자체 Stanford CoreNLP 서버 설정 문제 :

Stanford NLP : 구두점 토큰 보관?

Stanford Relation Extractor 사용자 정의 모델은 관계 엔티티의 토큰을 하나만 선택합니다.

Stanford CoreNLP를 사용한 상호 참조 해결

Stanford CoreNLP를 사용하여 URL을 인식하는 방법

Stanford CoreNLP 서버의 JSON 응답에 RelationExtractor 주석이 없음

Stanford Parser 또는 Stanford CoreNLP를 사용하여 명사구의 문법적 관계를 찾는 방법

I want to ignore all other tags except noun and verb tags. is it possible to do it using Stanford corenlp word class?

stanford corenlp : tagger 모델을로드하는 동안 복구 할 수없는 오류

Jython과 함께 CoreNLP를 사용할 때 edu.stanford.nlp.util.ReflectionLoading $ ReflectionLoadingException

토큰으로 구분 된 줄을 병합하려면 Sed

Stanford CoreNLP에서 특정 명사 구에 대한 상호 참조를 해결하는 방법

WebAPI C # 프로젝트의 Stanford.NLP.CoreNLP .Net에서 DefaultNLP 모델을로드하는 중 오류 발생

Stanford CoreNLP가 내 문장을 분할하는 것을 어떻게 막을 수 있습니까?

JavaCC는 토큰 내에서 토큰을 인식합니다.

Stanford NLP를 사용하여 문장 (CoreMap)에서 토큰 (CoreLabel)을 대체하는 방법은 무엇입니까?

큰 말뭉치로 문서 분류를 위해 CoreNLP ColumnDataClassifier 사용

열을 토큰 화 한 다음 결합

왜 토큰을 요구합니까?

두 개의 큰 CSV 파일 병합