Huggingface Bert 토크 나이저 어휘에 추가 한 단어를 찾을 수 없습니다.

Jagadish Vishwanatham

에 새로운 단어를 추가하려고했습니다 Bert tokenizer vocab. 어휘의 길이가 늘어나는 것을 보지만 어휘에서 새로 추가 된 단어를 찾을 수 없습니다.

tokenizer.add_tokens(['covid', 'wuhan'])

v = tokenizer.get_vocab()

print(len(v))
'covid' in tokenizer.vocab

산출:

30524

False
Cronoik

tokenizer.vocab및로 두 가지 다른 것을 호출 하고 tokenizer.get_vocab()있습니다. 첫 번째는 추가 된 토큰이없는 기본 어휘를 포함하고 다른 하나는 추가 된 토큰이있는 기본 어휘를 포함합니다.

from transformers import BertTokenizer

t = BertTokenizer.from_pretrained('bert-base-uncased')

print(len(t.vocab))
print(len(t.get_vocab()))
print(t.get_added_vocab())
t.add_tokens(['covid'])
print(len(t.vocab))
print(len(t.get_vocab()))
print(t.get_added_vocab())

산출:

30522
30522
{}
30522
30523
{'covid': 30522}

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

분류에서Dev

Huggingface의 BERT 토크 나이저가 패드 토큰을 추가하지 않음

분류에서Dev

GPU에서 Huggingface Bert 토크 나이저 실행

분류에서Dev

Sphinx-fr, cs 등 언어에 대한 토크 나이저가 없습니다.

분류에서Dev

다른 페이지 [Django 3.0]에 대한 링크를 어떻게 추가합니까? 역방향을 찾을 수 없습니다.

분류에서Dev

두 가지 다른 토큰 화에 대한 정렬을 어떻게 얻을 수 있습니까? (예 : BERT 대 spaCy)

분류에서Dev

Python 오류 : PATH에 디렉토리를 추가 한 후에도 모듈을 찾을 수 없습니다.

분류에서Dev

PHPUnit이 경로를 찾을 수 없습니다. PhpStorm에서 추가 한 추가 폴더

분류에서Dev

외부 저장소 관리 권한을 추가 한 후 Google 스토어에 APK를 업로드 할 수 없습니다.

분류에서Dev

프롤로그 어휘 분석기가 오류를 찾을 수 없습니다.

분류에서Dev

16.04로 업그레이드 한 후 대시에서 "추가 드라이버"를 찾을 수 없습니다.

분류에서Dev

Spring-Boot Intro에 이어 "적합한 메인 클래스를 찾을 수 없습니다. 'mainClass'속성을 추가하십시오."

분류에서Dev

특별한 웹 페이지가 어떤 요소도 찾을 수 없습니다

분류에서Dev

Spring Boot에서 Solr 필드에 대한 토크 나이저를 어떻게 설정할 수 있습니까?

분류에서Dev

사전 훈련 된 BERT 토크 나이저를 저장할 이유가 있습니까?

분류에서Dev

쉘 스크립트-이 'if'에 대한 'fi'를 찾을 수 없습니다.

분류에서Dev

BERT 어휘 [unusedxxx] 토큰 이해 :

분류에서Dev

Jquery 검색 테이블에서 괄호가있는 단어를 찾을 수 없습니다.

분류에서Dev

유형에 대한 이니셜 라이저를 찾을 수 없습니다.

분류에서Dev

SpaCy가 spacy-lookups-data에서 언어 'en'에 대한 lexeme_norm 테이블을 찾을 수 없습니다.

분류에서Dev

PHP-MYSQL-검색에서 '가있는 단어를 찾을 수 없습니다.

분류에서Dev

내가 생성 한 AWS EC2 스토리지 디스크를 찾을 수 없습니다.

분류에서Dev

내가 생성 한 AWS EC2 스토리지 디스크를 찾을 수 없습니다.

분류에서Dev

저장소 계정이 없습니다. 함수 앱에 대한 참조를 찾을 수 없습니다.

분류에서Dev

hello는 코어 스냅을 찾을 수 없습니다. 해당 파일이나 디렉토리가 없습니다.

분류에서Dev

Ruby에 이미지와 리소스를 추가 한 후 책을 저장할 수 없습니다.

분류에서Dev

DataBinderMapperImpl이 ActivityLoginBinding에 대한 기호를 찾을 수 없습니다.

분류에서Dev

QPixmap에 대한 이미지를 찾을 수 없습니다.

분류에서Dev

함수에 대해 어휘 범위 별칭을 정의하는 편리한 방법을 찾고 있습니다.

분류에서Dev

c # itextsharp, 스티커 메모를 추가하기위한 위치와 함께 페이지에서 청크가 아닌 단어를 찾습니다.

Related 관련 기사

  1. 1

    Huggingface의 BERT 토크 나이저가 패드 토큰을 추가하지 않음

  2. 2

    GPU에서 Huggingface Bert 토크 나이저 실행

  3. 3

    Sphinx-fr, cs 등 언어에 대한 토크 나이저가 없습니다.

  4. 4

    다른 페이지 [Django 3.0]에 대한 링크를 어떻게 추가합니까? 역방향을 찾을 수 없습니다.

  5. 5

    두 가지 다른 토큰 화에 대한 정렬을 어떻게 얻을 수 있습니까? (예 : BERT 대 spaCy)

  6. 6

    Python 오류 : PATH에 디렉토리를 추가 한 후에도 모듈을 찾을 수 없습니다.

  7. 7

    PHPUnit이 경로를 찾을 수 없습니다. PhpStorm에서 추가 한 추가 폴더

  8. 8

    외부 저장소 관리 권한을 추가 한 후 Google 스토어에 APK를 업로드 할 수 없습니다.

  9. 9

    프롤로그 어휘 분석기가 오류를 찾을 수 없습니다.

  10. 10

    16.04로 업그레이드 한 후 대시에서 "추가 드라이버"를 찾을 수 없습니다.

  11. 11

    Spring-Boot Intro에 이어 "적합한 메인 클래스를 찾을 수 없습니다. 'mainClass'속성을 추가하십시오."

  12. 12

    특별한 웹 페이지가 어떤 요소도 찾을 수 없습니다

  13. 13

    Spring Boot에서 Solr 필드에 대한 토크 나이저를 어떻게 설정할 수 있습니까?

  14. 14

    사전 훈련 된 BERT 토크 나이저를 저장할 이유가 있습니까?

  15. 15

    쉘 스크립트-이 'if'에 대한 'fi'를 찾을 수 없습니다.

  16. 16

    BERT 어휘 [unusedxxx] 토큰 이해 :

  17. 17

    Jquery 검색 테이블에서 괄호가있는 단어를 찾을 수 없습니다.

  18. 18

    유형에 대한 이니셜 라이저를 찾을 수 없습니다.

  19. 19

    SpaCy가 spacy-lookups-data에서 언어 'en'에 대한 lexeme_norm 테이블을 찾을 수 없습니다.

  20. 20

    PHP-MYSQL-검색에서 '가있는 단어를 찾을 수 없습니다.

  21. 21

    내가 생성 한 AWS EC2 스토리지 디스크를 찾을 수 없습니다.

  22. 22

    내가 생성 한 AWS EC2 스토리지 디스크를 찾을 수 없습니다.

  23. 23

    저장소 계정이 없습니다. 함수 앱에 대한 참조를 찾을 수 없습니다.

  24. 24

    hello는 코어 스냅을 찾을 수 없습니다. 해당 파일이나 디렉토리가 없습니다.

  25. 25

    Ruby에 이미지와 리소스를 추가 한 후 책을 저장할 수 없습니다.

  26. 26

    DataBinderMapperImpl이 ActivityLoginBinding에 대한 기호를 찾을 수 없습니다.

  27. 27

    QPixmap에 대한 이미지를 찾을 수 없습니다.

  28. 28

    함수에 대해 어휘 범위 별칭을 정의하는 편리한 방법을 찾고 있습니다.

  29. 29

    c # itextsharp, 스티커 메모를 추가하기위한 위치와 함께 페이지에서 청크가 아닌 단어를 찾습니다.

뜨겁다태그

보관