Huggingface 저장 토크 나이저

Sachinruk

나중에 인터넷에 액세스 할 필요가없는 컨테이너에서로드 할 수 있도록 토크 나이저를 허깅 페이스에 저장하려고합니다.

BASE_MODEL = "distilbert-base-multilingual-cased"
tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
tokenizer.save_vocabulary("./models/tokenizer/")
tokenizer2 = AutoTokenizer.from_pretrained("./models/tokenizer/")

그러나 마지막 줄은 오류를 제공합니다.

OSError: Can't load config for './models/tokenizer3/'. Make sure that:

- './models/tokenizer3/' is a correct model identifier listed on 'https://huggingface.co/models'

- or './models/tokenizer3/' is the correct path to a directory containing a config.json file

변압기 버전 : 3.1.0

Pytorch의 사전 훈련 된 모델에서 저장된 토크 나이저를로드하는 방법 은 안타깝게도 도움이되지 않았습니다.

편집 1

아래 @ashwin의 답변 덕분에 save_pretrained대신 시도했지만 다음 오류가 발생합니다.

OSError: Can't load config for './models/tokenizer/'. Make sure that:

- './models/tokenizer/' is a correct model identifier listed on 'https://huggingface.co/models'

- or './models/tokenizer/' is the correct path to a directory containing a config.json file

토크 나이저 폴더의 내용은 다음과 같습니다. 여기에 이미지 설명 입력

이름 tokenizer_config.json바꾸려고 시도한 config.json다음 오류가 발생했습니다.

ValueError: Unrecognized model in ./models/tokenizer/. Should have a `model_type` key in its config.json, or contain one of the following strings in its name: retribert, t5, mobilebert, distilbert, albert, camembert, xlm-roberta, pegasus, marian, mbart, bart, reformer, longformer, roberta, flaubert, bert, openai-gpt, gpt2, transfo-xl, xlnet, xlm, ctrl, electra, encoder-decoder
Ashwin Geet D' Sa

save_vocabulary(), 토크 나이저의 어휘 파일 (BPE 토큰 목록) 만 저장합니다.

전체 토크 나이저를 저장하려면 다음을 사용해야합니다. save_pretrained()

따라서 다음과 같이 :

BASE_MODEL = "distilbert-base-multilingual-cased"
tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
tokenizer.save_pretrained("./models/tokenizer/")
tokenizer2 = DistilBertTokenizer.from_pretrained("./models/tokenizer/")

편집하다:

알 수없는 이유로 : 대신

tokenizer2 = AutoTokenizer.from_pretrained("./models/tokenizer/")

사용

tokenizer2 = DistilBertTokenizer.from_pretrained("./models/tokenizer/")

공장.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

분류에서Dev

Pytorch의 사전 훈련 된 모델에서 저장된 토크 나이저를로드하는 방법

분류에서Dev

괄호 안의 NLTK 문장 토크 나이저 예비 문장 조정

분류에서Dev

spacy 문장 토크 나이저 범위

분류에서Dev

BERT 토크 나이저 및 모델 다운로드

분류에서Dev

Roberta 모델에 사용 된 토크 나이저를 이해하기 어려움

분류에서Dev

Huggingface의 BERT 토크 나이저가 패드 토큰을 추가하지 않음

분류에서Dev

정규식을 토크 나이저로 사용하십니까?

분류에서Dev

사전 훈련 된 BERT 토크 나이저를 저장할 이유가 있습니까?

분류에서Dev

Transformers 라이브러리에서 Bert 토크 나이저를 자르는 방법

분류에서Dev

"공백"규칙 만있는 공간 토크 나이저

분류에서Dev

Huggingface Bert 토크 나이저 어휘에 추가 한 단어를 찾을 수 없습니다.

분류에서Dev

간단한 토크 나이저를 만드는 방법

분류에서Dev

Elasticsearch 토크 나이저 ngram에 선행 / 후행 공백 추가

분류에서Dev

GPU에서 Huggingface Bert 토크 나이저 실행

분류에서Dev

Postgresql 전체 텍스트 검색 토크 나이저

분류에서Dev

다른 변수에 대한 토크 나이저 읽기

분류에서Dev

문자열 토크 나이저에서 널 포인터 예외

분류에서Dev

Wikipedia 토케 나이저 Lucene

분류에서Dev

문자열 토크 나이저 (큰 따옴표 및 공백)

분류에서Dev

문자열 용 자바 토크 나이저

분류에서Dev

나만의 토폴로지 저장 : Mininet

분류에서Dev

nltk 문장 토크 나이 저는 AttributeError를 제공합니다.

분류에서Dev

Python에서 토크 나이저 구현

분류에서Dev

FCM 토큰 저장

분류에서Dev

토크 나이저 / 토큰 필드 구축에 도움이 필요합니다

분류에서Dev

Elasticsearch에서 이메일 토크 나이저 사용

분류에서Dev

토크 나이저 재 할당 촉진

분류에서Dev

부스트 토크 나이저 / 문자 구분자

분류에서Dev

Solr에서 여러 토크 나이저 결합

Related 관련 기사

  1. 1

    Pytorch의 사전 훈련 된 모델에서 저장된 토크 나이저를로드하는 방법

  2. 2

    괄호 안의 NLTK 문장 토크 나이저 예비 문장 조정

  3. 3

    spacy 문장 토크 나이저 범위

  4. 4

    BERT 토크 나이저 및 모델 다운로드

  5. 5

    Roberta 모델에 사용 된 토크 나이저를 이해하기 어려움

  6. 6

    Huggingface의 BERT 토크 나이저가 패드 토큰을 추가하지 않음

  7. 7

    정규식을 토크 나이저로 사용하십니까?

  8. 8

    사전 훈련 된 BERT 토크 나이저를 저장할 이유가 있습니까?

  9. 9

    Transformers 라이브러리에서 Bert 토크 나이저를 자르는 방법

  10. 10

    "공백"규칙 만있는 공간 토크 나이저

  11. 11

    Huggingface Bert 토크 나이저 어휘에 추가 한 단어를 찾을 수 없습니다.

  12. 12

    간단한 토크 나이저를 만드는 방법

  13. 13

    Elasticsearch 토크 나이저 ngram에 선행 / 후행 공백 추가

  14. 14

    GPU에서 Huggingface Bert 토크 나이저 실행

  15. 15

    Postgresql 전체 텍스트 검색 토크 나이저

  16. 16

    다른 변수에 대한 토크 나이저 읽기

  17. 17

    문자열 토크 나이저에서 널 포인터 예외

  18. 18

    Wikipedia 토케 나이저 Lucene

  19. 19

    문자열 토크 나이저 (큰 따옴표 및 공백)

  20. 20

    문자열 용 자바 토크 나이저

  21. 21

    나만의 토폴로지 저장 : Mininet

  22. 22

    nltk 문장 토크 나이 저는 AttributeError를 제공합니다.

  23. 23

    Python에서 토크 나이저 구현

  24. 24

    FCM 토큰 저장

  25. 25

    토크 나이저 / 토큰 필드 구축에 도움이 필요합니다

  26. 26

    Elasticsearch에서 이메일 토크 나이저 사용

  27. 27

    토크 나이저 재 할당 촉진

  28. 28

    부스트 토크 나이저 / 문자 구분자

  29. 29

    Solr에서 여러 토크 나이저 결합

뜨겁다태그

보관