를 사용 tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', do_lower_case=True)
하고 있으며 새 모델을 미세 조정하는 동안 해당 토크 나이저로 수행하는 모든 작업은 표준입니다.tokenizer.encode()
나는 사람들이 모델을 저장하는 동시에 그 토크 나이저를 저장하는 대부분의 장소에서 보았지만, 수정되지 않는 즉시 사용 가능한 토크 나이저처럼 보이기 때문에 저장해야하는 이유가 명확하지 않습니다. 훈련 중에 어떤 식 으로든.
귀하의 경우 토크 나이저를 사용하여 텍스트 ( encode()
) 를 토큰 화하는 경우 토크 나이저를 저장할 필요가 없습니다. 항상 사전 훈련 된 모델의 토크 나이저를로드 할 수 있습니다.
그러나 때로는 사전 훈련 된 모델의 토크 나이저를 사용한 다음 해당 어휘에 새 토큰을 추가하거나 '[CLS]', '[MASK]', '[SEP]', '[와 같은 특수 기호를 재정의 할 수 있습니다. PAD] '또는 그러한 특수 토큰. 이 경우 토크 나이저를 변경 했으므로 나중에 사용할 수 있도록 토크 나이저를 저장하는 것이 유용합니다.
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다