에 새로운 단어를 추가하려고했습니다 Bert tokenizer vocab
. 어휘의 길이가 늘어나는 것을 보지만 어휘에서 새로 추가 된 단어를 찾을 수 없습니다.
tokenizer.add_tokens(['covid', 'wuhan'])
v = tokenizer.get_vocab()
print(len(v))
'covid' in tokenizer.vocab
산출:
30524
False
tokenizer.vocab
및로 두 가지 다른 것을 호출 하고 tokenizer.get_vocab()
있습니다. 첫 번째는 추가 된 토큰이없는 기본 어휘를 포함하고 다른 하나는 추가 된 토큰이있는 기본 어휘를 포함합니다.
from transformers import BertTokenizer
t = BertTokenizer.from_pretrained('bert-base-uncased')
print(len(t.vocab))
print(len(t.get_vocab()))
print(t.get_added_vocab())
t.add_tokens(['covid'])
print(len(t.vocab))
print(len(t.get_vocab()))
print(t.get_added_vocab())
산출:
30522
30522
{}
30522
30523
{'covid': 30522}
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다