나는 매우 좋은 결과를 가진 문장 분류를 위해 huggingface BERT를 사용했지만 이제는 다른 사용 사례에 적용하고 싶습니다. 아래는 내가 염두에두고있는 데이터 세트의 종류 (정확하지 않음)입니다.
set_df.head()
sentence subject object
0 my big red dog has a big fat bone my big red dog big fat bone
1 The Queen of Spades lives in a Castle The Queen of spades lives in a castle
이 세 열이있는 기차 데이터 세트가 있으며 테스트 문장을 구성 요소로 양분 할 수 있기를 바랍니다. BERT에서 사전 훈련 된 여러 모델을 살펴 봤지만 성공하지 못했습니다. 잘못된 도구를 사용하고 있습니까?
더 나은 질문은 작업을 구성하는 방법을 구체화하는 것입니다. 실제로 구성 요소가 겹치지 않는 경우 BertForTokenClassification
. 기본적으로, 당신의 레이블을 예측하려고하는 각각의 토큰을 귀하의 경우처럼 하나 뭔가를 no label
, subject
또는 object
.
이러한 종류의 작업에 대한 좋은 예 는 일반적으로 유사한 방식으로 구성되는 NER (Named Entity Recognition) 입니다. 특히 HuggingFace의 변환기 저장소에는 입력 형식을 지정하는 방법과 적절한 훈련 방법에 대한 영감을 줄 수 있는 매우 광범위한 예제가 있습니다.
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다