사용자 i
가 트윗을 리트 윗 할지 예측하는 분류기를 만들고 싶습니다 j
.
데이터 세트는 방대하며 1 억 6 천만 개의 트윗을 포함합니다. 각 트윗은 일부 메타 데이터와 함께 제공됩니다 (예 : 리트 윗이 트윗 사용자를 따라가는 방식).
단일 트윗에 대한 텍스트 토큰은 BERT ID의 정렬 된 목록입니다. 트윗을 임베딩하려면 ID 만 사용하면됩니다 (텍스트가 아님).
예측을 수행하기 위해 BERT를 미세 조정할 수 있습니까? 그렇다면, 세부 조정 방법을 배우기 위해 어떤 과정 / 소스를 권장합니까? (저는 초보자입니다)
나는 예측이 확률이어야한다고 덧붙여 야한다.
가능하지 않다면 임베딩을 다시 텍스트로 변환 한 다음 훈련 할 임의의 분류기를 사용할 생각입니다.
BERT를 미세 조정할 수 있으며 BERT를 사용하여 리트 윗 예측을 수행 할 수 있지만 사용자 i 가 tweet j 를 리트 윗 할지 예측하려면 더 많은 아키텍처가 필요합니다 .
여기 내 머리 꼭대기에있는 건축물이 있습니다.
높은 수준에서 :
이 아키텍처를 항목별로 분류 해 보겠습니다.
사용자 i 의 임베딩을 생성하려면 사용자 에 대한 모든 기능을 수용하고 조밀 한 벡터를 생성하는 일종의 신경망을 생성해야합니다. 이 부분은 아키텍처에서 가장 어려운 구성 요소입니다. 이 영역은 내 조타실이 아니지만 "사용자 관심도 삽입"에 대한 Google의 빠른 검색은 StarSpace 라는 알고리즘에 대한이 연구 논문을 표시합니다 . "사용자 행동에 따라 매우 유익한 사용자 임베딩을 얻을"수 있다고 제안합니다.
tweet j 의 임베딩을 생성하려면 토큰을 가져와 벡터를 생성하는 모든 유형의 신경망을 사용할 수 있습니다. 2018 년 이전의 연구에서는 LSTM 또는 CNN을 사용하여 벡터를 생성 할 것을 제안했을 것입니다. 그러나 BERT (귀하의 게시물에서 언급했듯이)는 현재 최신 기술입니다. 텍스트 (또는 텍스트 인덱스)를 받아 각 토큰에 대한 벡터를 생성합니다. 이러한 토큰 중 하나는 [CLS]
일반적으로 전체 문장의 표현으로 간주되는 앞에 추가 된 토큰이어야합니다. 이 문서 에서는 프로세스에 대한 개념적 개요를 제공합니다. BERT를 미세 조정할 수있는 것은 아키텍처의이 부분입니다. 이 웹 페이지이 단계를 수행하기 위해 PyTorch 및 BERT의 Huggingface 구현을 사용하는 구체적인 코드를 제공합니다 (단계를 수행했으며 보증 할 수 있음). 앞으로는 "BERT 단일 문장 분류"에 대해 Google을 검색하고 싶을 것입니다.
사용자 i 와 tweet j 의 조합을 나타내는 임베딩을 생성하려면 여러 작업 중 하나를 수행 할 수 있습니다. 하나의 벡터로 간단히 연결할 수 있습니다. 따라서 사용자 i 가 M 차원 벡터이고 tweet j 가 N 차원 벡터 인 경우 연결은 (M + N) 차원 벡터를 생성합니다. 또 다른 접근법은 hadamard 곱 (요소 별 곱셈)을 계산하는 것입니다. 이 경우 두 벡터의 차원이 동일해야합니다.
리트 윗 또는 비리 트윗의 최종 분류를 만들려면 조합 벡터를 취하고 단일 값을 생성하는 간단한 NN을 작성하십시오. 여기서는 이진 분류를 수행하고 있으므로 로지스틱 (시그 모이 드) 함수가있는 NN이 적합합니다. 출력을 리트 윗 확률로 해석 할 수 있으므로 0.5 이상의 값은 리트 윗이됩니다. 이진 분류를위한 NN 구축에 대한 기본 세부 정보는 이 웹 페이지 를 참조하십시오 .
이 전체 시스템이 작동하도록하려면 모든 시스템을 종단 간 교육해야합니다 . 즉, 구성 요소를 개별적으로 교육하는 것보다 먼저 모든 조각을 연결하고 교육해야합니다.
입력 데이터 세트는 다음과 같습니다.
user tweet retweet?
---- ----- --------
20 years old, likes sports Great game Y
30 years old, photographer Teen movie was good N
사용자 개인화가없는 더 쉬운 경로를 원한다면 사용자 i 임베딩을 생성하는 구성 요소를 제외하십시오 . BERT를 사용하여 트윗이 사용자와 관계없이 리트 윗되는지 확인하는 모델을 구축 할 수 있습니다. 위에서 언급 한 링크를 다시 따라갈 수 있습니다.
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다