리트 윗 예측을 위해 BERT를 미세 조정할 수 있습니까?

debugcn 에 게시 Dev

칼뱅

사용자 i가 트윗을 리트 윗 할지 예측하는 분류기를 만들고 싶습니다 j.

데이터 세트는 방대하며 1 억 6 천만 개의 트윗을 포함합니다. 각 트윗은 일부 메타 데이터와 함께 제공됩니다 (예 : 리트 윗이 트윗 사용자를 따라가는 방식).

단일 트윗에 대한 텍스트 토큰은 BERT ID의 정렬 된 목록입니다. 트윗을 임베딩하려면 ID 만 사용하면됩니다 (텍스트가 아님).

예측을 수행하기 위해 BERT를 미세 조정할 수 있습니까? 그렇다면, 세부 조정 방법을 배우기 위해 어떤 과정 / 소스를 권장합니까? (저는 초보자입니다)

나는 예측이 확률이어야한다고 덧붙여 야한다.

가능하지 않다면 임베딩을 다시 텍스트로 변환 한 다음 훈련 할 임의의 분류기를 사용할 생각입니다.

stackoverflowuser2010

BERT를 미세 조정할 수 있으며 BERT를 사용하여 리트 윗 예측을 수행 할 수 있지만 사용자 i 가 tweet j 를 리트 윗 할지 예측하려면 더 많은 아키텍처가 필요합니다 .

여기 내 머리 꼭대기에있는 건축물이 있습니다.

높은 수준에서 :

사용자 i 의 조밀 한 벡터 표현 (임베딩)을 만듭니다 (예 : 스포츠와 같은 사용자의 관심사에 대한 내용 포함).
트윗 j 임베딩을 만듭니다 .
연결 또는 hadamard 제품과 같이 처음 두 임베딩 조합의 임베딩을 만듭니다.
이 임베딩을 이진 분류를 수행하는 NN을 통해 공급하여 리트 윗 또는 비 리트 윗을 예측합니다.

이 아키텍처를 항목별로 분류 해 보겠습니다.

사용자 i 의 임베딩을 생성하려면 사용자 에 대한 모든 기능을 수용하고 조밀 한 벡터를 생성하는 일종의 신경망을 생성해야합니다. 이 부분은 아키텍처에서 가장 어려운 구성 요소입니다. 이 영역은 내 조타실이 아니지만 "사용자 관심도 삽입"에 대한 Google의 빠른 검색은 StarSpace 라는 알고리즘에 대한이 연구 논문을 표시합니다 . "사용자 행동에 따라 매우 유익한 사용자 임베딩을 얻을"수 있다고 제안합니다.

tweet j 의 임베딩을 생성하려면 토큰을 가져와 벡터를 생성하는 모든 유형의 신경망을 사용할 수 있습니다. 2018 년 이전의 연구에서는 LSTM 또는 CNN을 사용하여 벡터를 생성 할 것을 제안했을 것입니다. 그러나 BERT (귀하의 게시물에서 언급했듯이)는 현재 최신 기술입니다. 텍스트 (또는 텍스트 인덱스)를 받아 각 토큰에 대한 벡터를 생성합니다. 이러한 토큰 중 하나는 [CLS]일반적으로 전체 문장의 표현으로 간주되는 앞에 추가 된 토큰이어야합니다. 이 문서 에서는 프로세스에 대한 개념적 개요를 제공합니다. BERT를 미세 조정할 수있는 것은 아키텍처의이 부분입니다. 이 웹 페이지이 단계를 수행하기 위해 PyTorch 및 BERT의 Huggingface 구현을 사용하는 구체적인 코드를 제공합니다 (단계를 수행했으며 보증 할 수 있음). 앞으로는 "BERT 단일 문장 분류"에 대해 Google을 검색하고 싶을 것입니다.

사용자 i 와 tweet j 의 조합을 나타내는 임베딩을 생성하려면 여러 작업 중 하나를 수행 할 수 있습니다. 하나의 벡터로 간단히 연결할 수 있습니다. 따라서 사용자 i 가 M 차원 벡터이고 tweet j 가 N 차원 벡터 인 경우 연결은 (M + N) 차원 벡터를 생성합니다. 또 다른 접근법은 hadamard 곱 (요소 별 곱셈)을 계산하는 것입니다. 이 경우 두 벡터의 차원이 동일해야합니다.

리트 윗 또는 비리 트윗의 최종 분류를 만들려면 조합 벡터를 취하고 단일 값을 생성하는 간단한 NN을 작성하십시오. 여기서는 이진 분류를 수행하고 있으므로 로지스틱 (시그 모이 드) 함수가있는 NN이 적합합니다. 출력을 리트 윗 확률로 해석 할 수 있으므로 0.5 이상의 값은 리트 윗이됩니다. 이진 분류를위한 NN 구축에 대한 기본 세부 정보는 이 웹 페이지 를 참조하십시오 .

이 전체 시스템이 작동하도록하려면 모든 시스템을 종단 간 교육해야합니다 . 즉, 구성 요소를 개별적으로 교육하는 것보다 먼저 모든 조각을 연결하고 교육해야합니다.

입력 데이터 세트는 다음과 같습니다.

user                          tweet                  retweet?
----                          -----                  --------
20 years old, likes sports    Great game             Y
30 years old, photographer    Teen movie was good    N

사용자 개인화가없는 더 쉬운 경로를 원한다면 사용자 i 임베딩을 생성하는 구성 요소를 제외하십시오 . BERT를 사용하여 트윗이 사용자와 관계없이 리트 윗되는지 확인하는 모델을 구축 할 수 있습니다. 위에서 언급 한 링크를 다시 따라갈 수 있습니다.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-04-2

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

리트 윗 예측을 위해 BERT를 미세 조정할 수 있습니까?

리트 윗 예측을 위해 BERT를 미세 조정할 수 있습니까?

트위터 스트리밍 엔드 포인트에서 추가 정보를 얻을 수 있습니까 (예 : 작성자, 리트 윗 수)?

휴식을 통해 트윗 할 수 있습니까?

twython을 통해 다른 계정의 appkey / secret key를 사용하여 트윗 할 수 있습니까?

트위터 API를 사용하여 일주일 전에 트윗을 검색 할 수 있습니까?

행렬 분해를 위해 배열을 미리 할당 할 수 있습니까?

트위터 / 페이스 북은 어떤 앱에서 트윗 / 상태 / 이미지를 공유 할 수 있는지 어떻게 알 수 있습니까?

내 트윗의 이미지를 누가 클릭 할 수있게 만들 수 있습니까?

Kitti 데이터 세트에서 깊이 예측을 위해 조밀 한 실측 이미지를 얻는 방법은 무엇입니까?

tweepy로 mp4 파일을 트윗 할 수 있습니까?

이미지 데이터 세트를 예측할 수 없습니다.

Twitter Streaming API를 사용하여 이전 트윗을 얻을 수 있습니까?

사용자의 모든 트윗을 파싱 할 수 있습니까?

트윗에 로컬 저장소 값을로드 할 수 있습니까?

텍스트 완성을 미세 조정하고 메시지를 표시 할 수있는 GPT-2 구현이 있습니까?

두 날짜 사이에 계정이 리트 윗 한 목록을 어떻게 얻을 수 있습니까?

더 큰 문자열의 하위 섹션을 일치시키기 위해 부정적인 미리보기를 어떻게 사용할 수 있습니까?

CPU 비용을 뺀 메모리 압력을 시뮬레이션하기 위해 프로세스 ( '스트레스')를 일시 중단 할 수 있습니까?

트위터 게시물의 설치를 통해 모바일 앱의 콘텐츠로 딥 링크하려면 어떻게해야합니까? 트윗으로 인한 설치를 추적 할 수있는 방법이 있습니까?

힘내, 미래를 위해 변경 사항을 보존 할 수 있습니까?

링크. 큰 데이터 세트에 대한 조인을 피하기 위해 .includes를 연결할 수 있습니까?

특정 트윗에 대해 100 개 이상의 리트 윗을 얻는 방법은 무엇입니까?

특정 미디어 쿼리가 적용되는 것을 알기 위해 JS 용 CSS에서 데이터를 설정할 수 있습니까?

특정 미디어 쿼리가 적용되는 것을 알기 위해 JS 용 CSS에서 데이터를 설정할 수 있습니까?

연구를 위해 스캔 한 이미지와 카메라 이미지 데이터 세트를 어떻게 찾을 수 있습니까?

보너스 기능으로 프로필을 본 사람보기-웹 사이트에 대해 리트 윗하면 잠금 해제 할 수 있습니다.

'이 응용 프로그램은 당신을 위해 트윗을 게시 할 수 있습니다'이것을 달성하는 방법?

Twitter API : 검색어 및 미리 정해진 시간 범위 + 트윗 특성을 기반으로 트윗을 검색하는 방법

삽입 작업을 위해 Comos DB 트리거를 제한 할 수 있습니까?

비디오 레슨을 관리하기 위해 어떤 소프트웨어를 사용할 수 있습니까?