계층 적주의 네트워크에서 입력 계층이 나타내는 것은 무엇입니까?

debugcn 에 게시 Dev

Amrnablus

HAN (Hierarchical Attention Network)에 대한 아이디어를 파악하려고합니다. 온라인에서 찾은 대부분의 코드는 https://medium.com/jatana/report-on-text- 와 비슷합니다. 분류 사용 cnn-rnn-han-f0e887214d5f :

embedding_layer=Embedding(len(word_index)+1,EMBEDDING_DIM,weights=[embedding_matrix],
input_length=MAX_SENT_LENGTH,trainable=True)
sentence_input = Input(shape=(MAX_SENT_LENGTH,), dtype='int32', name='input1')
embedded_sequences = embedding_layer(sentence_input)
l_lstm = Bidirectional(LSTM(100))(embedded_sequences)
sentEncoder = Model(sentence_input, l_lstm)

review_input = Input(shape=(MAX_SENTS,MAX_SENT_LENGTH), dtype='int32',  name='input2')
review_encoder = TimeDistributed(sentEncoder)(review_input)
l_lstm_sent = Bidirectional(LSTM(100))(review_encoder)
preds = Dense(len(macronum), activation='softmax')(l_lstm_sent)
model = Model(review_input, preds)

제 질문은 여기에있는 입력 레이어가 무엇을 나타 냅니까? input1이 임베딩 레이어로 래핑 된 문장을 나타내는 것이라고 추측하고 있지만이 경우 input2는 무엇입니까? sentEncoder의 출력입니까? 이 경우 플로트 또는 포함 된 단어의 다른 레이어 인 경우 포함 레이어로 래핑되어야합니다.

오늘

HAN 모델은 계층 구조의 텍스트를 처리합니다. 이미 문장으로 분할 된 문서를 가져옵니다 (그것이의 모양이 인 이유 input2입니다 (MAX_SENTS,MAX_SENT_LENGTH)). 그런 다음 sentEncoder모델을 사용하여 각 문장을 독립적으로 처리하고 (이 때문에의 모양 input1이 (MAX_SENT_LENGTH,)) 마지막으로 인코딩 된 모든 문장을 함께 처리합니다.

따라서 코드에서 전체 모델이 저장 model되고 그 입력 레이어는 input2문장으로 분할 된 문서와 함께 제공되며 그 단어는 정수로 인코딩되어 임베딩 레이어와 호환되도록합니다. 다른 입력 레이어는 sentEncoder내부에서 사용되는 모델에 속합니다 model(사용자가 직접 사용 하지 않음).

review_encoder = TimeDistributed(sentEncoder)(review_input)

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-04-5

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

계층 적주의 네트워크에서 입력 계층이 나타내는 것은 무엇입니까?

계층 적주의 네트워크에서 입력 계층이 나타내는 것은 무엇입니까?

계층화 된 아키텍처의 계층에 Visual Studio 프로젝트를 사용하는 경우 물리적 분리의 이점은 무엇입니까?

스킵 그램 모델에서 은닉층의 행렬 열이 나타내는 것은 무엇입니까?

조각화 된 데이터 그램을 재 조립하는 네트워크 계층은 무엇입니까?

Apple Watch의 계층 적 탐색 스타일에서 컨트롤러간에 둘 이상의 개체를 보내는 방법은 무엇입니까?

신경망의 출력 계층에서 2 차 미분을 계산하는 방법은 무엇입니까?

Android에서 Azure Maps 계층을 동적으로 업데이트하는 방법은 무엇입니까?

핑에 대한 응답을 처리하는 네트워크 계층은 무엇입니까?

UICollectionView의 계층은 무엇입니까?

Pandas에서 계층 적 열을 만드는 방법은 무엇입니까?

Pandas에서 계층 적 필터를 만드는 방법은 무엇입니까?

하드웨어 추상화 계층에서 제공하는 네트워크 인터페이스 카드의 이름을 바꾸거나 변경하는 방법은 무엇입니까? (우분투 14.04.3)

파이썬에서 계층 적 회귀 모델을 비교하는 방법은 무엇입니까?

MLP에서 출력 계층의 기본 가중치는 무엇입니까?

dendextend를 사용하여 계층 적 클러스터링 트리에서 하나의 관찰에 레이블을 지정하는 방법은 무엇입니까?

데이터 증강 계층의 동작은 무엇입니까?

푸시 모델의 모든 계층에 TaskFactory.StartNew를 사용하는 것이 좋은 방법입니까?

푸시 모델의 모든 계층에 TaskFactory.StartNew를 사용하는 것이 좋은 방법입니까?

LSTM 계층에 대한 입력 수가 해당 계층의 LSTM 셀 수보다 크거나 적을 때 Keras는 무엇을합니까?

완전 컨볼 루션 네트워크에서 업 샘플링 계층의 "학습 다중"은 무엇입니까?

Android에서 3 개의 진입 점이있는 계층 적 탐색에 가장 적합한 패턴은 무엇입니까?

동적 mbean의 계층 적 트리를 만드는 간단한 방법은 무엇입니까?

HuggingFace Transformers 라이브러리에서 사전 훈련 된 BERT 모델의 중간 계층 출력을 얻는 방법은 무엇입니까?

BatchNormalization은 네트워크의 계층으로 간주됩니까?

애플리케이션 계층에서 전송 지연을 계산하는 방법은 무엇입니까?

이 일대 다 관계 데이터를 laravel에서 계층 적 순서로 표시하는 방법은 무엇입니까?

일대 다 관계의 여러 계층에 대해 DAL을 처리하는 방법은 무엇입니까?

Scikit-Learn에서 훈련 및 테스트 데이터를 계층화하는 방법은 무엇입니까?

R의 부모 자식 계층에서 데이터를 재귀 적으로 반환하는 방법은 무엇입니까?

중첩 사전의 가장 깊은 계층에 새 사전을 삽입하는 방법은 무엇입니까?