NEURAL MACHINE TRANSLATIONBY JOINTLY LEARNING TO ALIGN AND TRANSLATE

논문

Frog Photo Developer 2021. 5. 13. 14:38

기존 Encoder Decoder의 문제점

고정된 길이의 Sentence의 hidden state를 context-vector 사용함으로 인해 Sentence의 길이가 길어질수록 제대로 예측하지 못하는 문제 발생

논문에서 제안하는바 -> 고정된 길이의 state를 하나의 context-vector로 압축하여 사용

기존 Encoder Decoder 구조

Proposed Approach(Alignment)

식(2)에서 si는 time i에서의 RNN hidden state이다.

Encoder-Decoder와의 차이는 context-vector가 중복되지 않는것이다.

context vector ci는 입력 문장과 매핑된 encoder의 annotation(hidden state)에 의존적이다.

각 annotation은 입력문장의 i번째 word에서 주변에서 강한단어에 focus를 맞춘 hi 정보들이 압축되어이다

context vector i는 annotation hi 에대한 weight들의 합이다.

score함수 eij는 input word의 j의 주변 위치에서의 ouput i의 위치를 잘맞추는 정렬모델 이다.

hj와 이전 time의 output의 hidden state(si-1)의 FFN 연산을함 // si-1은 decoder의 hidden state, hj는 encoder에대한 hidden state

αij은 입력 word xj가 주어졌을때 타겟 yi를 정렬할 확률이다. 그런다음 i번째 ci는 모든 αij 확률 annotaiton에 대한 expected annotation이다.

논문에서는 x1에서 xT까지의 annotationl뿐만 아니라 각단어를 요약하기를 원하므로 양방향 RNN을 사용한다.

Experimental Setup

DataSet

WMT ‘14 English-French를 사용하였으며 각 언어에서 빈번하게 사용되는 30,000개의 단어를 사용

포함되지 않은 단어들은 [UNK] Token

WMT ‘14 English-French를 사용하였으며 각 언어에서 빈번하게 사용되는 30,000개의 단어를 사용

포함되지 않은 단어들은 [UNK] Token으로 처리한다.

Model

모델 비교를 위해 같은 데이터를 사용하여 기존 모델인 RNN Encoder-Decoder와 새로운 모델인 RNNsearch를 학습

Sentence의 단어 갯수가 30개까지만을 학습 (RNNencdec-30, RNNsearch-30)

50개까지 학습 (RNNencdec-50, RNNsearch-50).

Training은 80문장씩으로 이루어진 mini batch SGD를 사용하였다. 학습이 된 후에 prediction에서는 beam search를 사용하였다.

Result

LLaMA (5)	2023.05.17
ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS (0)	2021.12.21
RoBERTa: A Robustly Optimized Bert Pretraining Approach (1)	2021.03.29
Attention Is All You Need (0)	2021.03.17

버그 찾아 삼만리

Kookmin univ NLP Lab Master

토크나이저, NEURAL MACHINE TRANSLATIONBY JOINTLY LEARNING TO ALIGN AND TRANSLATE, keras, NLP 토큰화, 자연어처리 토크나이저, keras 시계열 레이어, Fine Tuning, NLP Feature 추출, pretrained model, Tensorflow 시계열 레이어, NLP, 시계열 데이터 Output, 정보처리기사, 자연어처리 토큰화, lstm dense, lstm many to many, NLP language model, 자연어 Feature 추출, ngram, TensorFlow,

버그 찾아 삼만리