논문

ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS

Frog Photo Developer 2021. 12. 21. 15:45

ELECTRA

- GAN 과 유사하게 Generator와 Discriminator로 구성됨

 

- Generator : 원본 문장에서 일부 단어를 [MASK] 태그로 변환후 [MASK] 토크의 단어를 예측하여 다른 토큰으로 변환 하는 모델

Generator 확률 모델

- Discriminator : Generator가 생성한 문장의 각단어들의 토큰들이 치환(replaced)된 데이터인지 원본(original) 데이터인지 식별, FineTuning 시 Discriminator 사용

Discriminator 확률 모델
ELECTRA Model 구성도

- Generator Loss function : 마스크 된 토큰을 특정토큰으로 치환시킬 확률

Generator loss function

- Discriminator Loss function : 해당토큰이 치환된 토큰인지 아닌지 판별하는 Classification 확률

Discriminator loss function

 

- Generator and Discriminator loss function

generator loss 와 discriminator loss의 합이 최소화 되도록 학습

 

- 실험

Generator의 layer size가 Discriminator size보다 작을수록 GLUE Score가 높게 측정됨

generator 와 discriminator layer size 비교

 

- 실험 결과

'논문' 카테고리의 다른 글

LLaMA  (5) 2023.05.17
NEURAL MACHINE TRANSLATIONBY JOINTLY LEARNING TO ALIGN AND TRANSLATE  (0) 2021.05.13
RoBERTa: A Robustly Optimized Bert Pretraining Approach  (1) 2021.03.29
Attention Is All You Need  (0) 2021.03.17