ELECTRA
- GAN 과 유사하게 Generator와 Discriminator로 구성됨
- Generator : 원본 문장에서 일부 단어를 [MASK] 태그로 변환후 [MASK] 토크의 단어를 예측하여 다른 토큰으로 변환 하는 모델
- Discriminator : Generator가 생성한 문장의 각단어들의 토큰들이 치환(replaced)된 데이터인지 원본(original) 데이터인지 식별, FineTuning 시 Discriminator 사용
- Generator Loss function : 마스크 된 토큰을 특정토큰으로 치환시킬 확률
- Discriminator Loss function : 해당토큰이 치환된 토큰인지 아닌지 판별하는 Classification 확률
- Generator and Discriminator loss function
- 실험
Generator의 layer size가 Discriminator size보다 작을수록 GLUE Score가 높게 측정됨
- 실험 결과
'논문' 카테고리의 다른 글
LLaMA (5) | 2023.05.17 |
---|---|
NEURAL MACHINE TRANSLATIONBY JOINTLY LEARNING TO ALIGN AND TRANSLATE (0) | 2021.05.13 |
RoBERTa: A Robustly Optimized Bert Pretraining Approach (1) | 2021.03.29 |
Attention Is All You Need (0) | 2021.03.17 |