NLP 2

NLP TASK Feature 추출 방법

다양한 자연어처리 TASK에서는 문장 혹은 문서내의 feature(혹은 토큰화)를 어떻게 추출하는지에 따라 모델의 정확도가 달라진다. 오늘은 NLP Task에서 많이 사용되는 Feature 추출 방법에 대해 소개하고자 한다. 1. Ngram 딥러닝에서는 음절기반방식을 많이 사용됨 예시 문장) 나는 밥을 먹고 학교에 갔다. - 음절기반 Ngram ->음절단위로 N개의 쌍을 지어 feature를 추출하는 방법 unigram : ['나' '는' '밥' '을' '먹' '고' '학' '교' '에' '갔' '다' '.'] bigram : ['나는' '는[공백]' '[공백]밥' '밥을' '을[공백]' '[공백]먹' '먹고' '고[공백]' '[공백]고' '고[공백]' '고학' .......] trigram : [ '나..

프로그래밍/NLP 2021.12.21

ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS

ELECTRA - GAN 과 유사하게 Generator와 Discriminator로 구성됨 - Generator : 원본 문장에서 일부 단어를 [MASK] 태그로 변환후 [MASK] 토크의 단어를 예측하여 다른 토큰으로 변환 하는 모델 - Discriminator : Generator가 생성한 문장의 각단어들의 토큰들이 치환(replaced)된 데이터인지 원본(original) 데이터인지 식별, FineTuning 시 Discriminator 사용 - Generator Loss function : 마스크 된 토큰을 특정토큰으로 치환시킬 확률 - Discriminator Loss function : 해당토큰이 치환된 토큰인지 아닌지 판별하는 Classification 확률 - Generator and Di..

논문 2021.12.21