다양한 자연어처리 TASK에서는 문장 혹은 문서내의 feature(혹은 토큰화)를 어떻게 추출하는지에 따라 모델의 정확도가 달라진다. 오늘은 NLP Task에서 많이 사용되는 Feature 추출 방법에 대해 소개하고자 한다. 1. Ngram 딥러닝에서는 음절기반방식을 많이 사용됨 예시 문장) 나는 밥을 먹고 학교에 갔다. - 음절기반 Ngram ->음절단위로 N개의 쌍을 지어 feature를 추출하는 방법 unigram : ['나' '는' '밥' '을' '먹' '고' '학' '교' '에' '갔' '다' '.'] bigram : ['나는' '는[공백]' '[공백]밥' '밥을' '을[공백]' '[공백]먹' '먹고' '고[공백]' '[공백]고' '고[공백]' '고학' .......] trigram : [ '나..