프로그래밍/NLP

NLP TASK의 평가 방법

Frog Photo Developer 2021. 6. 24. 19:08

RECALL(재현율)

 

실제로 True인 데이터를 모델이 True라고 인식한 데이터의 수

 

PRECISION

 

True로 예측한 데이터 중 실제로 True인 데이터이 수

 

recall 과 precision

 

F1-SCORE

 

F1 score는 precision 과 recall의 조화평균

f1-score

아래블로그 기반한내용

https://eunsukimme.github.io/ml/2019/10/21/Accuracy-Recall-Precision-F1-score/

 

Accuracy(정확도), Recall(재현율), Precision(정밀도), 그리고 F1 Score

ML 모델의 성능을 측정하는 네 가지 지표에 대해서 알아봅시다

eunsukimme.github.io

 

BLEU Score

기계 번역 결과와 사람이 직접 번역한 결과가 얼마나 유사한지 비교하여 번역에 대한 성능을 측정하는 방법

측정 기준은 n-gram에 기반한다고 한다.

 

 

Ngram으로 일반화
최종점수

아래블로그 기반한내용

https://wikidocs.net/31695

 

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

 

GLUE

GLUE(General Language Understanding Evaluation) 벤치마크는 “강건하고 범용적인 자연어 이해 시스템의 개발”이라는 목적을 가지고 제작된 데이터셋

 

뉴욕대학교 연구진은 한 모델에 대해 여러 태스크들을 훈련 및 평가할 수 있는 GLUE 데이터셋을 선보임.

 

다양하고 해결하기 어려운 9개의 태스크 데이터셋으로 구성

 

자연어 이해 능력을 평가하기 위해 고안

 

아래블로그 기반한내용

https://huffon.github.io/2019/11/16/glue/

 

GLUE: 벤치마크를 통해 BERT 이해하기 - Programador | Huffon Blog

본 글은 Chris McCormick과 Nick Ryan이 공동으로 작성한 GLUE Explained: Understanding BERT Through Benchmarks를 저자의 허락을 받아 한국어로 옮긴 글입니다. 잦은 의역이 있으니 원문을 살려서 읽고자 하신 분들

huffon.github.io

'프로그래밍 > NLP' 카테고리의 다른 글

NLP TASK Feature 추출 방법  (0) 2021.12.21
언어모델의 평가방법  (0) 2021.06.24