RECALL(재현율)
실제로 True인 데이터를 모델이 True라고 인식한 데이터의 수
PRECISION
True로 예측한 데이터 중 실제로 True인 데이터이 수
F1-SCORE
F1 score는 precision 과 recall의 조화평균
아래블로그 기반한내용
https://eunsukimme.github.io/ml/2019/10/21/Accuracy-Recall-Precision-F1-score/
Accuracy(정확도), Recall(재현율), Precision(정밀도), 그리고 F1 Score
ML 모델의 성능을 측정하는 네 가지 지표에 대해서 알아봅시다
eunsukimme.github.io
BLEU Score
기계 번역 결과와 사람이 직접 번역한 결과가 얼마나 유사한지 비교하여 번역에 대한 성능을 측정하는 방법
측정 기준은 n-gram에 기반한다고 한다.
아래블로그 기반한내용
위키독스
온라인 책을 제작 공유하는 플랫폼 서비스
wikidocs.net
GLUE
GLUE(General Language Understanding Evaluation) 벤치마크는 “강건하고 범용적인 자연어 이해 시스템의 개발”이라는 목적을 가지고 제작된 데이터셋
뉴욕대학교 연구진은 한 모델에 대해 여러 태스크들을 훈련 및 평가할 수 있는 GLUE 데이터셋을 선보임.
다양하고 해결하기 어려운 9개의 태스크 데이터셋으로 구성
자연어 이해 능력을 평가하기 위해 고안
아래블로그 기반한내용
https://huffon.github.io/2019/11/16/glue/
GLUE: 벤치마크를 통해 BERT 이해하기 - Programador | Huffon Blog
본 글은 Chris McCormick과 Nick Ryan이 공동으로 작성한 GLUE Explained: Understanding BERT Through Benchmarks를 저자의 허락을 받아 한국어로 옮긴 글입니다. 잦은 의역이 있으니 원문을 살려서 읽고자 하신 분들
huffon.github.io
'프로그래밍 > NLP' 카테고리의 다른 글
NLP TASK Feature 추출 방법 (0) | 2021.12.21 |
---|---|
언어모델의 평가방법 (0) | 2021.06.24 |