프로그래밍/NLP

NLP TASK의 평가 방법

Frog Photo Developer 2021. 6. 24. 19:08

RECALL(재현율)

실제로 True인 데이터를 모델이 True라고 인식한 데이터의 수

PRECISION

True로 예측한 데이터 중 실제로 True인 데이터이 수

F1-SCORE

F1 score는 precision 과 recall의 조화평균

아래블로그 기반한내용

https://eunsukimme.github.io/ml/2019/10/21/Accuracy-Recall-Precision-F1-score/

Accuracy(정확도), Recall(재현율), Precision(정밀도), 그리고 F1 Score

ML 모델의 성능을 측정하는 네 가지 지표에 대해서 알아봅시다

eunsukimme.github.io

BLEU Score

기계 번역 결과와 사람이 직접 번역한 결과가 얼마나 유사한지 비교하여 번역에 대한 성능을 측정하는 방법

측정 기준은 n-gram에 기반한다고 한다.

아래블로그 기반한내용

https://wikidocs.net/31695

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

GLUE

GLUE(General Language Understanding Evaluation) 벤치마크는 “강건하고 범용적인 자연어 이해 시스템의 개발”이라는 목적을 가지고 제작된 데이터셋

뉴욕대학교 연구진은 한 모델에 대해 여러 태스크들을 훈련 및 평가할 수 있는 GLUE 데이터셋을 선보임.

다양하고 해결하기 어려운 9개의 태스크 데이터셋으로 구성

자연어 이해 능력을 평가하기 위해 고안

아래블로그 기반한내용

https://huffon.github.io/2019/11/16/glue/

GLUE: 벤치마크를 통해 BERT 이해하기 - Programador | Huffon Blog

본 글은 Chris McCormick과 Nick Ryan이 공동으로 작성한 GLUE Explained: Understanding BERT Through Benchmarks를 저자의 허락을 받아 한국어로 옮긴 글입니다. 잦은 의역이 있으니 원문을 살려서 읽고자 하신 분들

huffon.github.io

저작자표시 변경금지 (새창열림)

'프로그래밍 > NLP' 카테고리의 다른 글

NLP TASK Feature 추출 방법 (0)	2021.12.21
언어모델의 평가방법 (0)	2021.06.24

현재글NLP TASK의 평가 방법

버그 찾아 삼만리

Kookmin univ NLP Lab Master

NLP language model, 자연어처리 토크나이저, NEURAL MACHINE TRANSLATIONBY JOINTLY LEARNING TO ALIGN AND TRANSLATE, Fine Tuning, NLP 토큰화, 자연어처리 토큰화, NLP Feature 추출, Tensorflow 시계열 레이어, TensorFlow, 토크나이저, 정보처리기사, keras 시계열 레이어, 자연어 Feature 추출, ngram, 시계열 데이터 Output, lstm dense, lstm many to many, keras, NLP, pretrained model,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

버그 찾아 삼만리

NLP TASK의 평가 방법

BLEU Score

GLUE

'프로그래밍 > NLP' 카테고리의 다른 글

'프로그래밍/NLP'의 다른글

티스토리툴바

NLP TASK의 평가 방법

BLEU Score

GLUE

'프로그래밍 > NLP' 카테고리의 다른 글

'프로그래밍/NLP'의 다른글

관련글

티스토리툴바