LLaMA

Abstract Token의 개수를 수조개로 늘림 파라미터의 개수는 7B(70억) 개로 줄었음 저작권 없는 오픈된 데이터셋 사용 다른모델과 비교하여 SOTA 달성 1 Introduction GPT, BERT등 많은 Large Language Model에서 파라미터 갯수를 놓여 → 성능을 높임 파라미터가 많다고 해서 무조건 좋은 모델은 아니라는 연구결과 있음 BEST성능을 내는 파라미터갯수를 찾는 것이 목표 Train 속도가 빨라 지는것은 아니지만 추론시간은 줄어드는 장점이 있음 그결과 7BG ~ 65B범위의 경쟁력있는 BEST모델을 찾음 이를 LLaMA라고 정의 LLaMA-13B 모델에서 GPT3를 능가(GPT3 파라미터 175B보다 약 10배이상 작음) SINGLE GPU에서 돌아 갈수 있기 때문에 연..

논문 2023.05.17 5

(keras) Timedistributed Layer

시계열 데이터를 LSTM 혹은 BILSTM으로 학습을 하고 최종 Output Layer가 many to many 일경우 마지막 층으로 Dense나 기타다른 층으로 연결하고 싶었다. 하지만 LSTM(BILSTM)은 출력층이 시퀀스 데이터이므로 Dense Layer를 그대로 사용하지 못한다. 그럴때 사용하는 레이어가 바로 Timedistributed Layer이다. (이 레이어가 특정 레이어를 시계열형식의 연속적인 형태로 만들어주는 기능을 하는것 같다.) 예시) 1234from tensorflow.keras.layers import * bilstm = Bidirectional(LSTM(100,return_sequences=True))(emb)tag = TimeDistributed(Dense(len(tag.k..

AI·Tensorflow 2021.12.21 0

NLP TASK Feature 추출 방법

다양한 자연어처리 TASK에서는 문장 혹은 문서내의 feature(혹은 토큰화)를 어떻게 추출하는지에 따라 모델의 정확도가 달라진다. 오늘은 NLP Task에서 많이 사용되는 Feature 추출 방법에 대해 소개하고자 한다. 1. Ngram 딥러닝에서는 음절기반방식을 많이 사용됨 예시 문장) 나는 밥을 먹고 학교에 갔다. - 음절기반 Ngram ->음절단위로 N개의 쌍을 지어 feature를 추출하는 방법 unigram : ['나' '는' '밥' '을' '먹' '고' '학' '교' '에' '갔' '다' '.'] bigram : ['나는' '는[공백]' '[공백]밥' '밥을' '을[공백]' '[공백]먹' '먹고' '고[공백]' '[공백]고' '고[공백]' '고학' .......] trigram : [ '나..

NLP 2021.12.21 0

ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS

ELECTRA - GAN 과 유사하게 Generator와 Discriminator로 구성됨 - Generator : 원본 문장에서 일부 단어를 [MASK] 태그로 변환후 [MASK] 토크의 단어를 예측하여 다른 토큰으로 변환 하는 모델 - Discriminator : Generator가 생성한 문장의 각단어들의 토큰들이 치환(replaced)된 데이터인지 원본(original) 데이터인지 식별, FineTuning 시 Discriminator 사용 - Generator Loss function : 마스크 된 토큰을 특정토큰으로 치환시킬 확률 - Discriminator Loss function : 해당토큰이 치환된 토큰인지 아닌지 판별하는 Classification 확률 - Generator and Di..

논문 2021.12.21 0

NLP TASK의 평가 방법

RECALL(재현율) 실제로 True인 데이터를 모델이 True라고 인식한 데이터의 수 PRECISION True로 예측한 데이터 중 실제로 True인 데이터이 수 F1-SCORE F1 score는 precision 과 recall의 조화평균 아래블로그 기반한내용 https://eunsukimme.github.io/ml/2019/10/21/Accuracy-Recall-Precision-F1-score/ Accuracy(정확도), Recall(재현율), Precision(정밀도), 그리고 F1 Score ML 모델의 성능을 측정하는 네 가지 지표에 대해서 알아봅시다 eunsukimme.github.io BLEU Score 기계 번역 결과와 사람이 직접 번역한 결과가 얼마나 유사한지 비교하여 번역에 대한 성..

NLP 2021.06.24 0