Abstract Token의 개수를 수조개로 늘림 파라미터의 개수는 7B(70억) 개로 줄었음 저작권 없는 오픈된 데이터셋 사용 다른모델과 비교하여 SOTA 달성 1 Introduction GPT, BERT등 많은 Large Language Model에서 파라미터 갯수를 놓여 → 성능을 높임 파라미터가 많다고 해서 무조건 좋은 모델은 아니라는 연구결과 있음 BEST성능을 내는 파라미터갯수를 찾는 것이 목표 Train 속도가 빨라 지는것은 아니지만 추론시간은 줄어드는 장점이 있음 그결과 7BG ~ 65B범위의 경쟁력있는 BEST모델을 찾음 이를 LLaMA라고 정의 LLaMA-13B 모델에서 GPT3를 능가(GPT3 파라미터 175B보다 약 10배이상 작음) SINGLE GPU에서 돌아 갈수 있기 때문에 연..