포티투닷 | 42dot - We Are A Mobility AI Company

Natural Language
Processing

42dot LLM-PLM

42dot-PLM은 42dot에서 개발한 PLM (pre-trained language model)으로 42dot LLM(거대 언어 모델)의 일부입니다. 42dot LLM-PLM은 한국어 및 영어 text corpus를 사용하여 사전 학습되었으며 여러 자연어 처리 태스크 작업의 기초 언어 모델로 사용할 수 있습니다. 이 저장소에는 모델의 1.3B-parameter 버전이 포함되어 있습니다.

Download LLM-PLM on Hugging Face

LLM-PLM

Model Description

Hyperparameters

42dot LLM-PLM은 LLaMA 2 아키텍처로 구성되었으며, 모델 하이퍼파라미터는 다음과 같습니다.

Params	Layers	Attention heads	Hidden size	FFN size
1.3B	24	32	2,048	5,632

Pre-training

사전학습은 약 49,152 GPU hours가 소요되었습니다(NVIDIA A100 사용). 다음과 같은 세팅을 적용하여 학습하였습니다.

Params	Global batch size*	Initial Learning rate	Train iter.*	Max length	Weight decay
1.3B	4.0M	4E-4	1.4T	4,096	0.1

(* unit: tokens)

Pre-training datasets

다음과 같은 공개 텍스트 데이터를 사용하여 학습하였습니다:

한글: 직지 프로젝트, mC4-ko, LBox Open, KLUE, Wikipedia (한국어) 등 포함
영어: The Pile, RedPajama, C4 등 포함

Tokenizer

자체 학습한 Byte-level BPE 토크나이저를 사용하였습니다. 한국어와 영어 데이터에서 각각 1000만 개의 문서를 샘플링하여 vocabulary를 학습했으며 vocabulary 크기는 약 5만 개입니다.

Zero-shot evaluations

42dot LLM-PLM의 성능을 한국어와 영어 Zero-shot 벤치마크 데이터로 평가하였습니다. 아래 결과는 lm-eval-harness와 huggingface 허브에 공개된 모델들을 사용하여 도출하였습니다.

Korean (KOBEST)

Tasks / Macro-F1	KoGPT2 1.2B	Polyglot-Ko 1.3B	XGLM 1.7B	PolyLM 1.7B	42dot LLM-PLM 1.3B
boolq	0.337	0.355	0.502	0.334	0.369
copa	0.67	0.721	0.616	0.513	0.704
hellaswag	0.404	0.401	0.374	0.321	0.431
sentineg	0.606	0.679	0.46	0.382	0.69
average	0.504	0.539	0.488	0.388	0.549

English

Tasks / Macro-F1	MPT 1B	OPT 1.3B	XGLM 1.7B	PolyLM 1.7B	42dot LLM-PLM 1.3B
anli_r1/acc	0.309	0.341	0.3342	0.336	0.325
anli_r2/acc	0.334	0.339	0.331	0.314	0.34
anli_r3/acc	0.33	0.336	0.333	0.339	0.333
arc_challenge/acc	0.268	0.234	0.21	0.198	0.288
arc_challenge/acc_norm	0.291	0.295	0.243	0.256	0.317
boolq/acc	0.517	0.578	0.585	0.617	0.624
hellaswag/acc	0.415	0.415	0.362	0.322	0.422
hellaswag/acc_norm	0.532	0.537	0.458	0.372	0.544
openbookqa/acc	0.238	0.234	0.17	0.166	0.222
openbookqa/acc_norm	0.334	0.334	0.298	0.334	0.34
piqa/acc	0.714	0.718	0.697	0.667	0.725
piqa/acc_norm	0.72	0.724	0.703	0.649	0.727
record/f1	0.84	0.857	0.775	0.681	0.848
record/em	0.832	0.849	0.769	0.674	0.839
rte/acc	0.541	0.523	0.559	0.513	0.542
truthfulqa_mc/mc1	0.224	0.237	0.215	0.251	0.236
truthfulqa_mc/mc2	0.387	0.386	0.373	0.428	0.387
wic/acc	0.498	0.509	0.503	0.5	0.502
winogrande/acc	0.574	0.595	0.55	0.519	0.583
average	0.479	0.482	0.452	0.429	0.492

Citation

42dot LLM-PLM 활용시 아래 citation을 이용해주세요.

@misc{42dot2023llm,
      title={42dot LLM: A Series of Large Language Model by 42dot},
      author={42dot Inc.},
      year={2023},
      url = {https://github.com/42dot/42dot_LLM},
      version = {1.0.0}

Download LLM-PLM on Hugging Face

LLM-PLM

Learn More about LLM-PLM

LLM-PLM