Natural Language
Processing
42dot LLM-PLM
42dot-PLM은 42dot에서 개발한 PLM (pre-trained language model)으로 42dot LLM(거대 언어 모델)의 일부입니다. 42dot LLM-PLM은 한국어 및 영어 text corpus를 사용하여 사전 학습되었으며 여러 자연어 처리 태스크 작업의 기초 언어 모델로 사용할 수 있습니다. 이 저장소에는 모델의 1.3B-parameter 버전이 포함되어 있습니다.
Download LLM-PLM on Hugging Face
Model Description
Hyperparameters
42dot LLM-PLM은 LLaMA 2 아키텍처로 구성되었으며, 모델 하이퍼파라미터는 다음과 같습니다.
ParamsLayersAttention headsHidden sizeFFN size
1.3B24322,0485,632
Pre-training
사전학습은 약 49,152 GPU hours가 소요되었습니다(NVIDIA A100 사용). 다음과 같은 세팅을 적용하여 학습하였습니다.
ParamsGlobal batch size*Initial Learning rateTrain iter.*Max lengthWeight decay
1.3B4.0M4E-41.4T4,0960.1

(* unit: tokens)

Pre-training datasets
다음과 같은 공개 텍스트 데이터를 사용하여 학습하였습니다:
Tokenizer
자체 학습한 Byte-level BPE 토크나이저를 사용하였습니다. 한국어와 영어 데이터에서 각각 1000만 개의 문서를 샘플링하여 vocabulary를 학습했으며 vocabulary 크기는 약 5만 개입니다.
Zero-shot evaluations
42dot LLM-PLM의 성능을 한국어와 영어 Zero-shot 벤치마크 데이터로 평가하였습니다. 아래 결과는 lm-eval-harness와 huggingface 허브에 공개된 모델들을 사용하여 도출하였습니다.
Korean (KOBEST)
Tasks / Macro-F1KoGPT2
1.2B
Polyglot-Ko
1.3B
XGLM
1.7B
PolyLM
1.7B
42dot LLM-PLM
1.3B
boolq0.3370.3550.5020.3340.369
copa0.670.7210.6160.5130.704
hellaswag0.4040.4010.3740.3210.431
sentineg0.6060.6790.460.3820.69
average0.5040.5390.4880.3880.549
English
Tasks / Macro-F1MPT
1B
OPT
1.3B
XGLM
1.7B
PolyLM
1.7B
42dot LLM-PLM
1.3B
anli_r1/acc0.3090.3410.33420.3360.325
anli_r2/acc0.3340.3390.3310.3140.34
anli_r3/acc0.330.3360.3330.3390.333
arc_challenge/acc0.2680.2340.210.1980.288
arc_challenge/acc_norm0.2910.2950.2430.2560.317
boolq/acc0.5170.5780.5850.6170.624
hellaswag/acc0.4150.4150.3620.3220.422
hellaswag/acc_norm0.5320.5370.4580.3720.544
openbookqa/acc0.2380.2340.170.1660.222
openbookqa/acc_norm0.3340.3340.2980.3340.34
piqa/acc0.7140.7180.6970.6670.725
piqa/acc_norm0.720.7240.7030.6490.727
record/f10.840.8570.7750.6810.848
record/em0.8320.8490.7690.6740.839
rte/acc0.5410.5230.5590.5130.542
truthfulqa_mc/mc10.2240.2370.2150.2510.236
truthfulqa_mc/mc20.3870.3860.3730.4280.387
wic/acc0.4980.5090.5030.50.502
winogrande/acc0.5740.5950.550.5190.583
average0.4790.4820.4520.4290.492
Citation
42dot LLM-PLM 활용시 아래 citation을 이용해주세요.
@misc{42dot2023llm,
      title={42dot LLM: A Series of Large Language Model by 42dot},
      author={42dot Inc.},
      year={2023},
      url = {https://github.com/42dot/42dot_LLM},
      version = {1.0.0}   
Download LLM-PLM on Hugging Face
Learn More about LLM-PLM