kakaobank/kf-deberta-base

fill masktransformerskotransformerspytorchdeberta-v2fill-maskkolicense:mitmit
710.4K

KF-DeBERTa

카카오뱅크 & 에프엔가이드에서 학습한 금융 도메인 특화 언어모델을 공개합니다.

Model description

  • KF-DeBERTa는 범용 도메인 말뭉치와 금융 도메인 말뭉치를 함께 학습한 언어모델 입니다.
  • 모델 아키텍쳐는 DeBERTa-v2를 기반으로 학습하였습니다.
    • ELECTRA의 RTD를 training objective로 사용한 DeBERTa-v3는 일부 task(KLUE-RE, WoS, Retrieval)에서 상당히 낮은 성능을 확인하여 최종 아키텍쳐는 DeBERTa-v2로 결정하였습니다.
  • 범용 도메인 및 금융 도메인 downstream task에서 모두 우수한 성능을 확인하였습니다.
    • 금융 도메인 downstream task의 철저한 성능검증을 위해 다양한 데이터셋을 통해 검증을 수행하였습니다.
    • 범용 도메인 및 금융 도메인에서 기존 언어모델보다 더 나은 성능을 보여줬으며 특히 KLUE Benchmark에서는 RoBERTa-Large보다 더 나은 성능을 확인하였습니다.

Usage

from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained("kakaobank/kf-deberta-base")
tokenizer = AutoTokenizer.from_pretrained("kakaobank/kf-deberta-base")

text = "카카오뱅크와 에프엔가이드가 금융특화 언어모델을 공개합니다."
tokens = tokenizer.tokenize(text)
print(tokens)

inputs = tokenizer(text, return_tensors="pt")
model_output = model(**inputs)
print(model_output)

Benchmark

  • 모든 task는 아래와 같은 기본적인 hyperparameter search만 수행하였습니다.
    • batch size: {16, 32}
    • learning_rate: {1e-5, 3e-5, 5e-5}
    • weight_decay: {0, 0.01}
    • warmup_proportion: {0, 0.1}

KLUE Benchmark

ModelYNATKLUE-STKLUE-NLIKLUE-NERKLUE-REKLUE-DPKLUE-MRCWoSAVG
F1Pearsonr/F1ACCF1-Entity/F1-CharF1-micro/AUCUAS/LASEM/ROUGEJGA/F1-S
mBERT (Base)82.6482.97/75.9372.9075.56/88.8158.39/56.4188.53/86.0449.96/55.5735.27/88.6071.26
XLM-R (Base)84.5288.88/81.2078.2380.48/92.1457.62/57.0593.12/87.2326.76/53.3641.54/89.8172.28
XLM-R (Large)87.3093.08/87.1786.4082.18/93.2058.75/63.5392.87/87.8235.23/66.5542.44/89.8876.17
KR-BERT (Base)85.3687.50/77.9277.1074.97/90.4662.83/65.4292.87/87.1348.95/58.3845.60/90.8274.67
KoELECTRA (Base)85.9993.14/85.8986.8786.06/92.7562.67/57.4690.93/87.0759.54/65.6439.83/88.9177.34
KLUE-BERT (Base)86.9591.01/83.4479.8783.71/91.1765.58/68.1193.07/87.2562.42/68.1546.72/91.5978.50
KLUE-RoBERTa (Small)85.9591.70/85.4281.0083.55/91.2061.26/60.8993.47/87.5058.25/63.5646.65/91.5077.28
KLUE-RoBERTa (Base)86.1992.91/86.7886.3083.81/91.0966.73/68.1193.75/87.7769.56/74.6447.41/91.6080.48
KLUE-RoBERTa (Large)85.8893.20/86.1389.5084.54/91.4571.06/73.3393.84/87.9375.26/80.3049.39/92.1982.43
KF-DeBERTa (Base)87.5193.24/87.7388.3789.17/93.3069.70/75.0794.05/87.9772.59/78.0850.21/92.5982.83
  • 굵은글씨는 모든 모델중 가장높은 점수이며, 밑줄은 base 모델 중 가장 높은 점수입니다.

금융도메인 벤치마크

ModelFN-Sentiment (v1)FN-Sentiment (v2)FN-AdnewsFN-NERKorFPBKorFiQA-SAKorHeadlineAvg (FiQA-SA 제외)
ACCACCACCF1-microACCMSEMean F1
KLUE-RoBERTa (Base)98.2691.2196.3490.3190.970.058981.1194.03
KoELECTRA (Base)98.2690.5696.9889.8192.360.065280.6993.90
KF-DeBERTa (Base)99.3692.2997.6391.8093.470.055382.1295.27
  • FN-Sentiment: 금융도메인 감성분석
  • FN-Adnews: 금융도메인 광고성기사 분류
  • FN-NER: 금융도메인 개체명인식
  • KorFPB: FinancialPhraseBank 번역데이터
    • Cite: Malo, Pekka, et al. "Good debt or bad debt: Detecting semantic orientations in economic texts." Journal of the Association for Information Science and Technology 65.4 (2014): 782-796.
  • KorFiQA-SA: FiQA-SA 번역데이터
    • Cite: Maia, Macedo & Handschuh, Siegfried & Freitas, Andre & Davis, Brian & McDermott, Ross & Zarrouk, Manel & Balahur, Alexandra. (2018). WWW'18 Open Challenge: Financial Opinion Mining and Question Answering. WWW '18: Companion Proceedings of the The Web Conference 2018. 1941-1942. 10.1145/3184558.3192301.
  • KorHeadline: Gold Commodity News and Dimensions 번역데이터
    • Cite: Sinha, A., & Khandait, T. (2021, April). Impact of News on the Commodity Market: Dataset and Results. In Future of Information and Communication Conference (pp. 589-601). Springer, Cham.

범용도메인 벤치마크

ModelNSMCPAWSKorNLIKorSTSKorQuADAvg (KorQuAD 제외)
ACCACCACCspearmanEM/F1
KLUE-RoBERTa (Base)90.4784.7981.6584.4086.34/94.4085.33
KoELECTRA (Base)90.6384.4582.2485.5384.83/93.4585.71
KF-DeBERTa (Base)91.3686.1484.5485.9986.60/95.0787.01

License

KF-DeBERTa의 소스코드 및 모델은 MIT 라이선스 하에 공개되어 있습니다.
라이선스 전문은 MIT 파일에서 확인할 수 있습니다.
모델의 사용으로 인해 발생한 어떠한 손해에 대해서도 당사는 책임을 지지 않습니다.

Citation

@proceedings{jeon-etal-2023-kfdeberta,
  title         = {KF-DeBERTa: Financial Domain-specific Pre-trained Language Model},
  author        = {Eunkwang Jeon, Jungdae Kim, Minsang Song, and Joohyun Ryu},
  booktitle     = {Proceedings of the 35th Annual Conference on Human and Cognitive Language Technology},
  moth          = {oct},
  year          = {2023},
  publisher     = {Korean Institute of Information Scientists and Engineers},
  url           = {http://www.hclt.kr/symp/?lnb=conference},
  pages         = {143--148},
}
DEPLOY IN 60 SECONDS

Run kf-deberta-base on Runcrate

Deploy on H100, A100, or RTX GPUs. Pay only for what you use. No setup required.