[보도자료] 한국어 LLM 리더보드, 추론 및 산술 추론 지표 추가

2024.06.11 조회수 384 구서연 ESG혁신팀

한국어 LLM 리더보드, 추론 및 산술 추론 지표 추가
- Open Ko-LLM 리더보드 추론 지표 추가로 1차 업그레이드 -

□ 한국지능정보사회진흥원(원장 황종성, 이하 NIA)과 업스테이지(대표 김성훈(성킴))가 공동 운영하는 ‘Open Ko-LLM 리더보드’가 평가 지표를 추가하고 업그레이드되어 운영될 예정이다.

□ ‘Open Ko-LLM 리더보드’는 지난해 9월, 민관 협업을 통해 개설되어 학계 및 업계 다양한 참여자들로부터 큰 관심을 받고 있으며, 지난 5월 말까지 참여한 LLM(초거대언어모델) 모델 수가 1,500개를 넘어섰고, 최고 점수는 70.7점을 기록했다.

○ 이는 세계적으로 인정받는 허깅페이스의 LLM 리더보드(최고점 81.2점)에 근접한 수치로, 한국어 LLM이 발전하고 있음을 입증하는 결과다.

□ NIA와 업스테이지는 Open Ko-LLM 리더보드의 지속적인 발전과 개선을 위해 우선 추론 관련 지표를 추가하여 운영할 계획이다.

○ 이번에 추가하는 지표는 허깅페이스의 오픈 LLM 리더보드에서 사용되는 평가지표 중 ‘추론 능력’ 및 ‘산출 추론 능력’ 두 개 지표*로 해당 지표를 한국어에 맞게 적용함으로써, 한국어 모델의 성능 평가 체계를 국제 평가 기준과 대등한 수준으로 끌어올리는 계기가 될 것이다.
* 추론능력(Winogrande, 글 속 대명사 추론 능력), 산술추론능력(GSM8K, 산술 연산 분야 추론능력)

○ 추가 지표는 AI 언어 데이터 전문 기업인 플리토가 참여하여 한국어에 맞게 번역 및 개발을 지원하였다.

□ NIA 황종성 원장은 “NIA와 업스테이지는 한국어 LLM 발전을 위해 리더보드 평가 지표 및 체계를 지속적인 개선할 방침”이며, “이를 통해 국내외 AI 연구자들 사이에서 더욱 활발한 교류와 협력이 이루어질 것으로 기대하고 있다” 고 밝혔다.

○ 또한 공동 운영기관인 업스테이지의 박찬준 리더는 “한국의 LLM 평가의 표준으로 인정받는 만큼, 책임감 있는 운영을 위해 지속적으로 NIA와 노력하겠다”고 포부를 밝혔다.

□ 이번 업그레이드는 6월부터 적용되며, AI허브(https://www.aihub.or.kr) 사이트의 리더보드 메뉴에서 확인 할 수 있다.

붙임1. Open Ko-LLM 리더보드 오픈 홍보 배너
붙임2. Open Ko-LLM 성능지표. <끝>.

트위터 페이스북 구글 플러스 인쇄