한국어 기반으로 구축된 오픈소스 거대언어모델(LLM)의 성능을 평가하고 순위를 매기는 ‘한국형 허깅페이스 리더보드’가 나온다. 허깅페이스는 전세계 오픈소스 인공지능(AI) 모델의 플랫폼 역할을 하며 연구자들의 커뮤니티로, 리더보드를 통해 전세계 유명 오픈소스 LLM의 성능·순위표를 제공한다.
국내 AI 스타트업 업스테이지는 한국지능정보사회진흥원(NIA)과 한국형 오픈 LLM 리더보드를 구축하고 국내 AI 생태계 확장을 위해 ‘AI 허브 데이터 활용 업무협약’을 체결했다고 5일 밝혔다.
이번 협약에 따라 업스테이지는 NIA의 AI 학습용 데이터 제공 플랫폼인 ‘AI 허브’에서 제공하는 다양한 분야의 한국어 데이터를 활용해 ‘오픈-코(Open-Ko) LLM 리더보드’를 이달 내 구축할 계획이다. 오픈-코 LLM 리더보드는 한글 기반으로 개발된 LLM들의 성능을 평가하고 순위를 매기는 플랫폼으로 모델의 추론·상식 능력, 언어 이해 종합능력, 환각 현상 방지 등 4가지 지표를 기본으로 하고 윤리·전문가 지식 등 추가 기준을 개설해 모델을 평가한다.
NIA는 이번 협력과 함께 업스테이지의 ‘1T 클럽’에도 가입, 양질의 데이터를 제공키로 약속했다. 최소 1억 단어 이상의 한국어 데이터를 제공할 수 있는 파트너들은 클럽에 가입할 수 있다. 파트너들은 업스테이지의 자체 LLM을 할인된 가격에 사용하거나 업스테이지 사업 수익을 공유받을 수 있다. 업스테이지 관계자는 “파트너사들이 제공하는 데이터를 모델의 학습 용도로만 사용하고, 원문 추출이 불가능하도록 보안과 개인정보 보호에 만전을 기할 계획”이라고 설명했다.
황종성 NIA 원장은 “글로벌에서도 인정받는 업스테이지와의 협약을 통해 AI 허브의 데이터가 국내외 AI 시장에서 활용될 수 있게 됐다”며 “한국형 오픈 LLM 리더보드를 통해 국내 LLM들의 수준과 다양성을 높이고, AI 생태계 구축에 더욱 힘쓰겠다”고 밝혔다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >