KT(030200)가 정부 공인 국가대표 인공지능(AI) 모델에 도전장을 내밀었다. 자체 기술로 다량의 고품질 한국적 데이터를 AI에 학습시켰다는 점을 강점으로 내세웠다. 국내 사용 환경에 특화한 AI의 대중화에 앞장서겠다는 구상이다. 이재명 정부의 소버린(자립형) AI 전략에 발맞춰 자체 개발 AI 모델에 힘을 싣고 있다는 분석이 나온다.
KT는 3일 온라인 기자간담회에서 자체 개발한 한국적 AI ‘믿:음 2.0’의 오픈소스를 AI 개발자 플랫폼 허깅페이스(HuggingFace)를 통해 4일 공개할 예정이라고 밝혔다. 이 오픈소스는 기업과 개인, 공공 누구나 상업적으로 활용할 수 있도록 제약 없이 개방된다. 한국어 범용 언어모델(LLM)을 오픈소스로 공개한 것은 KT가 처음이다.
KT는 한국의 사회적 맥락과 같은 무형 요소와 한국어 고유의 언어적·문화적 특성을 충분히 반영해 학습한 AI 모델을 개발하고 있다. 신동훈 KT 생성형 AI 랩장(CAIO·상무)은 “믿:음은 데이터 구축부터 학습까지 전 과정을 KT 자체 기술로 개발한 만큼 대표적인 소버린 AI”라고 자평했다.
믿:음 2.0 공개는 지난 2023년 믿:음 1.0 버전 출시 이후 2년 만이다. 믿:음 2.0은 베이스, 미니 2종으로 모두 한국어와 영어를 지원하며 한국 특화 지식과 문서 기반 질의 응답에 강점을 지닌 게 특징이다. KT는 국내 교육용 도서와 문학 작품 등 발간물, 법률 및 특허 문서, 각종 사전 등 다양한 산업·공공·문화 영역에서 방대한 한국 특화 데이터를 확보해 AI 학습에 활용했다. 고품질 한국어 데이터를 준비하는 과정에서 모든 저작권을 확보해 신뢰성을 높인 것이다.
이날 브리핑에선 믿:음 2.0 성능 평가 결과도 공개됐다. 타사 모델 대비 한국어 이해와 전문지식 분야에서 성능 차이가 크지 않았지만 사회·문화 측면에서는 A사(72.4점)보다 약 9점 높은 81.2점을 기록했다. 같은 날 오픈소스로 공개된 SK텔레콤의 한국어 특화 LLM A.X(에이닷 엑스) 4.0와 관련해 신 상무는 “믿:음 미니의 매개변수가 110억 개로 에이닷이 7배 더 큰 모델이라 직접 비교는 어렵다”면서도 “곧 출시될 믿:음 2.0 프로 모델이 그 수준을 상회하는 성능을 확보하고 있고 데이터 학습 측면에서 KT는 초기 단계부터 모두 직접 학습한 모델인 반면 SK텔레콤은 외부 모델을 기반으로 했다는 점이 다르다”고 말했다.
KT는 믿:음과 별도로 마이크로소프트(MS)와 공동으로 개발 중인 AI 모델도 공개할 예정이다. 이 모델은 GPT-4에 한국적 사고를 추가 학습하는 방식이다. MS와의 협업 모델은 대형 고객을 위한 엔터프라이즈형으로, 믿음은 경량·맞춤형 솔루션이라는 투 트랙 전략을 추진하고 있는 것이다. 업계에선 믿:음 2.0을 MS 협력 모델보다 먼저 공개한 데 대해 현 정부가 강조하는 소버린 AI 취지에 더 부합한 자체 AI 모델에 더욱 힘을 싣는 게 아니냐는 분석을 내놓고 있다. 오승필 KT 최고기술책임자(CTO)는 “어떤 AI 모델 하나를 선택하면 다른 모델은 버리는 게 아니다”며 “모든 모델 라인업에 한국적 데이터를 넣어 쓸 수 있도록 하는 것이 KT 목표이자 철학”이라고 설명했다.
KT는 한국적 AI를 앞세워 이재명 정부에서 선발하는 독자 AI 파운데이션 모델에 도전한다. 신 상무는 “정부의 독자 파운데이션 모델 프로젝트에 참여를 하려고 준비를 하고 있다”면서 “한국적 가치와 문화를 반영하기 위해 데이터 얼라이언스와 구축한 데이터들이 독자 파운데이션 모델을 구축하는 데 강점이 될 것”이라고 자신했다.
정부는 다음 달 중 최대 5개 정예팀을 선발한 뒤 경쟁형 평가를 거쳐 후순위 팀을 탈락시키는 방식으로 2027년까지 AI 파운데이션 모델을 개발한다. 대표 AI 모델로 선정되면 ‘K-AI 모델’, 개발사는 ‘K-AI 기업’ 등 명칭을 쓸 수 있다. 첨단 그래픽처리장치(GPU) 인프라와 데이터, 인재 등 자원을 지원받을 수 있어 정보기술(IT) 업계의 뜨거운 관심을 받고 있다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >