인공지능(AI) 챗봇 ‘챗GPT’ 열풍이 전 세계 정보기술(IT) 업계를 휩쓸고 있다. 구글이나 마이크로소프트(MS) 등 글로벌 빅테크들이 잇따라 경쟁적인 투자·개발에 나서는 등 AI 경쟁 판도에 일대 변화가 예고됐다. 이 같은 상황에서 국내에서는 영어 중심인 챗GPT를 겨냥해 한글에 능통한 AI 모델을 육성하기 위해 평가 시스템을 구축하는 작업이 처음으로 추진된다. 향후 AI 언어 모델이 개인 및 국가의 창의성·생산성과도 긴밀히 연계되는 만큼 평가 체계 도입을 통해 국내 산업 경쟁력을 높이고 한글 기반의 AI 모델 고도화를 유도하기 위한 작업으로 분석된다.
한국어 기반 AI 모델 개발 주력"
7일 국립국어원은 언어 AI 모델의 한글 기반 정보 처리 및 생성 능력을 종합적이고 객관적으로 평가하는 체계를 마련하기 위한 사업을 추진 중이라고 밝혔다. 평가는 이해와 생성 두 영역으로 나눠 진행된다. 이해 영역은 제시된 한글 문장 등을 총체적으로 이해한 정도를 평가한다. 문장 속 주어나 대상의 감정 등을 추론하거나 문장의 의도를 파악하는 것, 문장 작성자가 명제에 대해 얼마나 확신하는지 등이 여기에 해당한다. 생성의 경우 표를 보고 문장을 생성하거나 그림 또는 사진을 보고 설명하는 것 등이 포함된다. 물론 이용자에게 서비스가 제공될 때는 두 영역이 긴밀히 통합돼야 한다.
데이터셋으로는 그간 국립국어원이 기사, 일상 대화 등을 통해 구축해온 ‘말뭉치’를 활용한다. 올해 구체적인 평가 틀을 만든 뒤 2024년부터는 이를 정례화할 예정이다. 또 이러한 평가 업무를 도맡을 별도 조직 설립까지 염두에 두고 있다. 국립국어원 관계자는 “내년부터 평가 시스템이 본격 가동되면 해당 업무를 수행하는 별도의 조직을 만들 가능성이 높다”며 “여러 가지 형태를 염두에 두고 있는데 민간에서 참여하는 민관 협의체 형태가 될 수도 있다”고 설명했다.
이날 구글이 챗GPT에 대항하는 자사 AI 챗봇 ‘바드(Bard)’ 출시를 공식화하며 해외 빅테크를 중심으로 한 AI 언어 모델 패권 경쟁도 나날이 격화하는 양상이다. 챗GPT와 같이 전 세계적으로 주목받는 모델들은 해외 빅테크들이 내놓은 만큼 대부분 영어 데이터를 통해 고도화돼 한글 서비스 품질은 영어 대비 크게 떨어진다. 이 같은 상황에서 국가 차원에서 한글을 중심으로 평가 모델을 도입해 한글 기반 모델 육성에 나선 것으로 분석된다.
구정우 성균관대 사회학과 교수는 “현재 챗GPT 열풍 현상은 혁명이고 이 파고를 탈 수 없으면 경쟁에서 뒤처진다”며 “한글 문화권의 엔지니어, 인공지능 학자들, 정부 등 여러 이해관계자들이 책임을 느끼고 이 전쟁에 대비해야 한다”고 말했다.
국내 IT 기업 AI 논문 발표 1년 새 1.5배 ‘쑥’
구글·오픈AI 등 글로벌 빅테크들이 높은 이름값을 내세워 시장 패권을 쥐고 있지만 국내 기업들도 한글을 중심으로 한 모델 구축에 열을 올리고 있다. 우선 국내 기업들은 한글 기반의 서비스 품질에 한해서는 글로벌 빅테크를 이미 압도하고 있다. 대량의 한글 데이터를 바탕으로 특화 서비스를 내놓는가 하면 언어의 장벽 없이 해외 시장 진출이 가능한 이미지 모델 개발에도 한창이다.
토종 초거대 AI(대규모 슈퍼컴퓨터를 기반으로 고성능 연산이 가능한 AI) 모델의 상용화를 추진 중인 네이버·카카오(035720)·LG(003550)는 지난해 주요 글로벌 AI 학회에 합산 197건의 논문을 발표했다. 전년(130건)의 1.5배 수준이다. 이는 AI 연구개발(R&D)의 실적을 가늠하는 지표인 만큼 챗GPT발 위협에 맞서 ‘AI 기초 체력’을 한껏 끌어올리는 모습이다.
각 사는 스타트업 투자와 협업을 통한 AI 생태계 구축에도 한창이다. 네이버의 노코드 AI 플랫폼인 ‘클로바 스튜디오’는 500여 개 업체가 이용했고 LG AI연구원은 지난해 3월 계열사 포함 13개사와 엑사원 파트너십을 맺고 파트너사를 지속적으로 확대하고 있다. 카카오도 코지피티(KoGPT)와 칼로를 응용프로그램인터페이스(API) 형태로 외부 개발자에 개방했다.
챗GPT 맞설 국내 서비스 조만간 출격
국내 IT 기업들의 연구개발과 투자는 조만간 챗GPT에 대항할 서비스 상용화로 결실을 맺을 예정이다. 네이버는 상반기 ‘서치GPT’를 시범 출시한다. 2040억 개 매개변수를 가진 하이퍼클로바와 국내 최대 검색포털을 기반으로, 검색시장을 위협하는 챗GPT에 맞서 한국어 서비스만큼은 우위를 점하겠다는 전략이다. 하이퍼클로바는 오픈AI의 GPT3(챗GPT의 기반 모델인 GPT3.5의 옛 버전)보다 6500배 많은 한국어 데이터를 학습했다. 네이버 자회사 스노우의 AI 아바타도 출시 한 달 만에 유료 이용자 60만 명을 끌어들이고 매출 수십 억 원을 올렸다.
카카오브레인은 1분기 칼로의 전문가용 유료 서비스 출시를 준비하며 본격적인 생성 AI 수익화에 나선다. 이미지와 그에 대응하는 텍스트(데이터셋) 1억 8000만 쌍을 학습, 명령어를 입력하면 기존에 없던 그림을 그려주는 칼로는 출시 3개월 만에 174만 건의 명령을 수행했다. 국내 LG 엑사원의 전략도 크게 다르지 않다. 국내 최대인 3000억 매개변수 모델을 앞세워 기업간거래(B2B) 위주로 언어와 이미지 전반의 생성 AI 상용화 범위를 넓히는 중이다. AI에 전념하고 있는 이동통신사 역시 LG유플러스가 엑사원과 사업 연계를 추진하는 한편 KT(믿음·2000억 매개변수)와 SK텔레콤(에이닷·1750억 매개변수)도 경쟁에 뛰어들었다.
김태원 한국지능정보사회진흥원 수석연구원은 “아이폰 3G가 출시되며 이에 자극받은 국내 기업들이 경쟁에 참여해 스마트폰 기술력이 발전한 것처럼 챗GPT라는 서비스가 쏘아올린 공이 국내 AI 기술 발전을 추동할 것”이라며 “신기술이 등장할 때 막연한 두려움보다는 그것을 도구로서 어떻게 잘 활용하는가가 더 중요하며 국내 기업에도 기회가 충분하다”고 설명했다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >