네이버가 24일 생성형 AI 서비스 ‘하이퍼클로바X’를 내놓는다. 2021년 5월 공개한 ‘하이퍼클로바’의 업그레이드 버전이다.
네이버는 국내 AI 시장 수성은 물론, 관계사 라인과 야후재팬의 통합법인 ‘LY코퍼레이션(10월 출범 예정)’이 활약하고 있는 일본 AI 시장에서도 성과를 낼 것이라 보고 있다. 비영어권 국가이자 자국 데이터 주권에 관심이 많은 스페인, 멕시코는 물론 아랍어를 쓰는 중동 국가들도 네이버AI의 공략 대상이다.
네이버 “한국어 AI는 하이퍼클로바X가 최고”
네이버 AI 서비스의 강점은 한국어에 최적화된 서비스라는 점이다. 한국어 중심의 초거대AI는 한국어에 최적화된 ‘토큰(token)’을 배정하게 돼 있다. 토큰은 인공지능 학습용으로 모아 둔 ‘말뭉치’로, 문장을 만들어내는데 사용되는 토큰이 많아질수록 생성형AI의 연산 과정 및 연산 시간도 길어질 수밖에 없는 구조다. 그만큼 짧은 연산과정을 거쳐 답변을 내놓기 때문에, 서비스 비용이 영어기반의 거대언어모델(LLM) 대비 낮다.
실제 같은 한국어 답변을 내놓더라도 영어 중심의 구글 ‘바드’ 및 오픈AI의 ‘챗GPT’와 달리 하이퍼클로바X는 보다 적은 토큰을 사용한다. 예를 들어 ‘놀이터에 놀러가고 싶어.’라는 한국어 문장의 경우 챗GPT는 30개의 토큰으로 분류한다. ‘놀’이라는 글자하나를 놓고 보면 ‘ㄴ’, ‘ㅗ’, ‘ㄹ’이라는 자음 및 모음 각각을 토큰으로 분류해 총 3개의 토큰을 할당하는 구조이기 때문이다. 이 때문에 ‘놀이터에 놀러가고 싶어’라는 문장에는 총 30개의 토큰이 사용된다.
반면 챗GPT는 ‘놀이터에 놀러가고 싶어’와 같은 뜻의 영어 문장인 ‘I want to go to the playground.’에는 8개라는 훨씬 적은 수의 토큰만 반영한다. 챗GPT가 같은 뜻의 문장을 작성하더라도 한국어에 영어 대비 4배 가량 많은 힘을 쏟아야 하는 셈이다.
반면 네이버는 한국어 문장을 띄어쓰기, 음절, 형태소 등을 기준으로 하이퍼클로바X를 토큰화 할 예정이다. 이에 따라 하이퍼클로바X가 ‘놀이터에 놀러가고 싶어.’라는 문장 생성을 위해 사용하는 토큰 개수도 챗GPT의 3분의 1 에 못 미칠 전망이다. 한국어 기반의 챗봇 서비스에 메타나 마이크로소프트와 같은 빅테크 LLM 대신 네이버의 하이퍼클로바X LLM을 사용한다면, 훨씬 적은 비용만 지불하면 되는 셈이다.
특히 LLM에 자사 서비스를 ‘플러그인’ 형태로 연결시켜 신규 수익모델을 창출하려는 기업들 입장에서는 한국어에 최적화된 네이버의 LLM을 사용할 경우 상당한 비용절감 효과를 거둘 수 있을 전망이다. 네이버가 오는 24일 하이퍼클로바X 공개 시 기술력 과시와 함께 상업모델 로드맵 공개에 초점을 맞춘 발표를 하려는 이유다. 네이버는 향후 자사 LLM에 스페인어, 아랍어, 일본어를 대규모로 학습해 토큰을 최적화 할 경우 이들 국가의 AI 시장 장악까지 가능할 것이라 보고 있다.
빅테크와 자금력·인프라 격차 커…'AI최적화 승부수' 통할까?
물론 네이버의 하이퍼클로바X에는 약점도 많다. 성낙호 네이버클라우드 하이퍼스케일 AI 기술총괄은 석달전 한 외신과의 인터뷰에서 “기술적 관점에서 우리(네이버)의 기술은 오픈AI의 챗GPT 대비 8개월 가량 뒤쳐져 있다”며 기술격차를 인정한 바 있다. ‘졸면 죽는다’는 말이 진리처럼 통용되는 IT 업계에서 8개월간의 기술격차는 어마어마한 차이다. 인터뷰 후 석달 가량이 지났지만 네이버가 오픈AI와의 기술격차를 얼마나 좁혔는지에 대해서는 여전히 물음표가 붙는다.
자금력과 규모의 경제 측면에서도 네이버는 여타 빅테크 대비 불리하다. 네이버의 올 상반기 별도 기준 현금 및 현금성 자산은 5848억원으로 2021년 말의 9644억원 대비 크게 줄었다. 네이버가 포쉬마크를 필두로 중고거래 및 웹툰 기업 인수·합병에 힘을 쏟으며 자금 동원력이 크게 줄어든 탓이다. 네이버는 최근 판교테크원타워(알파돔시티 6-2블록) 보유 지분 45.08%를 싱가포르투자청(GIC)에 3500억 원에 매각하는 등 자금 확보에 주력하고 있다.
특히 별도기준 네이버의 현금 및 현금성 자산 보유액은 오픈AP가 지난해 기록한 손실규모(5억4000만달러)에도 미치지 못한다. 하이퍼클로바X 공개 후 적절한 수익모델을 찾지 못한 채 이용자 수만 빠르게 늘어날 경우, 네이버의 보유 현금이 바닥날 수 있는 구조인 셈이다.
하드웨어 인프라 구축 면에서도 네이버는 불리하다. LLM 인프라 구축에는 빅데이터 학습에 최적화 된 엔비디아의 그래픽처리장치(GPU)가 반드시 탑재돼야 한다. LLM 기반의 답변을 내놓은 추론형 칩에는 엔비디아 제품 외에도 리벨리온, 사피온, 퓨리오사AI 등 한국 기업의 AI 전용 칩을 사용해도 되지만 학습용 칩은 엔비디아의 GPU 외에는 대안이 없다. 이 때문에 엔비디아 GPU ‘H100’ 가격은 지난해 3만6000달러 수준이었지만 올 상반기 4만6000달러 까지 치솟기도 했다.
문제는 현재 엔디비아 GPU 발주를 하더라도, 석달 뒤에나 이를 받을 수 있을 정도로 ‘돈이 있어도 구할 수 없는’ 상황이 지속되고 있다는 점이다. 특히 마이크로소프트, 메타, 구글 등이 엔비디아 GPU 확보에 팔을 걷어 붙이고 있는 만큼 상대적으로 적은 물량을 발주하는 네이버 입장에서는 가격협상력 및 구매계약 등에서 빅테크 대비 불리한 점이 여럿이다. 향후 LLM 관련 빅데이터 확보 및 소프트웨어 경쟁력이 평준화 되고 GPU와 같은 하드웨어 성능이 중요 차별화 포인트로 부각될 경우, 네이버의 LLM 경쟁력에 물음표가 붙을 수 있는 셈이다. 네이버는 삼성전자와 손잡고 이 같은 약점을 극복한다는 방침이지만 이 또한 추론형 AI칩에 국한돼, 학습용 AI칩 수급 불안은 두고두고 네이버의 근심거리가 될 전망이다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >