[초거대AI 개발 전쟁] AI 구동 인프라만 수천억…'데이터 공유·稅지원 필수'

“초거대 인공지능(AI) 개발 비용은 크게 데이터 확보, 그래픽처리장치(GPU) 등 컴퓨팅 부문 투자, 인력 확보로 나뉩니다. 세 분야가 모두 중요하지만 데이터 확보에 생각보다 많은 비용이 들어갑니다. 한국어로 된 콘텐츠가 부족하기 때문이죠.”

최근 만난 국내 대기업 산하 AI 연구소 관계자는 초거대언어(LLM) 기반 AI 서비스 개발 비용 중 데이터 관련 비중이 높다며 이 같이 밝혔다. 이 관계자는 “전세계 온라인 콘텐츠 중 한국어로 작성된 콘텐츠가 0.5% 수준에 불과하기 때문에 AI를 학습시키기 위해 영어로 작성된 콘텐츠와 데이터를 구입해야 한다”며 “이 같은 상황이 이어진다면 국내 AI 업체의 해외 시장 공략은 커녕 한국시장 수성도 어려울 수 있다”고 우려했다.

마이크로소프트(MS)와 구글, 메타(페이스북) 등 글로벌 빅테크들이 LLM 기반 AI 서비스를 잇따라 공개하며 국내 IT 기업들의 발등에 불이 떨어졌다. 국내 기업들은 생성형 AI 서비스 고도화를 위해 정부나 학계가 보유한 각종 빅데이터 공유는 물론 신경망처리장치(NPU) 등 반도체 생태계 확대를 위해 보조금 지급과 세제 지원이 필요하다고 주장한다. 정부가 조만간 대응책을 내놓겠다는 방침이지만 막대한 자본력과 빅데이터를 확보한 해외 빅테크와의 격차가 갈수록 벌어질 수 있다는 우려가 커지는 모습이다.

20일 정보기술 업계에 따르면 국내 AI 업체들은 잇따라 초거대 AI 모델을 공개 중이다. 네이버는 7월 챗GPT 대비 한국어 학습을 6500배 이상 수행한 ‘하이퍼클로바X’를 공개해 안방시장 수성에 나선다. 카카오의 AI 자회사 카카오브레인은 한국형 챗봇 AI인 ‘코챗 GPT’를 연내 공개한다는 계획이며 LG그룹과 KT도 각각 ‘엑사원’과 ‘믿음’을 선보이고 경쟁에 가세한다.

문제는 압도적 자본력과 기술력을 바탕으로 ‘규모의 경제’를 확보한 글로벌 빅테크와의 경쟁이 쉽지 않다는 것이다. 오픈AI가 최근 내놓은 GPT-4는 ‘파라미터(매개변수)’를 3000억~6000억 개 사용됐을 것으로 추정되며 1대 당 1만5000달러 이상인 엔비디아의 GPU ‘A100’ 1만여대가 GPT-4의 기계학습에 사용된 것으로 알려졌다. 오픈AI가 향후 내놓을 신규 버전의 GPT는 보다 많은 학습이 필요하다는 점에서 A100보다 성능이 높은 H100과 같은 GPU를 사용할 가능성이 높다. 생성형 AI 구동 인프라에만 수천억 원이 기본으로 투입돼야 하는 셈이다. 구글과 메타 등도 이 같은 컴퓨팅 인프라 구축에 최소 수천억 원을 쏟아부을 것으로 전망된다.

한국 기업들은 초거대 AI 주도권 경쟁에서 낙오하지 않기 위해서는 데이터 확보나 기술 고도화에 정부 지원이 필수라는 입장이다. 백상엽 카카오엔터프라이즈 대표는 “생성형 AI 시대의 필수 요소가 데이터, 컴퓨팅 인프라, AI모델인데 이 중 막대한 비용이 투입돼야 하는 대규모 컴퓨팅 인프라 구축에는 정부 지원은 물론 대기업과의 협업이 필수”라며 “결국 초거대 AI에 대한 연구·개발 투자와 관련 응용 서비스 개발 및 데이터산업 육성, 클라우드용 인프라 투자 등이 복합적으로 진행되지 않을 경우 외국산 AI 플랫폼에 관련 국내 산업 생태계가 종속되고 미래 산업 경쟁력을 갖추기도 쉽지 않을 것”이라고 우려했다. 배경훈 LG AI연구원장도 “현재 데이터를 보관하는 클라우드 분야는 구글이나 아마존에 대한 의존도가 높은데 클라우드 인프라를 공급하는 한국 업체에 인센티브 제공이 필요해 보인다”며 “또 한국 업체가 만든 AI용 칩 사용시에도 각종 인센티브를 줘야 한다”고 밝혔다. 양승현 SK텔레콤 최고기술책임자(CTO)는 “LLM을 학습할 수 있는 충분한 데이터가 없어 데이터 구매에만 이미 상당한 비용을 지출했다”면서 “정부가 데이터 생태계 조성에 조금 더 힘을 기울이고 학습 데이터 관련 저작권 문제에 대해서도 가이드라인을 제공해 준다면 기업 입장에서는 상당히 도움이 될 것”이라고 밝혔다.

대기업과 중소기업 간 생태계 구축에 힘을 기울여야 한다는 목소리도 높다. 김유원 네이버클라우드 대표는 “범용 AI 학습에도 많은 비용이 들지만 추론용 AI 학습에도 상당한 컴퓨팅파워가 소요된다”며 “네이버가 선도적 투자를 하더라도 (AI칩 개발 스타트업을 비롯한) 중소업체와 함께 생태계를 만들어가는 것이 중요하다”고 밝혔다.

과학기술정보통신부는 이 같은 의견을 수렴해 이달 중으로 ‘초거대 AI산업 정책방향’을 공개한다는 계획이다. 다만 예산 투입·세제 지원·빅데이터 공개 등 부처 간 조율이 필수인 사안이 대부분이라 실효성있는 정책이 나오지 못할 가능성이 크다. 조준희 한국소프트웨어산업협회장은 “한글 데이터로 학습한 국산 AI에 만족하지 못하는 이용자들은 외국에서 만든 챗봇형 AI를 활용하는 것이 효과적이라고 판단할 것"이라면서 “결국 초거대 AI 고도화 전략은 NPU나 GPU와 같은 컴퓨팅 인프라와 학습용 데이터를 어떻게 확보할 것이냐의 문제로 귀결될 수 밖에 없다"고 강조했다.