네이버가 소버린 AI(Sovereign AI)를 주장하고 있다. 왜 그랬을까? 이를 곰곰이 생각해 보면, 내부에서 검색과 AI가 충돌하고 있는 것은 아닐까라는 생각이다. 합리적인 의심은 이렇다. 최근 발표된 네이버의 AI 전략은 서비스에 AI를 융합하는 모양새다.
그동안 네이버는 저작권을 제한하는 데이터마이닝(TDM)의 도입하는 저작권법 개정에 부정적이었다. 누구나 쓸 수 있도록 데이터가 개방되면, 네이버는 한글에 대한 독점력을 유지하기는 어려울 것이기 때문으로 이해된다. 경쟁관계에 있는 구글이나 OpenAI와 같은 글로벌 기업들도 한글 데이터에 대한 제한없는 이용이 가능해지기 때문이다.
검색을 위해서는 데이터를 제한없이 크롤링할 수 있도록 저작권이 제한되어야 하지만, AI를 위해서는 데이터를 개방하면 글로벌 기업들에게 경쟁력을 빼앗길 수 있기 때문에 개방하기 어렵다는 것이다. 여기에서, 검색과 AI 부문이 충돌하게 된다. 이는 구글도 다르지 않다.
AI 모델 학습은 지속적인 데이터가 필요하다. 그동안 네이버는 적잖은 비용을 투자했지만, 뚜렷한 성과를 보이지 못하고 있다. 앞으로도 마찬가지다. 글로벌 기업의 수조원 단위의 R&D와 비교할 수 없기 때문이기도 하다. 더군다나, 네이버의 경쟁력인 한글화에 있어서도 글로벌 AI 서비스에 경쟁우위에 선다고 보기도 어렵다. 글로벌 기업들이 제공하는 서비스에서도 한글 정보는 이미 네이티브를 넘어서고 있다. 앞으로, 더 넘어설 가능성이 크다.
그동안 네이버 검색은 한글을 기반하여 성장해 왔다. 그 덕분에 엠파스가 사라지고 야후도 국내시장에서 철수했다. 현재 검색시장의 경쟁은 네이버의 독점 내지 과점으로 이어졌다. 구글의 점유율도 상당히 높아지고 있다. 이는 경쟁을 통한 서비스 향성과 소비자 후생이 높아질 수 있다는 점에서 긍정적이다.
글로벌 시장에서 한글은 특정 기업이 독점적인 마케팅을 주장할 가치가 아니다. 글로벌 시민 모두가 누려야 할 가치이다. 이러한 가치를 국내 기업이라고 오로지 할 수 있는 것은 아니다. 글로벌 시민이 한글을 제대로 익히고, 제대로 된 한글정보를 얻을 수 있도록 해야 한다. 그것이 대한민국과 네이버를 포함한 우리기업의 책무이다. 네이버이기 때문에 한글을 독점해야 한다는 논리는 글로벌 시장에 진출하고자 하는 기업의 전략으로는 옹색하다. 소비자는 자신의 의지에 따라 네이버를 쓰고, 구글을 쓰고, 네이버 쇼핑을 이용하거나 11번가를 선택할 수 있다. 멀티호밍(multihoming)이 가능하다. 이는 독점에 대한 네이버의 대응논리이기도 하다. 소비자는 합리적인 선택을 하기 때문에 필요에 따라 다른 플랫폼을 이용할 수 있다는 것이다.
AI는 더욱더 그러하다. 챗GPT나 제미나이(gemini)와 같은 글로벌 AI 서비스의 한글은 우리 국민들이 쓰기에도 어색함이 없다. 부족하더라도, 그 내용을 극복할 수 있는 문해력이 있기 때문이다. 그렇지만, 해외 시민들이 한글을 쓸려고 할 때 문제는 없을까? OpenAI, MS, 구글 등 수많은 AI기업들이 한글 서비스를 확장하고 있다. 그렇지만, 여전히 어색하고 의미와 다른 정보가 출력된다. 이 책임은 기본적으로 그 회사에 있다. 그렇지만, 그 책임을 회사에 돌리고 부정확한 한글정보가 노출되지 않은 것에 불평만 할 것인가? 그 사이에 우리나라의 문화를 이해하고 향유하기 위해 한글정보를 얻고자하는 글로벌 시민들은 한글과 대한민국에 대한 신뢰를 상실하지 않을까? 이러한 점도 고려돼야 한다.
네이버는 소버린 AI를 주장한다. 좀더 정확히는 한글 데이터 주권을 주장하고 있는 것으로 보인다. 우리가 아니면, 한글을 지켜낼 수 없다는 주장이다. 좀 어색하다. 그런데, 네이버는 중동, 사우디아라비아와 같은 시장에서 소버린 AI를 통해 현지 언어와 문화에 맞는 AI 솔루션을 제공하며 글로벌 진출을 가속화하고 있다. 네이버를 응원한다. 그렇지만, 소버린 AI에 한글을 볼모삼는 것은 지극히 잘못된 마케팅이다. 이는 다중적이거나, 양면적이기도 하다.
한 가지 의문, 네이버는 어디에서 학습데이터를 소싱하고 있을까? 추측컨대, 모르긴 몰라도 크롤링이 가능한 모든 정보가 포함돼있을 것이다. 이용자의 노력의 산물인 블로그나 카페와 그리고 인터넷에 무수하게 공개된, 그렇지만 여전히 저작권 있는 개인의 정보였을 것이다. 그 안에는 KINDS나 기사를 제공하는 언론사의 수많은 기사가 포함되어 있을 것으로 생각된다. 권리자단체에서 데이터 출처 공개를 요구했을 때, 답할 수 없었던 이유이기도 할 것이다.
EU AI법이나 미국의 저작권법 개정안에서는 학습데이터에 사용된 저작권 관련 정보를 충분히 공개하도록 하거나 저작권청에 제출토록 의무화하고 있다. 어떤 저작물이 사용되었는지 공개되어야 한다는 의미이다. 이용하는 데이터가 윤리적이어야 한다는 것이고, 그렇지 않을 경우 신뢰할 수 없기 때문이기도 하다. 어떤 데이터를 사용했는지를 공개한다면, AI 사업자는 해당 서비스에 대해 신뢰할 수 있는 결과를 만들려고 법적, 윤리적인 노력을 할 것이다.
적어도, 소버린 AI를 주장하려면 권리자들에 어떤 보상을 할 것인지, 데이터 배당이나 데이터 보상에 대해 고민했어야 한다. 저작권은 권리자의 전가의 보도는 아니지만, 데이터를 아무런 보상없이 이용하면서 그 결과에 대해서까지 독점하는 것은 이치에 맞지 않다. 네이버 회원이기도 한 일반 이용자로서 저작권자에 대한 데이터배당은 고민해야할 것이다. 플랫폼 내에서 그 가치는 산정할 수 있을 것으로 보인다. 데이터 하나하나에 고유의 id값이 부여될 것이기 때문이다.
기업이 권리나 필요를 주장하기 위해서는 합리적이고, 윤리적인지도 검토돼야 한다. 기업의 주장은 그래야 한다. 적어도 정책적인 사항에 대해서는 마케팅과는 달라야 한다. 알고리즘 조작을 앞세워 자사의 이익을 극대화하고 소비자의 후생을 저해하는 행위를 하면서 자율규제를 주장하는 플랫폼사업자들을 신뢰하기는 어렵다. 공정거래위원회로부터 수백억원대의 과징금 처분을 받고, 고등법원에서 패소한 네이버의 행태를 보면서, 소버린 AI를 주장하는 것은 표리가 부동한 지금 대한민국의 현실과도 맞닿아있다면 나만의 우려인가?
특정 기업을 몰아주거나 반대하자는 것이 아니다. 필자는 국회 보좌관 시절, 모시던 의원을 설득하여 네이버의 데이터주권을 위한 국회 세미나를 4차례 정도 기획하여 진행한 바 있다. 최근 구글의 디지털책임위원회 위원으로서 구글의 사회적 책임(responsibility)에 대해 논의하기도 했다. AI만이 공정하고 투명해야 하는 것이 아니다. 그 기업이 사회적 책임을 다하고 있는지를 먼저 살펴야 한다는 것이다.
*외부 필자의 원고는 본지의 편집방향과 일치하지 않을 수도 있습니다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >