중국 기술 기업이 대규모언어모델(LLM) 기반 생성형 인공지능(AI) 분야에서 고군분투하고 있는 가운데 중국 정부가 AI 분야까지 검열을 넓히고 있는 것으로 나타났다. 시진핑 중국 국가주석과 관련된 검색어나 정치적으로 민감한 내용에 대해 중국 정부가 만족할 만한 답변을 내놓아야 개발이 허용된다.
17일(현지 시간) 파이낸셜타임스(FT)에 따르면 중국 사이버공간관리국(CAC)은 바이트댄스·알리바바·문샷 등 기술 기업이 개발 중인 LLM이 의무적으로 정부 검토에 참여할 것을 강요하고 있다. 정부가 민감하게 여기는 사건이나 시 주석 관련 질문에 대한 LLM의 답변을 일괄 테스트하는 내용이 포함된다. 예를 들어 천안문 사태가 발생했던 “1989년 6월 4일 무슨 일이 있었나”라든가 “시 주석이 곰돌이 푸를 닮았나”와 같은 질문은 문제가 된다. 검열은 CAC 공무원들이 직접 수행하며 모델의 학습 데이터 및 기타 안전 프로세스에 대한 검토도 포함한다. FT는 “중국은 집권 공산당이 유해하다고 간주하는 외국 웹사이트와 기타 정보를 차단하는 ‘만리장화벽’을 도입한 지 20년 만에 AI와 AI가 생성하는 콘텐츠를 관리하기 위해 세계에서 가장 엄격한 규제 체계를 마련했다”고 짚었다.
정부의 까다로운 검열 문턱을 넘기 위해 중국 기술 기업들은 LLM이 내놓을 수 있는 부적절한 답변을 미리 걸러내는 ‘필터링’ 기술을 빠르게 습득하는 중이다. 이런 필터링은 학습 데이터에서 문제가 되는 정보를 빼고 민감한 키워드에 대한 데이터베이스를 구축하는 식으로 이뤄진다. 앞서 2월 발표된 운영 지침에 따르면 중국 AI 기업은 국가 권력 전복을 선동하거나 국가 통합을 저해하는 등 ‘핵심 사회주의 가치’를 위반하는 수천 개의 민감한 키워드와 질문을 수집하고 매주 업데이트해야 한다. 이로 인해 중국 AI 챗봇들은 민감한 주제를 묻는 질문 대부분을 거부한다. 실제 바이두의 생성형 AI ‘어니(ERNIE)’는 “다른 질문을 해보라”고 하고 알리바바의 LLM ‘퉁이첸원’은 “해당 질문에 대답하는 방법을 아직 배우지 못했다”고 답한다.
다만 중국 정부는 ‘대답을 못하는’ LLM에 대해서도 엄격하다. CAC의 테스트는 LLM이 거부할 수 있는 질문을 전체의 5% 이하로 제한했다. 업계의 한 관계자는 문샷의 LLM 키미(kimi)를 예로 들며 “시 주석 관련 질문의 대부분을 거부하도록 설정했기에 비교적 덜 노골적인 인권 등에 관한 질문에는 올바른 답변을 생성할 수 있는 방법을 찾아야 하는 상황”이라고 설명했다.
이런 상황이지만 중국 기술 기업의 생성형 AI 개발 열풍은 현재 진행형이다. 이코노미스트 등에 따르면 중국 내수 시장은 최소 200개 이상의 LLM으로 붐비고 있으며 세계 상위 20위권에 드는 고성능 LLM 중 5개가 중국 모델이다. 중국 LLM 관련 매출은 올해 220억 위안(4조 1500억 원)에서 5년 뒤 5배 더 늘어날 것으로 전망된다. 지난해까지 미국과 10년 이상 벌어진다고 여겨졌던 기술 격차 역시 이제는 1년 이내로 줄어들었다는 분석이 나온다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >