“인공지능(AI)이 새로 배울 만한 양질의 데이터가 2026~2032년 인터넷상에서 고갈될 것입니다.” 미국의 정보기술(IT) 연구기관인 에포크AI가 지난해 6월 이 같은 전망을 내놓자 과학기술계는 술렁였다. 챗GPT 등 초거대 AI들은 인터넷에 무료로 공개된 자료들을 학습하면서 발전해왔는데 쓸 만한 데이터들을 이미 거의 습득해 새로 배울 자료를 구하기 어렵게 됐다는 것이다. 학습 정보의 부족은 AI 성능의 발전 정체를 초래하게 된다. 해법으로 ‘합성데이터(synthetic data)’가 떠올랐다. 영국 언론 매체 옵서버는 2025년 주목할 만한 5대 AI 트렌드 중 하나로 합성데이터를 꼽았다.
합성데이터는 현실 세계의 데이터들을 분석한 것을 토대로 실제와 유사한 상황을 재연하도록 창조된 인공 정보다. 금융기관의 AI가 증권 사기 방지 능력을 깨우치는 데 필요한 학습 자료를 충분히 확보하지 못한 상황을 예로 들 수 있다. 이 경우 기존에 공개된 금융 거래 정보들을 분석해 발생 개연성이 높은 거래 패턴들을 묘사한 합성데이터를 만들어주면 AI가 정상 거래와 비정상 거래를 가려내는 훈련을 할 수 있다. AI 학습용 데이터 수요는 급증하고 있다. 시장 분석기관 리서치앤드마켓은 해당 데이터의 전 세계 시장 규모가 지난해 28억 2000만 달러에서 2029년 95억 8000만 달러까지 커질 것으로 전망했다.
합성데이터도 결국 AI 기술을 통해 생산된다. AI가 인간의 지식을 배우는 단계를 넘어 AI끼리 서로 가르치고 초지능을 일깨우는 시대가 도래하고 있다. 오픈AI가 2022년부터 공개 운영 중인 챗GPT가 인간에게 가르침을 받았다면 이 회사의 차세대 AI ‘오리온’은 합성데이터를 습득하며 개발되고 있다. 한국산 AI는 챗GPT 수준에도 못 미치는데 세계적인 데이터 보안 규제 강화 및 인터넷 정보 유료화 추세로 인해 인지능력 개발에 사용할 자료조차 확보하기 어렵게 됐다. 이를 극복하려면 AI 학습용 데이터 및 기술 개발, 인프라·인재 확보에 총력 투자해야 한다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >