저장된 데이터는 언젠가 활용될 것을 전제로 한다. 먼 훗날 역사를 정리하기 위한 것이든 좀 더 즉각적으로 데이터를 집적해 분석하기 위한 것이든 데이터는 활용 가능성을 묵시적으로라도 전제한다. 추출해서 이용하게 될 가능성이 전혀 없다면 데이터를 아예 저장할 필요도 없다. 저장과 관리에도 당연히 비용이 수반되는데 이를 고려하면 장차 이용될 가능성이 없는 데이터는 처음부터 폐기하는 것이 낫다.
그렇다면 데이터 이용이 필요한 상황에서는 데이터를 어떻게 추출해서 활용해야 할까. 개인정보가 담긴 데이터베이스(DB)라면 비식별 처리를 하고 난 뒤 이용하면 되지 않을까 생각할 수 있다. 좀 더 구체화해서 생각하기 위해 여러 환자에 관한 데이터가 포함된 의료 데이터를 비식별 처리하는 상황을 고려해 보자. DB에서 이름, e메일 주소, 그 외에 식별용으로 이용될 수도 있는 전화번호나 환자 번호 등 온갖 유형의 번호와 날짜 데이터를 삭제해서 이용하는 것은 어떤가.
이렇게 특정 유형의 데이터를 일괄 삭제한 뒤 남는 데이터를 이용하도록 하는 방식은 미국에서 의료 데이터와 관련해 이미 도입돼 있다. 그런데 이 방식에 대해서는 상반된 평가가 존재한다. 우선 번호를 포함한 특정 데이터를 모두 삭제한 후에는 해당 DB를 다른 데이터와 결합해서 분석하거나 시계열 분석을 하는 것이 거의 불가능하다. 따라서 이로부터 의학적으로 의미 있는 결과를 도출하기 어렵다는 부정적인 반응이 있다. 다른 한편에서는 번호 유형의 데이터를 삭제하더라도 DB에 남은 여러 속성 정보로부터 개인이 식별될 가능성이 여전히 남아 있기 때문에 이 방식은 한계가 많다는 주장이 있다.
이처럼 일정 유형의 데이터 항목을 일괄적으로 삭제하는 것은 방법론적으로는 매우 간단하고 명료하지만 동시에 매우 불완전한 방식이기도 하다. 이는 데이터의 유용한 활용 가능성을 충분히 확보하기 어려운 한편 개인정보의 재식별 가능성 또한 여전히 남아 있을 수 있다는 한계가 동시에 존재하기 때문이다.
학계와 실무계에서는 이런 방법론적 한계를 극복하기 위해 다양한 시도를 해왔다. 특히 최근에는 인공지능(AI)과 관련한 데이터 수요가 폭증하고 있어 AI 맥락에서 개인정보 보호를 가능하게 하는 동시에 AI 학습에도 도움이 되는 방법이 어떤 것일지에 관해 관심이 크게 늘고 있다. 여기에는 데이터의 통계적 특성을 파악한 뒤 그로부터 새로운 합성 데이터를 만드는 방법, 중앙 집중식 DB를 마련하는 대신 각각의 단말 기기에 저장된 데이터를 이용해 AI 학습을 한 후 결과값을 모아서 추가적 학습을 하는 방법 등 다양한 방법론이 있다.
결국 개인정보를 손쉽게 비식별화하는 방법이란 없다. 개인정보가 소중하고 이를 둘러싼 사회경제적 현실이 복잡해진 만큼 처리에도 그에 상응하는 깊은 관심이 요구된다. 비식별 처리도 마찬가지다. 지금까지보다 훨씬 더 많은 관심과 본격적인 투자가 필요하다. 늘 그렇듯 공짜 점심은 없다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >