서울대 연구팀이 인공지능(AI)를 이용해 법원 판결문 내 개인정보를 빠르게 비식별화하는 기술을 개발했다.
8일 이재진 교수가 이끄는 서울대 데이터사이언스대학원 연구팀은 판결문의 개인정보를 비식별화하는 ‘SNU Thunder-DeID 모델’을 개발했다고 밝혔다.
연구팀은 개발 과정에서 강제추행·폭행·사기 등 3가지 형사 사건으로 구성된 4500건의 판결문으로부터 2만 7000여 개의 개체를 추출하는 방식을 이용했다. 이후 수작업으로 이를 라벨링한 뒤 595종의 세분화된 개인식별정보 유형 체계를 수립해 정밀하게 비식별 처리가 가능하도록 학습 데이터를 구축했다.
헌법 제109조에 따르면 판결문은 민·형사 소송법 관련 규정에 제시된 절차와 근거를 바탕으로 열람 및 복사가 가능하다. 여기에 더해 법원은 판결서 등의 열람 및 복사를 위한 비실명 처리기준 규정에 따라 판결문 내 개인정보와 간접식별정보(다른 정보와 결합해 개인을 식별할 수 있게 하는 정보)를 가리고 공개해야 한다.
그러나 2019년 발표된 ‘판결문 공개 확대를 위한 국회토론회’ 자료에 따르면 법원행정처의 ‘지능형 비식별 시스템’ 정확도는 15%에 불과하다. 법원행정처에 따르면 시스템의 처리율도 8% 수준으로 매우 낮은 상황이다. 대부분의 비식별화 작업이 수작업에 의존하게 되면서 재판 공개가 병목 현상을 빚는 이유다.
연구팀이 개발한 AI 모델은 판결문 내 표현의 비식별화 대상 여부를 99% 이상의 정확도로 판별하는 것으로 나타났다. 이름·주소·기관명 등 비식별화 대상으로 판별된 항복의 세부 유형 분류도 89% 이상의 성능이 측정됐다.
연구팀은 “헌법상 재판공개의 원칙에 따라 국민에게 공개되어야 하는 판결문이 비식별화 작업의 병목으로 인해 원활히 공개되지 못하고 있다”면서 “이 연구는 AI 기술이 단순한 기술적 성능을 넘어, 공공성과 법적 가치를 함께 고려할 수 있는 수단이 될 수 있다는 점을 보여준다”고 밝혔다.
연구팀은 이번 연구에서 개발한 모델과 데이터셋, 데이터 구축 과정에 사용된 소스코드를 공개했다. 모델 관련 정보들은 법원·검찰·변호사 단체 등에서 판결문과 재판기록물 공개를 위한 자동 비식별 처리 시스템으로 활용될 수 있다. 연구팀은 형사 사건뿐 아니라 민사 사건과 행정·특허 소송 판례, 진술서·수사보고서 등 다양한 재판기록물을 아우르는 법률 특화 언어모델 연구의 기반을 마련하는 것을 목표로 후속 연구를 이어갈 전망이다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >