국내 인공지능(AI)·데이터과학 전문기업 솔트룩스가 우리말 연구 관련 데이터를 정비하는 작업에 나선다.
솔트룩스는 국립국어원의 ‘구어 자료 수집 및 원시 말뭉치 구축 사업’을 수주했다고 12일 밝혔다.
이번에 솔트룩스가 국립국어원과 진행하는 사업은 ‘한국어 데이터베이스’를 마련하는 게 목적이다. TV·라디오 등 구어 원자료와 드라마·연극 대본 등의 준구어 원자료를 수집해 말뭉치를 구축하고 저작권 이용 계약까지 체결해 민간 활용 가치를 극대화하는 게 골자다. 말뭉치는 컴퓨터가 쉽게 가공·처리할 수 있게끔 텍스트를 데이터 형태로 정리한 것으로 각종 언어학 연구와 텍스트 기반 분석에서 원재료로 쓰인다.
솔트룩스는 지난해에도 국립국어원의 ‘국어 말뭉치 연구 및 구축 사업’을 수행한 바 있다. 그 외에도 한국전자통신연구원(ETRI)의 ‘음성 DB 구축’, 한국언론진흥재단의 ‘뉴스 빅데이터 시스템 구축’ 사업을 통해 빅데이터 구축 노하우를 쌓아왔다는 설명이다.
이처럼 솔트룩스와 국립국어원이 말뭉치 구축사업에 나선 건 우리나라의 말뭉치 데이터가 다른 국가에 비해 부족한 실정이기 때문이다. 한국어 말뭉치 데이터량은 총 2억어절이다. 총 2,000억 어절을 보유한 영어의 0.1% 수준이다. 800억 어절의 말뭉치 데이터를 갖고 있는 중국보다도 적다. 이경일 솔트룩스 대표는 “자체 보유한 AI 원천 기술력과 국내 최다 AI 서비스 개발 경험을 통해 반드시 사업을 성공적으로 수행하겠다”고 말했다.
/심우일기자 vita@sedaily.com
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >