전체메뉴

검색
팝업창 닫기
이메일보내기

"우리말 빅데이터 구축한다"...국어 말뭉치 사업 나서는 솔트룩스

국립국어원 '말뭉치 구축사업' 수주





국내 인공지능(AI)·데이터과학 전문기업 솔트룩스가 우리말 연구 관련 데이터를 정비하는 작업에 나선다.

솔트룩스는 국립국어원의 ‘구어 자료 수집 및 원시 말뭉치 구축 사업’을 수주했다고 12일 밝혔다.

이번에 솔트룩스가 국립국어원과 진행하는 사업은 ‘한국어 데이터베이스’를 마련하는 게 목적이다. TV·라디오 등 구어 원자료와 드라마·연극 대본 등의 준구어 원자료를 수집해 말뭉치를 구축하고 저작권 이용 계약까지 체결해 민간 활용 가치를 극대화하는 게 골자다. 말뭉치는 컴퓨터가 쉽게 가공·처리할 수 있게끔 텍스트를 데이터 형태로 정리한 것으로 각종 언어학 연구와 텍스트 기반 분석에서 원재료로 쓰인다.



솔트룩스는 지난해에도 국립국어원의 ‘국어 말뭉치 연구 및 구축 사업’을 수행한 바 있다. 그 외에도 한국전자통신연구원(ETRI)의 ‘음성 DB 구축’, 한국언론진흥재단의 ‘뉴스 빅데이터 시스템 구축’ 사업을 통해 빅데이터 구축 노하우를 쌓아왔다는 설명이다.

이처럼 솔트룩스와 국립국어원이 말뭉치 구축사업에 나선 건 우리나라의 말뭉치 데이터가 다른 국가에 비해 부족한 실정이기 때문이다. 한국어 말뭉치 데이터량은 총 2억어절이다. 총 2,000억 어절을 보유한 영어의 0.1% 수준이다. 800억 어절의 말뭉치 데이터를 갖고 있는 중국보다도 적다. 이경일 솔트룩스 대표는 “자체 보유한 AI 원천 기술력과 국내 최다 AI 서비스 개발 경험을 통해 반드시 사업을 성공적으로 수행하겠다”고 말했다.
/심우일기자 vita@sedaily.com
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >
주소 : 서울특별시 종로구 율곡로 6 트윈트리타워 B동 14~16층 대표전화 : 02) 724-8600
상호 : 서울경제신문사업자번호 : 208-81-10310대표자 : 손동영등록번호 : 서울 가 00224등록일자 : 1988.05.13
인터넷신문 등록번호 : 서울 아04065 등록일자 : 2016.04.26발행일자 : 2016.04.01발행 ·편집인 : 손동영청소년보호책임자 : 신한수
서울경제의 모든 콘텐트는 저작권법의 보호를 받는 바, 무단 전재·복사·배포 등은 법적 제재를 받을 수 있습니다.
Copyright ⓒ Sedaily, All right reserved

서울경제를 팔로우하세요!

서울경제신문

텔레그램 뉴스채널

서경 마켓시그널

헬로홈즈

미미상인