뉴스 기사가 경기 예측에 도움이 될 수 있다는 분석이 나왔다. 뉴스 기사에 사용된 단어를 분석해 만든 경제지표가 공식 통계보다 최대 9개월 선행한다는 것이다. 뉴스 텍스트 기반 경제지표로 보다 신속하고 정확한 경기 예측이 가능할 수 있다는 기대가 나온다.
16일 서범석 한은 경제통계국 통계연구반 과장은 ‘뉴스 텍스트를 이용한 경기 예측: 경제 부문별 텍스트 지표의 작성과 활용’ 보고서를 통해 이같이 밝혔다.
최근 경기 예측과 관련한 많은 연구는 뉴스 텍스트 빅데이터에 주목하고 있다. 실물 부문에서 고빈도 경제지표가 전무하고 공식 통계는 한 달 이상 공표 지연이 발생하는 데다 정성적 정보를 예측 모형에 반영하기 어렵다는 한계가 있기 때문이다. 반면 뉴스 텍스트 빅데이터는 다양하고 방대한 정보를 신속하게 전달할 뿐 아니라 정성적 정보도 포함하고 있어 경기 동향 파악과 함께 단기 경기 예측에 활용할 필요성이 커지고 있다.
서 반장은 이번 연구에서 경제적으로 관심이 큰 생산, 고용, 물가, 주가, 주택 가격 등 15개 부문을 직접 선정하고 부문별 대상 지표를 정해 흐름을 예측하는 텍스트 지표를 각각 작성했다. 뉴스 기사 가운데 특정 단어를 포함하는 문장이 본문에 한 번이라도 등장하는 기사를 추출한 뒤 해당 기사들의 기간 중 상대 빈도수를 계산해 지표를 작성했다.
텍스트 지표 작성을 위해 2005년 1월부터 2022년 3월 중 인터넷 포털 사이트에 게재된 경제 분야 뉴스 기사 연간 100만 건, 1800만 문장을 분석한 결과 텍스트 지표가 0~9개월 선행 시점에서 공식 통계와 0.35~0.73의 상관관계를 보이는 것으로 나타났다. 텍스트 지표가 경기 예측을 위한 중요 정보를 내포하고 있다는 평가다. 특히 ‘전망’과 ‘예측’ 단어를 포함해 작성한 물가 전망은 5개월 뒤 소비자물가지수와 0.73의 높은 상관관계를 보였다.
코로나19 영향이 크게 나타났던 2020년 6월 말 기준으로 살펴보면 공식 통계만 이용한 경우에 비해 텍스트 지표를 추가했을 경우 2020년 2분기 국내총생산(GDP) 예측치가 관측치에 더 근접하고 다른 경제 변수도 더 잘 포착했다는 결론이다.
서 팀장은 “뉴스 텍스트는 다양한 전문가의 견해, 전망 등 정성적 정보를 포함하고 있으며 실시간 입수 가능하므로 이를 종합하고 정량화해 경기 예측에 활용할 필요가 있다”며 “뉴스 텍스트의 정량적 활용은 신속하고 정확한 경기 동향 파악 및 경기 예측에 유리하며 정성적 방법으로 뉴스를 이용하는 것에 비해 인적 오류를 줄이는 데도 기여할 것으로 기대된다”고 말했다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >