'빅데이터'란 기존 데이터베이스 소프트웨어로는 수집·저장·관리·분석하기 어려운 방대한 규모의 데이터다. 최근 민간은 물론 정부 및 공공 부문에서도 관심이 확대되고 있다. 인터넷상의 소셜미디어·멀티미디어 등을 통해 생성되고 제공되는 데이터뿐 아니라 백화점, 슈퍼마켓, 고속도로 톨게이트 등에 설치된 CCTV와 신용카드 단말기, 각종 센서 등을 통해 생성되고 축적된 데이터도 포함한다. '빅데이터'가 구글 검색어로 처음 등장한 것은 지난 2006년이며 검색 빈도가 폭증한 것은 2011년 중반부터다.
'빅데이터'가 주목 받는 이유는 기업이나 정부, 인터넷 포털 등이 '빅데이터'를 효과적으로 분석함으로써 미래를 예측해 최적의 대응 방안을 찾고 이를 수익으로 연결해 새로운 가치를 창출하기 때문이다. 우리에게 널리 알려진 '구글(Google)'이야말로 검색엔진회사가 아니라 대표적인 '빅데이터' 기업이다. '구글'은 인터넷에 접속해 자사의 검색엔진 서비스를 이용하는 고객과 관련된 데이터를 모두 파악하고 분석해서 사업에 활용하고 있기 때문이다.
'빅데이터'와 관련된 가치사슬(value chain)은 크게 4가지 단계로 나뉜다. 빅데이터를 수집하고 저장하고 분석해서 보고하는 것이다. 빅데이터의 수집과 저장은 전방 가치사슬, 분석과 보고는 후방 가치사슬이라고 할 수 있다. 가치사슬의 각 단계에서 관련된 장비와 소프트웨어 시장이 형성되고 빅데이터를 분석해 보고하는 과정에서도 컨설팅 등 서비스 시장이 형성된다.
예를 들면 인터넷, 스마트폰, 백화점, 대형 할인점, 고속도로 톨게이트 등에서 고객과 관련된 실시간 대용량 데이터를 수집하는 것이다. 이를 위해 소셜네트워크서비스(SNS) 관련 장비와 소프트웨어, RSS 리더 등 관련 장비와 소프트웨어가 필요하다. 다음으로 수집된 빅데이터를 분산해 저장하고 정형 데이터와 비정형 데이터로 분류, 저장하기 위해서는 DB 관련 소프트웨어, 대용량 서버와 스토리지, 클라우드 컴퓨팅 등이 필요하다. 세번째, 빅데이터를 분석하기 위해서는 클러스터링과 데이터 마이닝 등 분석 알고리즘과 분산병렬처리기술이 필요하다.
시장조사기관인 IDC에 따르면 세계 디지털 데이터 규모는 2011년 1.8제타바이트에서 오는 2020년 35제타바이트로 19배 이상 증가할 것으로 예상된다. 국내 디지털 데이터 규모도 2006년 2.9엑사바이트에서 연평균 약 57% 증가해 2011년에는 27엑사바이트에 달한 것으로 파악되고 있다. 이는 국회도서관 장서가 2012년 6월 현재 465만권이라고 했을 때 이의 약 60만배 수준에 달하는 데이터 규모다. IDC는 글로벌 '빅데이터' 시장이 2015년까지 연평균 39.4%라는 엄청난 성장률을 기록할 것이라고 예측했다.
그렇다면 빅데이터에서 가장 중요한 것은 무엇일까. 오바마 재선캠프의 CTO였던 하퍼 리드는 빅데이터를 활용한 대선 승리의 비법에 대해 "데이터의 크기는 중요하지 않다. 얼마나 '빠르고 정확하며 핵심적인 해답'을 찾아내느냐가 중요하다"고 했다. 올 4월 보스톤마라톤 결승지점에서 발생한 폭탄테러범을 잡는 데 빅데이터가 큰 기여를 했다.
FBI는 근처 상점, 주유소, 아웃렛 등에 설치된 CCTV 600여대에서 수집한 정보, 관람객들의 핸드폰 사진과 동영상, 중계방송사들이 찍은 사진과 동영상 정보를 제공 받아 10테라바이트(영화 1만편 분량)의 '빅데이터'를 분석함으로써 용의자를 잡아낼 수 있었다. 빅데이터가 중요하다는 것은 그동안 너무 많이 강조되돼왔다. 그러나 앞으로는 빅데이터를 활용해 어떤 가치를 창출할 것이냐에 더 큰 관심이 집중될 것이다.
서울경제신문·현대경제연구원 공동기획
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >