요즘 IT 업계서 빅 데이터(Big Data)가 핫 이슈가 되고 있다.
2011년 미국에서는 대용량 데이터와 IT 기술을 결합해 납세자의 패턴을 분석 고의 세금 체납자를 찾아낸 사례가 있다. 이 때 빅 데이터 처리 소프트웨어인 하둡(Hadoop)을 이용하여 연간 3,450억 달러에 이르는 세금 누락을 막았다. 국내에서도 KT가 하둡을 이용해 사용자 데이터 처리에 드는 비용을 567억 원을 절감한 것으로 알려졌다.
이러한 가치를 창출하는 빅 데이터는 무엇일까?
위키피디아는 빅 데이터를 이렇게 정의한다. ‘빅 데이터란 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다.’ 좀 더 쉽게 설명하자면 ‘관리 할 수 없을 만큼 많은 데이터를 통해 어떠한 정보를 얻어내는 것’이라 볼 수 있다. 데이터를 가공하여 정보를 얻어내는 것이 전산학에서 데이터를 처리하는 목적이라고 할 수 있다.
쓸모 없던 많은 데이터가 기술의 발전 덕분에 가치 있게 변하게 되었고, 이러한 데이터를 관리하고 처리, 분석하여 어떠한 의미 있는 행동이 가능해졌다.
이러한 빅 데이터는 크게 세 가지의 특징을 갖는다. 이 세 가지는 데이터의 양(Volume), 데이터 속도(Velocity), 데이터 다양성(Variety)으로 데이터의 양은 물리적인 크기를 말한다.
데이터 속도는 데이터를 처리할 수 있는 속도를 뜻하는 것으로 데이터를 수집, 가공, 분석하는 과정을 실시간이나 일정 주기에 맞춰 처리할 수 있어야 한다.
데이터 다양성은 데이터의 형태로 기존 기업 데이터 환경에서 사용하는 관계형 데이터베이스(RDB)에 저장된 정형 데이터의 형태와 고정된 시스템에 저장되어 있지 않은 XML, HTML 등과 같이 데이터베이스 스키마를 포함하는 반정형 데이터, 비디오나 이미지와 같은 비정형 데이터를 말한다. 그리고 빅 데이터는 이 모든 종류의 데이터들을 처리할 수 있어야 한다.
이러한 빅 데이터를 이용한 가장 유명한 사례는 2008년 미국 대통령 선거를 들 수 있다. 당시 오바마 미국 대통령의 선거 캠프에서는 다양한 형태의 유권자 데이터베이스를 통해 유권자 맞춤 선거 전략을 전개했다. 또한 우리가 자주 접하는 구글 및 페이스 북의 개인 맞춤형 광고는 이용자의 검색 조건 및 사진과 동영상 같은 비정형 데이터를 통하여 이용자에게 맞춤형 광고를 보여준다.
하지만 이런 빅 데이터에 관련된 개인 정보 침해 문제는 앞으로 해결해야 되는 문제다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >