BY JUAN ENRIQUEZ
ILLUSTRATIONS BY JESSE LENZ
지난 3월 1일 미국 캘리포니아 롱비치의 TED 2011 컨퍼런스 행사장. ‘놀라움의 재발견(The Rediscovery of wonder)’을 주제로 열린 올해 행사의 첫 날 마지막 세션에 TED의 큐레이터인 크리스 앤더슨이 연단에 올랐다.
“현재 우리의 컴퓨팅 능력은 정말 대단합니다. 개인적으로 이는 마치 갑작스레 비약적 발전을 이룬 것 같은 느낌마저 듭니다. 실제로 마이크로칩의 집적도가 18개월마 다 2배씩 향상된다는 무어의 법칙에 의거, 컴퓨팅 성능은 끊임없이 향상돼 왔죠. 그런 발전이 누적되고 몇 년이 지나서 돌아보면 문득 엄청난 변화가 체감되는 것입니다.” TED 컨퍼런스의 TED는 기 술 (Technology), 오락(Entertainment), 디자인(Design)의 약자로 세계적 지성들의 지식 나눔터이자 괴짜 천재와 벤처자본가를 위한 창의적 아이디어 발전소다. 현재 TED 홈페이지에는 현장에 직접 참가하지 못한 사람들을 위해 세계 각국의 언어로 자막 처리된 1,000 개 이상의 강연이 무료 제공되고 있는데 조회 수가 3억회에 달한다.
크리스의 앞서와 같은 발언을 들은 필자는 그가 말하고자 하는 바를 알아채지 못했다.
하지만 다음날 아침, MIT 미디어랩인지 기계 그룹장인 뎁 로이 박사의 강연을 들으며 그의 미를 이해했다. 로이 박사는 이날 홈 비디오의 종결자라 할 영상을 소개했다. 자신의 아들이 병원에서 태어나 집에 도착한 뒤 집안 전체에 카메라를 설치, 3년간 모든 성장과정을 촬영한 24만 시간 분량의 영상이었다.
이는 로이 박사에게 아들의 학습과정, 그중에서도 말하는 법을 배우는 과정을 가감 없이 알려주는 최상의 자료였다. 이에 200테라바이트(TB)에 달하는 영상을 가지고 아이가 내뱉은 단어들이 언제 어떻게 아이에게 노출됐는지 정확히 골라내 데이터화했다. 그리고 언어 습득 과정을 다각도로 분석, 상호 연관성을 보여주는 혁신적인 데이터로 탈바꿈 시켰다.
그는 또 이 방법론이 다른 분야에도 다양하게 적용될 수 있다고 밝혔다. 일례로 대통령의 연설이 발표됐을 때 그 내용이 트윗, 리트윗 혹은 축약, 반박되는 등 여러 형태로 파급되는 과정을 실시간 기록하면 거대한 소셜 네트워크의 세부적인 지도와 각각의 연관성을 묘사할 수 있다는 게 그의 설명이다.
데이터 분석 패러다임 혁신
현재 우리가 활용 가능한 데이터의 양은 실로 방대하다. 작년에만 1.2제타바이트(ZB)의 데이터가 새로 생성됐다. 데이터 저장·관리기업 EMC의 최근 발표 자료에 따르면 올해는 그 양이 1.8ZB로 늘어날 전망이다. 1ZB는 1조 기가 바이트(GB)이므로 저장용량 32GB의 아이패드에 담는다면 무려 57조5,000억대가 필요하다. 지난해 구글이 주도한 공동연구팀은 1500 년부터 2008년까지 전 세계에서 발행된 모든 도서 520만권을 데이터화했는데 이조차 현재의 데이터 양과 비교하면 조족지혈일 뿐이다.
물론 구글이 헛일을 한 것은 아니다. 이 데이터를 이용해 인류의 단어와 어구가 수세기에 걸쳐 어떻게 생성·진화·사멸했는지 분석할 수 있는 툴을 개발하면서 ‘컬처로믹스 (Culturomics)’라는 새로운 학문 분야가 탄생하기도 했다. 분석 결과를 직관적 그래프로 표현해주는 구글의 ‘앤그램 뷰어’ 프로그램을 통해 확인한 바로는 1960년 이후 ‘섹스’라는 단어의 사용이 폭발적으로 늘었다. 또 ‘렘브란트’ 단어의 인용 빈도가 꾸준히 늘어 1940년 ‘세잔’ 을 앞질렀지만 10년도 되지 않아 ‘피카소’가 두 단어의 사용량을 월등히 추월했다. 주지하다시피 이런 결과는 특정 표본을 분석한 추론이 아니다. 명백한 과학적 사실이다.
필자는 TED 컨퍼런스의 강연을 들을수록 이와 유사한 혁신을 체감했다. 일부 데이 터 표본에 근거해 추정을 하던 기존 행태에서 벗어나 모든 데이터를 수집·분석하는 것으로의 패러다임 변화 말이다. 이것이 바로 ‘빅 데이터(Big Data)’의 처리가 핵심 화두로 부상하고 있는 이유이자 빅 데이터의 본질이다.
특히 생물학 연구의 디지털 의존도가 높아지면서 빅 데이터의 크기는 더욱 커질 것이 자명하다. 생물학과 디지털의 만남은 디지털이라는 추상적 존재를 손으로 만질 수 있는 물리적 세상과 연결시키고 있다. 또한 생명의 모습을 DNA를 구성하는 4가지 염기, 20여종의 아미노산, 수천 종의 단백질로 표현할 수 있게 되면서 생물학 연구에도 큰 진전을 이뤘다.
더욱이 이제는 유전자 하나씩이 아닌 게놈 전체를 한 번에 조작할 수 있는 단계에 접어들고 있다. 이른바 자연계에 존재하지 않는 생물을 창조하는 합성생물학이 그것이다.
이러한 수준에 도달하기까지의 먼 길을 우리는 매우 빠르게 걸어왔다. 인간게놈프 로젝트로 설명하자면 1999년 당시 유전자 염기서열 분석장비는 한 번에 수백 개 정도의 염기쌍을 읽는 수준이었다. 때문에 연구팀은 일명 ‘샷건 염기서열 분석법(shotgun sequencing)’에 의존할 수밖에 없었다.
프로젝트 성공의 주역으로 꼽히는 크레이 그 벤터 박사의 셀레라 지노믹스가 개발한 이 분석법은 DNA를 잘게 토막낸 후 각 토막의 염기서열을 분석한다. 그리고 컴퓨터를 사용해 서로 겹치는 염기서열을 찾아 전체 DNA의 순서를 짜 맞추는 방식이다. 하지만 많은 사람들은 이론적 우수성을 인정하면서도 현실성이 없다고 봤다. 그 시절의 느려터진 컴퓨팅 수준 탓이었다. 이에 벤터 박사팀은 당시 세상에서 가장 강력한 개인용 컴퓨터를 직접 개발, 우려를 불식시켰다.
그러나 오늘날의 ‘단백질-단백질 상호작용’ 모델링에 비하면 게놈 염기서열 분석은 하찮은 컴퓨터 놀이에 불과하다. 게놈 염기서열 분석은 4개의 DNA 염기쌍을 비교하지만 단백질 상호작용의 비교대상은 20개의 아미노산이기 때문이다. 게다가 단백질은 DNA 가닥보다 모양이 훨씬 다양하다. 컴퓨팅 기술과 장비의 비약적 발전에도 불구하고 현 컴퓨터는 이런 변인들의 일부만 간신히 처리할 수 있다.
생명과학에서 다루는 데이터의 양, 다시 말해 디지털 코드 시대에서 디지털-생명 코드 시대로 넘어가는 현재의 데이터 생성양은 현존 컴퓨터의 정보처리 및 저장능력을 아득히 앞서 있다는 얘기다.
구체적으로 생명 코드의 데이터 축적 속도는 무어의 법칙보다 50%나 더 빠르다. 매 12 개월마다 두 배로 뛴다. 따라서 데이터 저장· 전송·분석의 획기적 진전이 없다면 5년 내에 도저히 버틸 수 없는 상황에 직면한다는 것이 전문가들의 예견이다.
이 난국을 타개할 기술적 돌파구가 열릴까. 미리 포기할 정도는 아니다. 현재 빅 데이터의 세상에서 진정한 근본적 변화가 진행 중에 있다. 생명 코드와 디지털 코드를 결합, 기존의 디지털 응용프로그램과는 다른 신개념 응용프로그램의 등장 가능성이 열리고 있는 것. 쉽게 말해 DNA와 같은 생명물질을 활용하여 처리·저장능력의 한계를 무너뜨리려는 연구가 이뤄지고 있다.
그 첫걸음은 2008년 벤터 박사가 노벨상 수상자인 해밀턴 스미스 박사 등 17명의 연구자들과 함께 박테리아 ‘마이코플라스마 제니 탈리움’ 게놈의 인공합성에 성공하면서 내딛어졌다. 연구팀은 이를 세포에 주입, 자기복제를 통해 실질적인 생명체로 만들기 위해 노력하고 있다. 결과적으로 이들은 세포가 다른 종(種)이 될 수 있도록 프로그래밍한 것이라 볼 수 있다.
앞서 설명했듯 이러한 생명 프로그래밍은 데이터 저장문제도 해결해줄 수 있다. 모든 디지털 데이터는 생명체의 형태로 코딩될 수 있으며, 모든 생명체는 디지털 데이터로 코딩이 가능하기 때문이다. 아직은 이론에 국한되지만 지금껏 뉴욕타임즈에 실린 모든 글자와 사진을 불과 박테리아 몇 마리의 유전자 코드 속에 저장, 복사할 수 있다.
디지털-생명 코드 시대의 기술은 데이터와 관련한 오늘날의 가장 위대한 업적조차 초라하게 만들 것이다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >