비슷한 학습모델 튜닝하거나 데이터 변환통해
수십만개 자료 구축하는 수고로움 덜어줄수도
지난 수년간 영상이나 음성인식과 같은 분야에서 딥러닝 기술은 놀랄 정도로 발전했다. 대부분의 성공한 딥러닝 모델은 주석 데이터(그 학습 데이터를 인가하면 나올 모범 답안이 있는 데이터)를 학습 데이터로 사용하는 지도학습(supervised learning) 방식을 사용한다. 이때 심층신경망이 데이터 속에 내재하는 주요한 특징이나 통계적인 특성을 잘 찾아내려면, 즉 학습을 잘하려면 데이터의 양이 많을수록 좋다. 예를 들어 딥러닝을 사용해 100개의 군(群)으로 나누는 고성능 영상 분류 프로그램을 개발하고자 한다면 군마다 적어도 1,000장 이상의 사진이 필요하므로 총 10만장 이상의 학습 데이터가 필요하다.
이렇게 방대한 데이터에 일일이 주석을 달아주는 것은 상당히 고되고 비용이 많이 드는 작업이다. 그래서 무료 학습 데이터를 사용할 수 없는 경우에는 아마존의 메커니컬터크(Mechanical Turk)처럼 유료로 데이터에 주석을 달아주는 서비스를 이용하기도 한다.
반면에 다섯 살 유치원생에게 기린 사진을 한 번만 보여주더라도 다음부터는 기린을 구별할 수 있는 것처럼 사람은 개인차가 있기는 하지만 한 장 혹은 몇 장의 사진만으로도 학습이 가능하다. 이렇게 소량의 데이터만으로도 학습이 가능한 방식을 퓨샷러닝(few-shot learning)이라고 하며 기린의 경우처럼 한 장만으로 가능한 경우를 원샷러닝(one-shot learning)이라고 부른다. 꼭 데이터에 주석을 달아주는 어려움 때문만이 아니라 실제로 학습 데이터를 구하기 어려운 경우에도 퓨샷러닝은 멋진 해결책이기 때문에 오래전부터 딥러닝 분야의 주요 연구과제 중 하나였다. 그런데 2016년부터 조금씩 의미 있는 결과가 나오기 시작했다.
적은 수의 데이터만으로 새로운 데이터까지 잘 처리하도록 일반화를 시킨다는 것은 그리 쉬운 문제가 아니라서 그간 다양한 시도가 있었지만 크게 세 가지 정도로 압축이 가능하다. 첫 번째 방식은 기존에 비슷한 부류의 학습모델이 있는 경우 그 학습모델을 이용해 초기화를 하고 거기에서 출발해 퓨샷러닝 학습 데이터를 이용해 망을 미세하게 튜닝하는 방식으로 부류가 비슷할 경우에는 효과가 있지만 다르면 효과가 떨어진다. 두 번째 방식은 고차원 학습 데이터의 특징을 잘 표현할 수 있는 저차원 공간으로 학습 데이터를 변환한 다음 부류들 간의 유사도 차이를 측정할 수 있는 수단을 이용해 분류하는 방식으로 성능이 비교적 좋아 최근 많은 논문이 나오고 있다. 세 번째 방식은 소수의 학습 데이터에 적대적생성망(GAN)과 같은 생성모델(generator model)을 사용해 유사 데이터를 늘려 학습 데이터의 부족함을 해소하는 방식으로 특히 두 번째 방식과 결합해 좋은 성능을 내고 있으며 최근 연구가 많이 되고 있다. 이처럼 활발한 연구가 이어지기 때문에 수년 내 퓨샷러닝 학습법이 제대로 자리를 잡을 것으로 기대한다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >