“팅커벨(‘누구’서비스의 이름), 노래를 불러줄래” 원통형 스피커에서 푸르스름한 빛깔이 나오면서 팅커벨이 반주 없이 노래를 부르기 시작한다.
31일 서울 을지로 SK텔레콤 사옥에서 열린 기자간담회에서 인공지능이 부른 노래가 나오자 정적이 흘렀다. 감미로운 목소리에 감상에 잠기거나 기계가 낸 목소리라 신기해하는 반응이었다. 인간이 대화하는 운영체제(OS) ‘사만다’와 사랑에 빠지는 영화 ‘허(Her)’도 떠올랐다.
SK텔레콤은 이날 음성인식 기반 인공지능(AI) 서비스 ‘누구(NUGU)’ 전용 기기를 공개했다. 한국어로 된 음성 인식 기반 인공지능 서비스는 국내 최초다. 이형희 SK텔레콤 사업총괄은 “소리 전달을 업으로 하는 이동통신사인만큼 소리에 관한 원천 기술을 개발해야 한다는 화두가 있어 2011년부터 시작했다”며 “기존 서비스와 새로운 테크를 결합한 허브로서 ‘누구’서비스를 발전시키겠다”고 말했다.
9월 1일부터 출시되는 이 서비스는 친구, 가족, 연인, 비서 등 누구든 될 수 있다는 의미에서 ‘누구’로 명명됐다. 대화를 걸면 음성인식 기술과 인공지능 엔진을 통해 이용자가 원하는 바를 파악해 이에 답변한다. 음악 재생, 가전기기 제어, 날씨·일정 등 정보 안내, 커머스 주문 등을 수행한다. 현재는 스피커 기기로 구현됐지만 점차 웨어러블 기기, 소셜 로봇(감성 로봇) 등에도 기술을 접목할 계획이다.
이는 기존 개인용컴퓨터(PC)에서 마우스를 기반으로 한 그래픽 사용자 인터페이스(GUI)로 사용자와 컴퓨터가 소통했고, 스마트폰 시대에는 터치해 사용자 경험(UI)이 이뤄졌다면 차세대 UI는 음성이 주도한다는 판단에서 이뤄졌다. 박일환 SK텔레콤 디바이스지원단장은 “음성 UI는 인공지능과 결합했을 때 강력한 힘을 지닐 것”이라며 “음성 UI는 어떤 기기에도 접목할 수 있어 훨씬 거대한 플랫폼이 될 것”으로 내다봤다.
‘누구’ 서비스는 감성적인 측면을 강화, 기계학습(머신러닝)을 통해 문맥에 맞으면서도 정형적이지 않은 답변을 내놓는다. 시연 과정에서 나이를 묻자 ‘나이는 숫자에 불과해요’ 등 답변이 나오기도 했다. 아직 소리가 울리거나 와이파이 상황이 좋지 않으면 다른 답변을 내놓기도 했다. 이를 개발한 박명순 SK텔레콤 미래기술원장은 “아직은 문맥에 한 문장 정도를 학습하지만 내년 말에는 2∼3개 문장도 통째로 학습해 보다 자연스러운 대화를 할 수 있게 될 것”이라고 말했다.
딥러닝 방식을 접목해 데이터가 쌓일수록 능력이 진화하도록 구성된 점도 특징이다. SK텔레콤은 ‘누구’에 활용된 핵심 애플리케이션 프로그래밍 인터페이스(API)를 외부에 공개하고 외부 개발자와의 연계 서비스 개발을 추진할 계획이다. 학습이 AI 클라우드를 통해 이뤄져서 서비스가 업데이트 될 때마다 신규기기를 구입할 필요가 없다.
현재 음성 인식 시장은 아마존, 구글, 페이스북 등 글로벌 IT기업이 각축을 벌이고 있다. 먼저 ‘에코’를 내놓은 아마존을 비롯해 구글도 지난 5월 열린 개발자회의에서 ‘구글홈’을 소개했다. 페이스북도 다음 달 ‘누구’와 비슷한 기능의 AI 개인비서를 공개할 예정이다. SK텔레콤 측은 “외국 파트너사와 협업하는 방향으로 이뤄질 것”이라고 설명했다.
/정혜진기자 madein@sedaily.com
◇ 음성 UI 특성 비교
구분 | 접촉(터치)UI | 음성(보이스) UI |
업무 수행 특성 | 논리적 | 감성적 |
정확성 | 맥락연관성 | |
정형적 | 예측불가 | |
다양성 | 수집, 선별 포함 | |
기계 | 인간 | |
적용 분야 | 제한된 기기에 적용 | 다양한 기기에 적용 |
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >