네이버앱 음성검색을 통해 ‘메이저리그 LA다저스가 어떻게 되나요’라고 물으면 ‘LA다저스 경기 일정’으로 자동 변환된다. 인공지능(AI)이 길고 이해하기 어려운 구어체 질문의 맥락을 스스로 파악해 더 알맞은 검색 결과가 나오게끔 바꾸는 것이다. 또 ‘코로나 확진자 수’를 음성검색한 이후 곧바로 ‘미국은 몇 명이야’라고 물으면 미국 인구 수가 아닌 미국 내 코로나 확진자 수를 검색 결과로 보여준다. 마치 사람과 대화하듯 주어가 없는 연속된 대화에서도 자연스러운 음성검색이 가능하다.
AI 음성 서비스 시장을 선점하기 위한 주도권 다툼이 치열하다. 음성 명령 인식도를 높이고 명령을 내린 사람의 의도를 정밀하게 파악해 대응하기 위한 기술경쟁에 나서고 있다. AI 음성 서비스는 검색, 쇼핑 등 다양한 영역에 적용할 수 있기 때문에 앞으로 활용도가 가장 빠르게 늘어날 분야로 꼽힌다.
21일 업계에 따르면 국내에서 AI 음성 서비스 분야에서 가장 두각을 나타내는 곳은 네이버다. 네이버는 자체 개발한 초거대 AI ‘하이퍼클로바’를 기반으로 음성 인식 능력을 사람 수준으로 끌어 올리고 있다. 네이버는 이날 “네이버앱 음성검색에 하이퍼클로바를 적용해 기존 대비 정확도를 50% 개선시켰다”며 “앞으로 하이퍼클로바 적용 범위를 확대해 음성 인식 관련 다양한 혁신 서비스를 제공하겠다”고 밝혔다. 인식 오류 등으로 사용자 의도와 다른 정보를 제공했던 저품질 검색 결과가 절반으로 줄어든 것으로, 사용자들은 하나의 키워드를 중심으로 매끄럽게 대화를 이어나가는 ‘연속대화’를 주제와 관계없이 할 수 있다. 또 정제되지 않은 문장으로 말해도 AI가 적절히 알아들어 의도에 맞는 정보를 제공한다.
SK텔레콤(017670)은 글로벌 빅테크인 아마존과 손잡고 AI 음성 서비스를 고도화하고 있다. SK텔레콤은 이날 아마존과 공동 개발한 ‘누구 멀티 에이전트’를 출시했다. 두 회사가 AI 협력에 나선 후 선보인 첫 상용화 서비스다. 기존 음성인식 AI ‘누구’에 아마존의 ‘알렉사’를 결합해 한국어와 영어 모두 지원한다. 누구 AI 스피커에 한국어로 말을 걸면 누구가, 영어로 말을 건네면 알렉사가 응답하는 식이다. 날씨·뉴스·대화·캘린더 등 AI 스피커 기본적 기능은 누구와 알렉사 모두 지원하고 국내 콘텐츠는 누구가, 외국 콘텐츠는 알렉사가 제공한다. 내년부터 출시하는 모든 누구 기기에 알렉사가 탑재된다.
KT(030200)도 AI 음성 서비스 개발과 상용화에 적극적이다. 국내 최대인 유선 음성 빅데이터를 기반으로 연 3조 원 규모로 추정되는 AICC(AI 고객센터) 시장을 공략하고 있다. 전화 고객 응대를 자동화해 인건비를 줄이고 응답 정확도를 높이는 것이다. 지난 10월에는 기존 대기업·공공기관을 넘어 소상공인도 사용할 수 있는 ‘AI 통화비서’를 내놨다. KT는 월 600만 콜을 처리하는 국내 최대 규모 고객센터 데이터와 7,000명에 이르는 상담사를 보유하고 있다. 이를 AI 가상상담사 ‘지니’로 학습해 이미 하루 10만 건의 문의를 AI로 처리하고 있다. 상담완결처리율은 70%에 달한다.
카카오(035720)는 음성인식 관련 자사 서비스는 물론 B2B(기업간거래) 시장 공략에 초점을 맞추고 있다. 지난 9월 현대백화점 음성 고객 상담 지원에 나서며 AI 음성봇을 처음으로 상용화했다. 현재는 기업들의 음성인식(STT) 모델 개발의 부담을 줄여주는 ‘서비스형 AI(AIaaS)’ 기술을 개발하고 있다. AIaaS는 각 기업이 별도로 개발하지 않아도 카카오가 제공한 응용프로그래밍 인터페이스(API)만으로 원하는 형태의 서비스를 만들도록 지원하는 기술이다. 고객사가 직접 음성인식기에 예상 발화 단어와 패턴 등을 추가하면 데이터에 가장 적합한 AI 모델을 빠르게 생성해준다. 기업은 음성 서비스에 신제품명, 신기능, 고객요청 등 새로운 내용을 원하는 시기에 곧바로 추가할 수 있고 사용자는 최신 업데이트된 모델을 불편함 없이 이용할 수 있을 것으로 기대된다.
AI 음성 서비스는 ICT 기업을 넘어 금융권이나 게임업계로도 적용이 확장되고 있다. 넷마블(251270)은 최근 음성 기반으로 애니메이션을 만드는 AI 기술을 공개했다. 시스템에 음성 데이터를 입력하면 AI가 자동으로 음성 대사에서 감정을 분석·추출해 감정에 맞는 얼굴 표정과 립싱크 애니메이션을 게임 캐릭터에 적용하는 것이다. 엔씨소프트(036570)도 AI센터 산하 ‘스피치랩’을 통해 음성인식 기술을 연구하고 있다. 그간의 연구를 바탕으로 최근 출시한 ‘리니지W’에는 이용자의 음성을 자동으로 텍스트로 바꿔주는 기능을 탑재하기도 했다. 신한은행은 AI 기업 자이냅스와 손잡고 금융 서비스 고도화를 추진하고 있다. 자이냅스는 다양한 언어 데이터로 입력된 문장을 목소리로 표현하는 기술을 보유한 기업이다. 신한은행은 이번 협력을 계기로 AI 컨택센터를 강화하고 금융 데이터 관련 신사업을 발굴해 나갈 계획이다.
음성 서비스 시장은 원천기술부터 맞춤형 서비스까지 성장성이 크기 때문에 경쟁이 치열해질 전망이다. 시장조사업체 마켓앤마켓에 따르면 올해 약 83억 달러(약 9조8,900억 원) 규모로 추정된 글로벌 음성 서비스 시장은 연 평균 21.6% 성장해 오는 2026년 220억 달러(26조2,200억 원)에 이를 것으로 예상된다. 업계 관계자는 “AI 음성 기술은 쇼핑, 내비, 사물인터넷(IoT), 정보 검색 등 다양한 서비스에 적용할 수 있어 확장 가능성이 크다”며 “갈수록 똑똑해지는 AI를 어떻게 활용해 자신만의 생태계를 넓혀나갈지가 기업들의 중요한 숙제”라고 말했다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >