'글 입력하면 목소리 생성' 수퍼톤, AI 오디오 서비스 3종 선봬

전체서비스

문화·스포츠

영상·포토

서경스타

이용안내

스페셜 컨텐츠

보내는 사람
받는 사람	※ 여러명에게 보낼 경우 콤마(,)로 구분하세요.

보내는 사람

받는 사람

※ 여러명에게 보낼 경우 콤마(,)로 구분하세요.

'글 입력하면 목소리 생성' 수퍼톤, AI 오디오 서비스 3종 선봬

입력2024-11-04 09:37:24 수정 2024.11.04 09:37:24 김성태 기자

인공지능(AI) 오디오 기업 수퍼톤은 AI 기반 실시간 음성 변환 서비스 ‘수퍼톤 시프트’를 5일 글로벌 정식 출시한다고 4일 밝혔다. 지난해 11월 열린 국제 게임 전시회 ‘지스타 2023’에서 선공개한지 1년여 만이다.

수퍼톤 시프트는 낸시를 기반으로 사용자의 목소리를 분석해 실시간으로 원하는 캐릭터의 목소리로 바꿔주는 서비스다. 올해 4월부터 6개월 간 오픈 베타 테스트를 진행했고 글로벌 누적 다운로드 25만 건 이상을 기록했다. 수퍼톤은 베타 테스트 참여자의 피드백을 바탕으로 콘텐츠 제작과 사용 환경에 유용한 기능을 대폭 강화했다. 오픈 베타 테스트 당시 선보인 캐릭터 목소리를 10개에서 38개로 확대했다. 2주마다 새로운 목소리를 추가할 예정이다. 시스템 언어는 영어 외에도 일본어를 추가했다. 또 사용자 편의성을 고려해 일부 이용자 경험·이용자 인터페이스(UX·UI)도 개선했다.

수퍼톤 시프트에는 수퍼톤이 자체 개발한 파운데이션 모델 ‘낸시’(NANSY·Neural Analysis & Synthesis)가 적용됐다. 낸시는 목소리를 음색·발음·음고·강세 등 4개의 구성 요소로 분석하고 이를 개별적으로 제어해 재합성할 수 있는 기술이다.

수퍼톤은 지난달 31일 TTS(Text-to-Speech) 기술 기반의 AI 음성 서비스 ‘수퍼톤 플레이’의 오픈 베타 테스트(OBT)도 시작했다. 수퍼톤 플레이는 낸시 기반으로 텍스트를 음성으로 변환하는 TTS 기술을 적용한 AI 음성 서비스다. 50개의 목소리 캐릭터별로 한국어·일본어·영어 등 3개 언어를 지원, 총 150개의 목소리 옵션을 제공한다. 대본에 적합한 목소리를 선택해 1차로 음성을 만든 뒤, 낸시를 활용해 목소리 구성 요소들을 다양하게 조합하면 연출 의도에 최적화된 음성을 구현할 수 있다. 실제 사람의 발화 스타일은 물론, 감성 정보까지 학습시켜 자연스러운 목소리를 생성하는 수퍼톤 고유의 TTS 기술이 기반이 되어 풍부한 감정 표현까지 가능하다.

시프트 정식 버전과 플레이 오픈 베타 버전은 수퍼톤 공식 홈페이지에서 다운로드해 사용할 수 있다. 플레이는 오픈 베타 테스트 기간 사용자 의견을 수집해 서비스를 개선한 뒤, 내년 상반기 정식 출시할 예정이다.

아울러 수퍼톤은 이달 1일 음향 전문가를 겨냥한 서비스 ‘수퍼톤 에어’도 선보였다. 이 서비스는 특정 오디오 콘텐츠가 녹음된 장소의 울림이나 반사음 등을 추출하고, 이를 다른 오디오에 적용해 해당 공간의 음향을 재현하는 오디오 플러그인이다. 수퍼톤은 수퍼톤 에어를 통해 포스트 프로덕션 엔지니어들이 간편하게 공간 음향을 구현하고, 오디오 후반 작업의 편의성과 효율성을 높일 것으로 기대하고 있다.

이교구 수퍼톤 대표는 “수퍼톤 제품들의 핵심 가치는 창작 과정에서 필요한 상상력과 표현력의 경계를 확장해 창작자의 의도가 청중에게 더 깊고 울림있게 전달되는 스토리텔링을 가능하게 하는 것”이라며 “이를 위해 지속적으로 기술을 개발하고, 경쟁력을 강화할 것”이라고 말했다.