기계가 주변의 소리를 정확히 듣고, 그 내용을 인지하는 것은 인공지능(AI) 및 사물인터넷(IoT) 기반의 4차 산업혁명에서 핵심 기술이다. 이 같은 청각 인식기술은 시각 인식기술에 비해 AI분야에서 상대적으로 발전이 더뎌 전세계적으로 도전이 치열하다. 이런 가운데 한국 연구진이 이 같은 기술 수준을 겨루는 국제경진대회에서 세계적 대기업들을 제치고 정상에 섰다.
한국전자통신연구원(ETRI)는 지난 3일 열린 세계적 행사인 ‘제 6회 AI 기반 음향 이벤트 및 장면 인식 기술 경진 대회(DCASE)’의 음향장면 인식분야에서 1위를 차지했다고 20일 밝혔다. 이로써 기계에게 사람과 같은 청각 인식능력을 부여하는 하는 국산 기술 및서비스 발전에 대한 기대감이 한층 커지게 됐다. 팀 순위 2등은 ‘조지아텍-중국과기대-텐센트-UEK 연합팀’이 차지했다.
ETRI팀이 1~2위에 오른 분야는 여러 종류의 단말장치로 녹음한 소리를 듣고 녹음 장소를 알아 맞히는 ‘복수 단말 대상 음향 장면 인식’ 과제다. 액션캠 및 바이노럴 마이크 뿐 아니라 잡음이 쉽게 섞이는 일반 스마트폰에 이르기까지 장비별로 다른 신호 특성을 아울러 정확하게 판단하는 분야다. 여기서 관건은 ‘일반화 성능’이다. 예를 들면, 학습용 음향 데이터로 프랑스 파리 지하철에서 나는 소리를 스마트폰으로 녹음한 파일이 주어지면 이를 인식하는 시스템을 개발한 뒤, 평가에서는 학습에 쓰이지 않았던 액션캠으로 녹음된 지하철 소리를 들려주며 상황을 맞힐 수 있는지 알아보는 방식이다.
ETRI팀이 우승할 수 있었던 것은 소리를 주파수 대역별로 나누어 모델별로 AI가 학습할 수 있도록 하는 딥러닝 기술인 ‘딥러닝 기반 트라이던트(Trident) 구조 신경망’을 개발했기 때문으로 평가된다. 또한 단말별 오디오 신호처리 특성 일반화를 이루는데 강점을 지닐 수 있는 ‘비균등 입력 특징 분할 기법’을 설계, 적용한 점도 우승 비결로 꼽혔다. 이번 개발기술에 대해 김흥묵 ETRI 미디어연구본부장은 “노약자·청각장애인 등을 위한 ’위험 회피 기술‘이나 소리를 듣고 관련 정보를 도출해내는 ’미디어 자동 태깅 기술‘ 등으로 다양하게 활용할 수 있다”고 소개했다.
DCASE는 구글, 인텔, 아마존, IBM, 삼성, LG 등 세계 유수 기관이 참가하는 음향 기술 관련 유일한 대회다. 전기·전자기술자협회(IEEE) 산하 AASP가 주관해 지난 3월부터 6월 중순까지 6개 분야에 걸쳐 진행됐다. 이번 대회에는 138개팀이 참가하고, 473개의 시스템이 제출됐다. /민병권기자 newsroom@sedaily.com
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >