한국 연구진이 인공지능(AI)을 이용해 소리를 듣고 어떤 상황인지 인지하는 음향 인식 기술 국제경진대회에서 세계적인 대학과 대기업들을 제치고 정상에 올랐다.
20일 한국전자통신연구원(ETRI)에 따르면 이태진 미디어부호화연구실장이 이끄는 ETRI팀이 지난 3일 열린 ‘제6회 AI 기반 음향 이벤트 및 장면 인식 기술 경진대회(DCASE)’ 음향장면 인식 분야에서 1위를 차지했다. 팀 순위 2등은 ‘조지아텍·중국과기대·텐센트·UEK 연합팀’이 차지했다.
ETRI팀이 최고 자리에 오른 분야는 여러 종류의 단말장치로 녹음한 소리를 듣고 녹음 장소를 알아맞히는 ‘복수단말 대상 음향장면 인식’ 과제. 액션캠 및 바이노럴 마이크뿐 아니라 잡음이 쉽게 섞이는 일반 스마트폰에 이르기까지 장비별로 다른 신호특성을 정확하게 판단하는 것이다. 예를 들어 학습용 음향 데이터로 프랑스 파리 지하철에서 나는 소리를 스마트폰으로 녹음해 이를 인식하는 시스템을 개발한 뒤 평가에서는 액션캠으로 녹음된 지하철 소리를 들려주며 그 상황을 맞힐 수 있는지 알아보는 방식이다.
ETRI팀이 우승할 수 있었던 것은 소리를 주파수 대역별로 나눠 모델별로 AI가 학습하는 딥러닝 기술인 ‘딥러닝 기반 트라이던트(Trident) 구조 신경망’을 개발했기 때문이다. 또 단말기별로 들어오는 오디오 신호를 일반화하는 데 강점을 보인 ‘비균등 입력 특징 분할기법’을 설계·적용한 점도 비결로 꼽혔다. 이번 개발기술에 대해 김흥묵 ETRI 미디어연구본부장은 “노약자·청각장애인 등을 위한 ‘위험회피 기술’이나 소리를 듣고 관련 정보를 도출하는 ‘미디어 자동 태깅 기술’ 등으로 다양하게 활용할 수 있다”고 소개했다.
DCASE는 구글·인텔·아마존·IBM·삼성·LG 등 세계 유수 기관이 참가하는 음향 기술 관련 대회로 전기·전자기술자협회(IEEE) 산하 AASP가 주관해 올해 3월부터 6월 중순까지 6개 분야에 걸쳐 진행됐다. 이번 대회에는 138개 팀이 참가하고 473개의 시스템이 제출됐다.
/민병권기자 newsroom@sedaily.com
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >