한양대학교 융합전자공학부 장준혁 교수 연구팀이 세계 최저명 음향 AI 챌린지인 ‘IEEE DCASE (Detection and Classification of Acoustic Scene and Events) 2023 Challenge’ AI 오디오 생성 (Foley Sound Synthesis) 분야에서 유수한 세계 대학·기업들을 제치고 우승을 차지했다고 한양대가 15일 밝혔다.
이번 대회는 보스(BOSE), 삼성 R&D, 어도비(Adobe) 등 세계적인 기업들의 후원을 받아 지난 3월부터 5월까지 진행됐으며, 오디오 생성, 음향 장면 분류, 오디오 캡셔닝 등을 포함한 7개 분야로 개최됐다. 이 중, 한양대 장준혁 교수 연구팀은 영화, 애니메이션 등 멀티미디어 산업에서 풍부한 음향 인지적 경험 제공을 위한 핵심 기술과 관련된 오디오 생성 (Foley Sound Synthesis) 분야에 참가했다.
한양대 연구팀에서 개발한 오디오 생성 모델.
최원국 박사과정생 등으로 구성된 한양대 연구진은 최근 인공신경망 기반 생성 모델에서 주목받고 있는 확산 모델 (Diffusion Model)과 함께 생성적 적대 신경망 (Generative Adversarial Network, GAN)의 핵심 요소인 판별자 (Discriminator)를 결합해 고품질 오디오를 생성할 수 있는 독창적 인공지능 (AI) 기술을 선보였다.
한양대 연구팀에서 개발한 오디오 생성 AI 모델로 생성한 소리의 파형 및 스펙트로그램 예시. (상단: 실제 소리, 하단: 생성한 소리)
한양대 연구팀의 ‘알고리즘 생성 음향’은 음향 품질 (Audio Quality), 카테고리 적합성 (Category Fit), 음향의 다양성 (Diversity) 등 3개 부문의 청중 평가 모두 최고의 점수를 거두며 싱가포르국립대, 카네기멜론대 (CMU), 서울대 등 세계 유수의 기관·대학 연구팀과의 경연 끝에 우승을 차지했다. 시상식은 오는 9월 핀란드 탐페레에서 개최되는 제 8회 DCASE 워크숍에서 열릴 예정이다.
한편, 장준혁 교수 연구팀은 동일한 대회의 자동 오디오 캡셔닝 (Automated Audio Captioning) 분야에서 준우승을 기록했으며, 지난해에는 동일 기관에서 개최한 ‘IEEE DCASE 2023 challenge’ 워크숍에서 50여 편의 논문 중 한편만 수여하는 최우수 논문상(Best Paper Award)을 수상한 바 있다.
출처 : 한국대학신문 - 409개 대학을 연결하는 '힘'(https://news.unn.net)
뉴스 원문 : https://news.unn.net/news/articleView.html?idxno=548292