본문 바로가기

최신연구

View
[이근배, 김형훈 교수] Progressive Facial Granularity Aggregation with Bilateral Attribute-based Enhancement for Face-to-Speech..
작성자 이근배, 김형훈 작성일 25/09/04 (00:00) 조회수 8

  1. [연구의 필요성]
  2.  뇌졸중과 같은 외상적 사건을 겪은 개인들은 발화 기능에 심각한 제약을 받아 음성을 통한 의사소통이 불가능해지는 경우가 많습니다. 이러한 상황에서 음성합성 기술은 의사소통을 보조하는 수단으로 활용될 수 있으나, 기존의 TTS는 사용자 고유의 음색을 반영하지 못한다는 한계가 있습니다. 따라서 사용자의 얼굴 이미지를 기반으로 목소리를 예측하고, 이를 활용하여 개인의 고유한 음성을 복원·합성하는 기술은 기존 보조 의사소통 기술의 한계를 극복하고, 사용자 정체성과 심리적 만족감을 동시에 보장할 수 있다는 점에서 중요한 연구적 의의를 갖습니다.

 

  1. [포스텍이 가진 고유의 기술]
     
    본 연구에서는 말을 하지 못하는 화자를 위한 개인 맞춤형 음성 합성 기술을 제안하며, 이를 구현하기 위해 zero-shot 다화자 TTS 모델을 개발하였습니다. 기존 연구들이 다단계 파이프라인이나 외부 사전학습 모델에 의존하는 것과 달리, 본 연구에서는 로컬 얼굴 특징을 점진적으로 통합하여 speaker representation을 형성하고, 성별 및 인종과 같은 특성에 대한 추가적 지도학습(supervised learning)을 적용하였습니다. 또한, 동일 화자의 다양한 얼굴 각도 이미지를 음성과 매칭하는 데이터 증강 기법을 도입하여, 특정 화자의 얼굴 이미지에서 목소리를 예측할 수 있었습니다.

 

  1. [연구의 의미]
     
    본 연구는 얼굴 이미지를 기반으로 화자의 목소리를 예측하고, 이를 활용하여 음성을 합성할 수 있음을 입증함으로써, 새로운 보조 기술 개발의 가능성을 제시합니다. 

 

  1. [연구결과의 진행 상태 및 향후 계획]
     
    아예 말을 하지 못하는 사람을 대상으로, 얼굴 근육 신호를 음성으로 생성하는 보조기술 연구를 진행하고자 합니다. 

 

  1. [성과와 관련된 실적]
     EMNLP 2025 Findings Accept/ 전예진, 김영재, 이지현, 김형훈, 이근배 /  Progressive Facial Granularity Aggregation with Bilateral Attribute-based Enhancement for Face-to-Speech Generation
  2. [성과와 관련된 이미지]