연구

최신연구

View

[이근배 교수] Facilitating Personalized TTS for Dysarthric Speakers Using Knowledge Anchoring and Curriculum Learning
작성자 시스템	작성일 25/06/13 (00:00)	조회수 754

[연구의 필요성]

구음장애(Dysarthria)는 뇌졸중, 파킨슨병, 뇌성마비 등 다양한 신경근육계 질환으로 인해 발음이 부정확하고 발화가 어눌해지는 증상입니다. 이는 원활한 언어 소통을 어렵게 만들며, 환자의 자존감 저하, 사회적 고립, 삶의 질 저하로 이어질 수 있습니다. 이러한 환자들이 자신의 목소리로 명료한 음성을 합성할 수 있는 기술을 갖게 된다면, 의사소통의 자율성과 삶의 질을 크게 향상시킬 수 있습니다. 그러나 실제 구음장애 화자가 제공할 수 있는 음성은 짧고 발음이 불분명한 경우가 많아, 기존 다화자 음성 합성 기술을 그대로 적용하기에는 한계가 있습니다. 따라서 이러한 제한된 조건에서도 화자의 고유한 음색 정보를 효과적으로 추출하고, 이를 바탕으로 명료한 음성을 생성할 수 있는 기술 개발이 중요합니다.

[포스텍이 가진 고유의 기술]
본 연구에서는 구음장애 화자를 위한 개인 맞춤형 음성 합성을 위해 zero-shot 다화자 TTS 모델을 제안합니다. 기존 단일 인코더 방식과 달리, 이중 화자 인코더 기반의 knowledge anchoring 프레임워크를 도입하여 student 모델의 representation이 teacher 모델의 representation과 같아지도록 학습하였습니다. 동시에 student 모델에는 점진적으로 짧아지는 음성을 입력하는 커리큘럼 학습을 적용하였습니다. 이를 통해 발음이 어눌하고 짧은 음성에서도 화자의 고유 음색을 효과적으로 추출하고, 자연스러운 음성을 성공적으로 합성할 수 있었습니다.

[연구의 의미]
본 연구는 발음이 비교적 불분명한 구음장애 화자에게서도 고유한 음성 특성을 효과적으로 추출하여, 이를 기반으로 개인 맞춤형 음성 보조 기술 개발이 가능함을 보여줍니다.

[연구결과의 진행 상태 및 향후 계획]
아예 말을 하지 못하는 사람을 대상으로, 얼굴 사진을 통해 목소리 정보를 예측하고, 예측된 목소리를 기반으로 음성을 생성하는 보조기술 연구를 진행하고자 합니다.

[성과와 관련된 실적]
Yejin Jeon, Solee Im, Youngjae Kim, Gary Geunbae Lee / Facilitating Personalized TTS for Dysarthric Speakers Using Knowledge Anchoring and Curriculum Learning/ Interspeech 2025 Acceptance

[성과와 관련된 이미지]