본문 바로가기

최신연구

View
[곽수하/조민수 교수] Part-Aware Bottom-Up Group Reasoning for Fine-Grained Social Interaction Detection
작성자 시스템 작성일 25/12/16 (00:00) 조회수 137

[연구의 필요성]

사회적 상호작용 인식은 여러 사람이 등장하는 장면에서 사람들 사이의 비언어적 행동(시선, 표정, 손짓, 자세, 접촉 등)을 이해하는 핵심 기술로, 인간-로봇 상호작용, 감시, 영상 분석 등 다양한 응용 분야에서 중요한 역할을 한다. 기존 연구들은 주로 사람 간의 관계를 전역적인 특징을 바탕으로 모델링하는 데 초점을 맞추어 왔으나, 이러한 방식은 서로 미세한 차이를 갖는 세밀한 상호작용들을 구분하는 데 본질적인 한계를 가진다. 예를 들어, 동일한 두 사람 사이에서도 ‘미소’, ‘시선 회피’, ‘손동작’과 같은 상호작용은 서로 다른 신체 부위에 대한 선택적 주의(attention)를 요구한다. 그러나 기존 상호작용 탐지 연구들은 사람 단위의 전역 특징에 의존하여 상호작용을 구성하는 신체 부위 수준의 세밀한 단서를 충분히 포착하지 못할 뿐 아니라, 사람들 간의 관계를 바탕으로 그룹을 점진적으로 구성하기보다 그룹 정보를 바로 탐지하려는 한계를 갖는다. 이에 따라 신체 부위 단위의 세밀한 정보와 사람 간 관계를 함께 고려하는 새로운 상호작용 탐지 방법론의 필요성이 대두되었다.

 

[포스텍이 가진 고유의 기술]

본 연구에서는 신체 부위 단위 정보를 활용하고, 사람 간 관계를 바텀업 방식으로 결합하는 새로운 프레임워크를 제안하였다. 제안한 방법은 먼저 개별 사람을 탐지한 후, 탐지된 각 사람의 임베딩을 변환하여 신체 부위별 의미를 담기 위한 파트 쿼리를 구성하고 이를 증강 디코더 모듈에 입력하여 신체 부위 정보를 반영한 표현을 얻는다. 이를 위해서 사전 학습된 자세 추정기를 활용하여 얼굴, 손, 다리 등 신체 부위 단위의 영역을 구성하고, 이 부위 정보를 특권 정보로 활용하여 사람 별로 파트 쿼리가 신체 부위를 인식하도록 유도한다. 이렇게 신체 부위 정보를 담도록 학습된 사람의 임베딩들 간의 유사도 기반 추론을 통해 사람들 간의 관계를 바텀업 방식으로 구성하고, 이를 바탕으로 최종적으로 미세한 사회적 상호작용을 탐지한다.

 

[연구의 의미]

본 연구는 미세한 사회적 상호작용 탐지를 위해서 신체 부위 단위 정보를 인식하고, 이를 통하여 사람 간 관계를 바텀업 방식으로 추론할 수 있는 새로운 프레임워크를 제시했다는 점에서 중요한 의의를 갖는다. 특히, 기존의 전역 특징 기반 상호작용 탐지 방식이 갖는 근본적인 한계를 극복하고, 동일한 인물에서도 상호작용 종류에 따라 서로 다른 신체 부위에 주목해야 한다는 점을 체계적으로 모델링하였다. 또한, 제안한 방법은 NVI 및 Café 데이터셋에서 기존 방식 대비 우수한 성능을 달성함으로써, 사회적 상호작용 이해를 위한 새로운 표준적 접근 방식이 될 수 있는 가능성을 입증하였다. 이는 향후 사회적 로봇, 인간 행동 분석, 멀티모달 상호작용 이해 등으로 확장될 수 있는 중요한 기술적 토대를 제공한다.

 

[연구결과의 진행 상태 및 향후 계획]

본 연구는 컴퓨터 비전 분야 최우수 국제학술대회 NeurIPS 2025에서 포스터로 발표되었다. 향후에는 텍스트나 음성 등의 언어 정보와 결합한 멀티모달 사회적 상호작용 이해로의 확장 연구 또한 계획 중에 있다.

 

[성과와 관련된 실적]

 

Dongkeun Kim, Minsu Cho, Suha Kwak, “Part-Aware Bottom-Up Group Reasoning for Fine-Grained Social Interaction Detection”, Neural Information Processing Systems (NeurIPS), 2025.

 

[성과와 관련된 이미지]