본문 바로가기

최신연구

View
[곽수하 교수] MemDistill: Distilling LiDAR Knowledge into Memory for Camera-Only 3D Object Detection
작성자 곽수하 작성일 25/07/21 (00:00) 조회수 86

[연구의 필요성]

LiDAR 기반 3D 객체 검출은 정밀하지만 고비용이며, 카메라 기반 방식은 비용 효율적이나 3D 공간 정보를 효과적으로 활용하지 못함. 이 성능 격차를 줄이는 기술적 접근이 필수적임

 

[포스텍이 가진 고유의 기술]

- MemDistill: 카메라 기반 3D 객체 검출 모델에 LiDAR 기반 모델의 3D 공간 정보를 메모리 구조(memory module)를 통해 효과적으로 distillation하는 세계 최초의 메모리 기반 교차 모달 지식 증류(Cross-modal KD) 프레임워크

- 장면 적응형 메모리 검색기(scene-dependent retriever)를 통해 학습된 LiDAR 정보 중 입력 장면에 적합한 정보만 추출하여 카메라 피처에 결합

- 하이브리드 아키텍처: 카메라 백본 + LiDAR 기반 detection neck/head 공유를 통해 모달리티 간 representation space alignment를 개선함

 

[연구의 의미]

- 센서 비용 문제 해결: 카메라만 사용하는 저비용 모델로도 LiDAR 수준에 상당히 근접한 성능 확보

- 모달리티 간 간극 해소: 단순 feature matching이 아닌 memory 기반 간접 전이 방식으로 modality gap을 본질적으로 해소

- 실용성과 범용성: 메모리 모듈은 LiDAR 입력이 없어도 inference 가능. 다양한 모델/플랫폼에 확장 가능

 

[연구결과의 진행 상태 및 향후 계획]

향후 실제 자율주행 시스템과 통합 검증 및 3D semantic segmentation 등 다른 3D vision task로의 확장을 계획 중임

 

[성과와 관련된 실적]

ICCV 2025 (International Conference on Computer Vision) Accepted

 

[성과와 관련된 이미지]