연구
최신연구
View
| [한욱신 교수] LILaC: Late Interacting in Layered Component Graph for Open-domain Multimodal Multihop Retrieval | ||
|---|---|---|
| 작성자 한욱신 | 작성일 25/09/03 (00:00) | 조회수 47 |
[연구의 필요성]
멀티모달 문서(웹페이지·PDF 등)에서 문단·표·이미지처럼 서로 연결된 구성요소를 찾아주는 검색기는, (1) 고정된 단일 단위로만 검색해 불필요한 내용이 섞이는 ‘그라뉼러리티(단위) 문제’와 (2) 하이퍼링크·동일 페이지 등 구성요소 사이의 구조적 연결을 살리지 못해 ‘멀티홉 추론 문제’가 동시에 발생한다. 텍스트 요약 기반(TextRAG) 접근은 시각 정보를 텍스트로 바꾸는 과정에서 핵심 단서가 누락되기 쉽고, 스크린샷 기반(VisRAG) 접근은 보통 ‘페이지 전체’처럼 거친 단위로 임베딩해 질의와 무관한 부분이 많이 섞이며 구성요소 간 링크를 잃어버린다. 이로 인해 정밀 검색과 다단계 추론이 모두 제한된다.
[포스텍이 가진 고유의 기술]
- 본 연구진은 LILaC이라는 새로운 검색 프레임워크를 제안한다. 핵심은 두 가지이다.
(1) 이층(layered) 구성요소 그래프: 문단·표·이미지를 ‘문단/표/이미지(거친 단위)’와 ‘문장/표-행/이미지-객체(미세 단위)’의 2계층으로 표현하고, 문서 내·문서 간 관계(하이퍼링크 등)는 상층 간의 엣지로, 상·하층 간 포함 관계는 계층 하향 엣지로 명시한다. 이렇게 하면 후보 생성은 거친 단위에서 빠르게, 최종 판단은 미세 단위에서 정밀하게 할 수 있다.
(2) ‘지연 상호작용(late interaction)’ 기반 서브그래프 검색: 온라인 단계에서 질의를 하위 질의로 분해하고(모달리티 분류 포함), 상층 노드에서 후보를 찾은 뒤 빔 서치로 연결 엣지를 따라 확장한다. 각 엣지 점수는 엣지 양 끝의 ‘미세 하위 구성요소(문장·표-행·객체)’와 하위 질의 간 최대 유사도를 합산해 동적으로 계산한다(엣지 임베딩을 전수 계산하지 않아도 됨). 고립 노드·편측 매칭 같은 특수 경우도 처리한다.
요약하면, LILaC은 ‘이층 그래프 표현 + 지연 상호작용 서브그래프 탐색’으로 멀티모달·다단위 정보를 효율적이면서도 정밀하게 결합한다
[연구의 의미]
LILaC은 추가 파인튜닝 없이 5개 벤치마크 모두에서 SOTA 성능을 달성했다. 특히 VisRAG-Ret·ColPali 대비 평균 Recall@3은 각각 12.39%p·9.85%p, MRR@10은 14.45%p·10.49%p 크게 향상됐다. 데이터셋 중에서도 미세 단위·멀티홉 추론이 중요한 MultimodalQA·MMCoQA에서 상대 개선이 두드러진다.
엔드투엔드 QA에서도 Qwen2.5-VL 7B 조합 기준 평균 EM 52.00, F1 58.79로 기존 최적 VisRAG 설정 대비 EM 17.40%p, F1 18.47%p 상승을 보였다. 이는 요약 과정에서 시각 정보가 손실되는 TextRAG의 한계를 넘어, 시각·표·텍스트를 구조적으로 유지한 채 정밀 검색을 수행한 효과로 해석된다.
효율성 측면에서도, 전체 평균 실행 시간은 VisRAG 대비 약 20.76% 느리지만 ColPali보다는 18.24% 빠르며, 생성 단계는 두 방법보다 더 짧다(VisRAG 1.70×, ColPali 1.15×의 생성 시간 소요).
[연구결과의 진행 상태 및 향후 계획]
현재 논문 버전은 이층 그래프·엣지 지연 상호작용·질의 분해를 갖춘 LILaC의 전체 파이프라인을 구현·평가했으며, 코드/데이터 산출물은 깃헙 저장소로 공개되어 재현성을 갖췄다.
아울러, 본 연구진은 라일락이 검색 과정에서 실시간으로 질의를 세분화하지 않고 사전에 고정된 정적 질의 분해(static query decomposition)를 사용하고 있으며, 지연 상호작용 또한 멀티홉 추론을 효과적으로 풀지 못하는 경우가 있는 것을 실험적으로 확인하였다. 이를 극복하기 위해 모달리티 간 단서를 단계적으로 추론하며 필요 시 질의를 재분해·재구성하는 동적 추론(dynamic reasoning) 기반의 멀티모달 검색 기법을 개발 중이다.
[성과와 관련된 실적]
Joohyung Yun, Doyup Lee, Wook-Shin Han. “LILaC: Late Interacting in Layered Component Graph for Open-domain Multimodal Multihop Retrieval,” EMNLP 2025 Main Conference
[성과와 관련된 이미지]
그림 1. 기존 방법들이 멀티모달 데이터를 문서를 정확히 검색하지 못하는 사례를 보여주는 예시

그림 2. LILaC 프레임워크의 전반적인 동작 과정
