연구
최신연구
View
[한욱신 교수]HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval | ||
---|---|---|
작성자 시스템 | 작성일 25/06/05 (17:21) | 조회수 103 |
[연구의 필요성]
개방형 도메인에서 테이블과 텍스트를 활용한 질의응답 시스템은 효과적인 정보 검색과 복잡한 추론 능력을 요구한다. 그러나 기존 연구들은 크게 두 가지 접근법을 취하고 있다. 하나는 질의 전에 테이블과 텍스트를 사전에 결합하는 '초기 융합(Early Fusion)'으로, 이는 종종 질의와 무관한 내용을 포함하거나 질의 의존적인 관계를 놓치게 된다. 다른 하나는 질의가 주어진 후 동적으로 테이블과 텍스트 간 연결을 형성하는 '후기 융합(Late Fusion)'으로, 다수의 가능한 테이블-텍스트 조합을 고려하는 과정에서 오류가 누적될 가능성이 존재한다. 또한 두 접근법 모두 다중 단계(multi-hop) 추론과 집계(aggregation) 질의에 대한 추론이 미흡한 공통된 한계를 가지고 있다. 따라서 기존 접근법들의 한계를 극복하고 보다 정확하고 정교한 정보 검색 및 추론을 가능하게 하는 혁신적 접근법이 필요하다.
[포스텍이 가진 고유의 기술]
본 연구진은 검색 문제를 테이블 조각과 문단 간의 초기 융합(early fusion)을 통해 구축된 이분 데이터 그래프(bipartite data graph) 상에서, 질문과 관련된 부분 그래프(subgraph)를 효과적으로 탐색하는 문제로 재정의하였다. 이를 위해 단계별 세분화 전략을 적용한 세 단계의 검색 파이프라인 HELIOS를 제안하였다. 첫 번째 단계에서는 엣지 단위(edge-level)의 다중 벡터 검색기(multi-vector retriever)를 활용하여 고정밀 후보 서브그래프를 추출하고, 두 번째 단계에서는 질의와 정합성이 높은 노드를 식별한 후 선택적으로 확장하여 초기 융합에서 누락되었던 질의 의존적 연결을 복원한다. 마지막 단계에서는 확장된 그래프를 중심 노드 기반의 별 모양 부분 그래프(star-shaped subgraph)들로 분해하고, 대형 언어 모델이 집계 및 다중 단계 추론을 수행함으로써, 관련 정보를 포함한 문서나 테이블만을 선택하여 최종 출력으로 제공한다.
[연구의 의미]
본 연구는 기존 테이블-텍스트 기반 질의응답 시스템이 안고 있던 비정밀한 검색과 단편적인 추론이라는 두 가지 핵심 한계를 동시에 해결하고자, 검색 과정을 그래프 기반 문제로 재정의하고, 단계별 세분화 전략을 갖춘 새로운 프레임워크 HELIOS를 제안하였다는 점에서 큰 의의를 가진다. HELIOS는 테이블과 문단 간 초기 융합으로 구축된 이분 그래프에서 질의와 관련된 정보를 정밀하게 탐색하고, 대형 언어 모델을 통한 집계 및 다중 단계 추론을 결합함으로써 복잡한 질의에도 정확하게 응답할 수 있도록 설계되었다. OTT-QA 벤치마크 실험 결과, HELIOS는 기존 최고 성능 모델 대비 최대 42.6%의 답변 회수율(recall) 향상과 39.9%의 nDCG 개선을 달성하였다. 이는 단순한 검색 정확도를 넘어, 하위 질의응답 시스템 전체의 성능을 실질적으로 향상시킨 결과로, 향후 개방형 질의응답 시스템의 성능 개선에 핵심적인 기술적 기반이 될 것으로 기대된다.
[연구결과의 진행 상태 및 향후 계획]
본 연구는 자연어처리 분야 최우수 국제 학술 대회인 ACL 2025 메인 컨퍼런스에 채택되어 발표 및 출판될 예정이다. 앞으로 연구진은 테이블과 텍스트뿐 아니라 이미지 등 다양한 멀티모달 데이터로 확장하여 보다 광범위한 분야에 적용 가능한 범용적 검색 시스템으로 발전시킬 계획이다. 또한, LLM의 환각(hallucination)을 줄이기 위해 자기 평가(self-evaluation) 기술을 도입하는 등의 추가 연구를 진행 중이다.
[성과와 관련된 실적]
Sungho Park, Joohyung Yun, Jongwuk Lee, Wook-Shin Han. "HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval", ACL 2025 Main Conference.
[성과와 관련된 이미지]
그림 1. 기존 방법들이 질의 관련 문서를 정확히 검색하지 못하는 세 가지 사례를 보여주는 예시
그림 2. HELIOS 프레임워크의 전반적인 동작 과정
그림 3. HELIOS의 질의 기반 노드 확장 과정 예시