본문 바로가기

최신연구

View
[이근배, 옥정슬 교수] MiLQ: Benchmarking IR Models for Bilingual Web Search with Mixed Language Queries
작성자 이근배, 옥정슬 작성일 25/09/04 (00:00) 조회수 4

  1. [연구의 필요성]

실세계에서 이중언어 사용자가 웹 검색이나 AI 에이전트와 소통할 때 언어를 혼합하여 쓰는 것은 자연스러운 현상이며, 이는 검색 시스템의 사용자 경험을 좌우하는 핵심 요소이다. 하지만 이러한 혼합 언어 질의(Mixed-language Query) 환경을 반영하고 검색 모델의 성능을 평가할 공개 벤치마크 데이터셋은 전무했다. 이로 인해 검색 모델이 실제 혼합 언어 질의를 효과적으로 처리하는지 평가할 데이터와 방법이 부재했고, 이중언어 사용자의 검색 경험을 개선하는 모델 개발에 직접적인 한계로 작용했다. 이는 다양한 언어를 자유롭게 구사하는 다국어 화자의 혼합 언어 질의에 강건하게 반응하는 정보 검색 시스템 개발을 위한 기반 연구의 중요성과 필요성을 시사한다.

 

  1. [포스텍이 가진 고유의 기술]

본 연구에서는 최초로 실제 이중언어 사용자가 제작한 Mixed-Language Query 벤치마크(MiLQ)를 구축했다. 8개 언어권의 이중언어 사용자들에게 정교한 지시 사항과 기존 모국어 및 영어로 구성된 질의 데이터셋을 제공하고, 이를 바탕으로 가장 자연스럽고 현실적인 혼합 언어 질의를 생성하도록 했다. 이렇게 구축된 MiLQ는 GPT-Eval과 Human-Eval 등 지표를 통해 높은 품질을 검증받았으며, 별도의 선호도 조사에서는 실제 다른 이중언어 사용자들이 기존 단일 언어 질의보다 혼합 언어 질의를 더 선호하는 것으로 나타났다. 나아가, 구축한 벤치마크를 기반으로 최신 다국어 정보 검색 모델들의 초기 성능 기준(baseline)을 제시했다. 또한, 인공적으로 생성한 코드 스위칭 데이터로 학습시킨 'Mixed-Distill' 모델을 통해, 이러한 코드스위칭 데이터가 강건한 다국어 검색 시스템 개발에 기여할 수 있다는 가능성을 입증했다.

 

  1. [연구의 의미]

본 연구는 그동안 공개 벤치마크의 부재로 다뤄지지 못했던 혼합 언어 정보 검색(MQIR) 분야의 기준이 되는 연구라는 점에서 큰 의미를 가진다. 이번에 구축한 MiLQ 벤치마크는 향후 관련 연구를 촉진하고, 여러 모델의 성능을 객관적으로 비교하는 기준을 제공한다. 또한, 본 연구는 이중언어 사용자가 의도적으로 영어를 혼용하는 것이 영어 문서 검색에 효과적인 전략임을 실험으로 확인했으며, 토큰 수준의 분석을 통해 그 원인을 밝혔다. 이 연구 결과는 실제 이중언어 사용자의 다양한 언어 표현 방식을 반영하여 더 현실적이고 안정적인 정보 검색 시스템을 개발하는 데 기여할 수 있다.

 

  1. [연구결과의 진행 상태 및 향후 계획]

본 연구는 자연어처리 분야 최우수 국제학술대회인 EMNLP 2025에 소개될 예정이며, 구축된 MiLQ 데이터셋은 ELRA(ELRA Language Resources Association)를 통해 무료 평가 라이선스(Free Evaluation License)로 공개하기 위한 등록 절차를 진행 중이다. 추후에는 혼합 언어 범위를 확장하고 언어별 특성을 분석할 계획이다. 또한, 사용자의 질의가 모국어, 영어, 혼합 언어 등 어떤 형태이든 일관되고 강건한(robust) 성능을 보이는 검색 방법론을 연구해 나갈 예정이다.

 

  1. [성과와 관련된 실적]

Jonghwi Kim, Deokhyung Kang, Seonjeong Hwang, Yunsu Kim, Jungseul Ok, Gary Geunbae Lee, MiLQ: Benchmarking IR Models for Bilingual Web Search with Mixed Language Queries, EMNLP 2025

 

  • [성과와 관련된 이미지]
  • [그림1] 문제 상황
  • [그림 2] 토큰 수준의 분석 결과