본문 바로가기

최신연구

View
[옥정슬 교수] Comparison-based Active Preference Learning for Multi-dimensional Personalization
작성자 옥정슬 작성일 25/07/21 (00:00) 조회수 98

[연구의 필요성]

대규모 언어 모델(LLM)의 활용이 확산됨에 따라, 모델이 인간의 의도를 얼마나 잘 따르는지가 중요한 문제로 부각되고 있다. 이에 따라 최근 연구들은 모델을 인간의 선호에 맞게 조정하는 정렬(alignment)을 핵심 기술로 다루고 있다. 그러나 이러한 정렬이 성공적으로 이루어지기 위해서는, 단일 기준에만 맞추는 방식으로는 충분하지 않다. 사용자들은 응답에서 helpfulness, harmlessness, humor 등 다수의 측면을 동시에 고려하며, 이는 곧 사용자 선호도가 본질적으로 다차원적(multi-dimensional)임을 의미한다. 

 

게다가, 이러한 측면들에 대한 중요도는 사용자마다 서로 다르다. 예를 들어, 어떤 사용자는 정확성을 가장 중요시하고, 또 다른 사용자는 유머나 공감의 표현을 더 선호할 수 있다. 따라서 모델이 진정으로 사용자를 만족시키려면, 모든 사용자에게 동일한 응답을 제공하는 획일적인(one-size-fits-all) 정렬는 한계가 있으며, 사용자별로 다차원적인 개인화(personalization)가 필요하다. 

 

하지만 현실에서는 대부분의 사용자들이 자신의 선호를 명시적으로 표현하지 않기 때문에, 이러한 개인화를 달성하는 것은 어렵다. 결국, 사용자 선호가 주어지지 않은 상태에서, 잠재적인 선호를 추정하고 적응하는 능력이 모델에 요구된다. 이러한 배경에서, 본 연구는 명시적 선호 표현 없이도 사용자 맞춤형 응답을 가능하게 하는 능동적 선호도 학습 프레임워크인 AMPLe (Active Multi-dimensional Preference Learning)를 제안한다.

 

[포스텍이 가진 고유의 기술]

본 연구의 핵심 기술은 사용자로부터의 비교 피드백(comparison feedback)을 통해 명시적인 선호도 입력 없이도 개인화된 응답을 생성할 수 있도록 하는 선호도 학습 프레임워크를 설계한 데 있다. AMPLe는 다음 두 가지 기술적 차별성을 가진다.

 

첫째, 편향과 노이즈에 모두 강건한(robust) 선호도 학습 방식을 제안한다. 기존의 선호도 학습 방식은 로지스틱 가능도 함수(logistic likelihood)를 기반으로 베이지안 업데이트를 수행하지만, 이러한 곡선형 함수는 피드백을 반복적으로 수용할수록 추정치를 극단으로 끌고 가는 편향(estimation bias) 문제를 유발할 수 있다. AMPLe는 이를 해결하기 위해, 먼저 계단함수(step-function) 기반의 공간 분할 업데이트를 도입하여 추론 편향을 제거하였다. 그러나 이러한 방식은 사용자 피드백의 노이즈에 취약하다는 한계를 가지므로, AMPLe는 여기에 확률을 완전히 제거하는 대신 소폭 감소시키는 soft update 방식(γ-smoothing)을 추가하였다. 이를 통해 AMPLe는 편향 없는 추론과 노이즈 복원 가능성을 동시에 만족시키는 강건한 추론 구조를 갖추었다.

 

둘째, 적은 수의 비교 피드백만으로도 빠르게 선호도를 추정할 수 있는 효율적인 쿼리 선택 전략을 제안한다. 기존 방식에서는 쿼리를 무작위로 제시하거나 명확한 기준 없이 선정하여, 사용자 피드백이 추론에 큰 영향을 미치지 못하는 경우가 많았다. 이에 반해 AMPLe는 현재 사후분포(posterior) 상에서 가능한 피드백의 확률 분포를 균등하게 나누는 방향으로 쿼리를 선택하는 volume-halving 쿼리 선택 전략을 도입하였다. 이는, 현재 추정된 사용자 선호에 대해 가장 불확실성을 줄일 수 있는 비교 쌍을 선택함으로써, 각 피드백이 가지는 정보량을 극대화하고 실제 사용자 선호도로의 빠른 수렴을 가능하게 한다.

 

이러한 두 기술은 AMPLe이 적은 비교 피드백으로도, 노이즈와 편향에 강건하게, 다차원적인 사용자 선호를 추론하고 개인화된 응답을 생성할 수 있도록 한다.

 

[연구의 의미]

이 연구는 LLM 기반 시스템의 개인화 가능성을 크게 확장하는 계기를 마련한다. 단순한 instruction-following을 넘어서, 다차원적인 사용자 선호 구조를 반영하는 응답 생성이 가능하다는 것을 보여주었고, 명시적 선호 입력이 없이 latent feedback만으로도 개인화된 응답을 생성할 수 있음을 실험적으로 입증하였다. 이는 향후 AI 비서, 추천 시스템, 교육용 튜터 등 실제 사용자와 상호작용하는 응용 분야에서, 사용자 중심의 자연어 처리 시스템을 구현하는 데 중요한 기반이 될 것으로 기대된다.

 

[연구결과의 진행 상태 및 향후 계획]

본 연구는 자연어 처리 분야 최우수 학술대회 중 하나인 The 63rd Annual Meeting of the Association for Computational Linguistics (ACL 2025)에 채택되어, 구두 발표 세션에서 발표될 예정이다.

향후에는 시간에 따라 변화하는 선호도에 적응할 수 있는 동적 학습 메커니즘을 연구할 계획이다. 이러한 시나리오는 실제 환경에 더 가까운 문제 설정으로, 실용성을 한층 높일 것으로 기대한다. 또한, 단순한 응답 생성 수준을 넘어, 복잡한 추론과 의사결정이 요구되는 다양한 agentic task로 본 방법을 확장하고자 한다. 이를 통해 다양한 사용자 요구에 능동적으로 대응할 수 있는 지능형 개인화 AI 시스템으로 발전시키는 것을 목표로 한다.

 

[성과와 관련된 실적]

Minhyeon Oh, Seungjoon Lee, and Jungseul Ok, "Comparison-based Active Preference Learning for Multi-dimensional Personalization", ACL 2025 (main, long, oral<8% of accepted)

 

[성과와 관련된 이미지]