연구
최신연구
View
| [김형훈 교수] Revealing the Inherent Instructability of Pre-Trained Language Models | ||
|---|---|---|
| 작성자 김형훈 | 작성일 25/09/16 (00:00) | 조회수 3 |
[연구의 필요성]
대규모 언어모델은 사전학습을 통해 광범위한 지식과 과제를 수행하는 능력을 익히고, 이후 지시-응답 쌍으로 미세조정되어 사용자 지시를 따르는 에이전트로 전환된다. 그러나 모델이 지시 가능 (instructable)한 상태가 되는 과정정과 IT (Instruction Tuning)가 그 과정에서 정확히 무엇을 추가로 학습시키는지 충분히 규명되지 않았다. 본 연구는 사전학습 단계에서 이미 지시를 처리할 능력이 형성될 수 있다는 가설을 제시하고, 이를 체계적으로 검증한다.
[포스텍이 가진 고유의 기술]
본 연구는 Response Tuning (RT)으로 가설을 검증한다. RT는 IT의 단순한 변형으로, 미세 조정 단계에서 지시와 지시-응답 매핑을 제거함으로써, 지시에 대한 응답 생성 학습을 배제한다. 대신 응답 분포 (response distribution)만을 학습 대상으로 삼는다. 가설을 엄격하게 검증하기 위해 세가지 기반 데이터셋 (LIMA, Alpaca, Dolly)으로 학습된 네 가지 LLM (Llama-3.1-8B, Gemma-2-2B, Gemma-2-9B, Mistral-7B)에 대하여 사람 및 자동 평가를 모두 수행한다. 나아가, 모델이 위험한 요청을 구분할 수 있는지를 평가함으로써, 모델이 실질적인 지시 처리 능력을 가지고 있는지 평가한다. 또한, 맥락 내 학습 (in-context learning)에서도 비슷한 경향이 관찰되는지 조사한다.
[연구의 의미]
본 연구는 “지시 가능성 (instructability)”이 IT 단계에서 추가로 주입되는 능력이라기보다, 사전학습 동안 이미 상당 부분 형성된 능력임을 실증적으로 보여준다. RT가 지시 문장을 완전히 제거하고도 광범위한 과제에서 타당한 응답을 산출한다는 결과는, 사전학습이 자연발생적 지시–응답 상호작용(예: 질의응답 쓰기 관습, 포럼 문답 구조 등)으로부터 지시 처리 규칙을 내재화했음을 시사한다. RT와 IT의 성능 차이를 세밀 비교함으로써, IT의 주요 기여가 “지시를 이해시키는 것”보다 응답 양식의 정합성, 프롬프트 요구조건 민감도 (형식·제약 준수)를 끌어올리는 데 있음을 규명한다.
[연구결과의 진행 상태 및 향후 계획]
본 연구는 자연어처리 최우수 학회인 Findings of EMNLP 2025에 수락되어 발표될 예정이다. 향후 연구진들은 규명한 언어 모델의 학습 매커니즘을 토대로 더 효과적인 학습/정렬 방법론을 고안하고자 한다.
[성과와 관련된 실적]
Revealing the Inherent Instructability of Pre-Trained Language Models
Seokhyun An, Minji Kim, and Hyounghun Kim. Findings of EMNLP 2025.
[성과와 관련된 이미지]
