연구
최신연구
View
| [이남훈 교수] Mitigating Staleness in Asynchronous Pipeline Parallelism via Basis Rotation | ||
|---|---|---|
| 작성자 시스템 | 작성일 26/07/01 (09:13) | 조회수 30 |
[연구의 필요성]
대규모 언어 모델(LLM)의 학습에는 수백억 개에 달하는 파라미터가 필요하며, 이는 단일 GPU의 메모리 용량을 크게 초과한다. 이를 해결하기 위해 모델을 여러 순차적 단계로 분할하고 각 단계를 별도의 GPU에 배치하는 파이프라인 병렬 처리(pipeline parallelism)가 도입되었다. 그러나 기존의 동기식 파이프라인 병렬 처리는 각 단계가 다른 모든 단계의 역전파가 완료될 때까지 대기해야 하므로, '파이프라인 버블’이라는 유휴 시간이 발생해 하드웨어 활용률이 크게 저하된다.
비동기식 파이프라인 병렬 처리는 각 단계가 다른 단계를 기다리지 않고 즉시 다음 연산을 수행함으로써 이 문제를 해결하지만, 대신 그래디언트 지연(gradient staleness) 문제를 초래한다. 특히 모델 규모가 커질수록 파이프라인 단계 수도 함께 증가하므로, 지연 정도 역시 비례적으로 심화된다. 본 연구 결과, 단계 수를 1단계에서 32단계로 '늘렸을 때 수렴 속도가 최대 5.81배 저하되는 것을 확인하였다. 이는 그래디언트 지연이 비동기 파이프라인 병렬 처리가 본래 목표로 하는 대규모 확장성 자체를 근본적으로 저해하는 병목임을 보여준다.
[POSTECH 이 가진 고유의 기술]
본 연구는 비동기 파이프라인 학습에서 성능이 저하되는 핵심 원인이 기저 불일치(basis misalignment), 즉 손실 함수의 헤시안(Hessian) 고유기저(eigenbasis)와 표준 좌표 기저 사이의 불일치임을 규명하였다. LLM 학습의 표준 옵티마이저인 Adam은 각 좌표 방향별로 독립적인 학습률을 적용하는 좌표 방향 적응성을 통해 트랜스포머의 이질적인 손실 곡률을 효과적으로 처리한다. 그러나 헤시안 고유기저가 표준 좌표 기저와 정렬되지 않은 경우, Adam의 적응성이 작동하지 않아 업데이트 방향이 빠르게 진동하게 되고, 지연된 그래디언트가 현재의 최적화 경로와 어긋나 수렴을 방해한다.
이를 해결하기 위해 본 연구는 기저 회전(basis rotation) 프레임워크를 제안하였다. 이 방법은 최적화 공간을 헤시안 고유기저와 정렬되도록 회전 변환하여 지연된 그래디언트도 유효한 업데이트 방향을 유지하도록 한다. 또한 파이프라인 초기 단계일수록 기저 업데이트 빈도를 높이는 단계별 기저 회전 전략을 통해 동일한 연산 예산 내에서 추가적인 성능 향상을 달성하였다.
[연구의 의미]
본 연구는 비동기 파이프라인 병렬 학습에서의 성능 저하가 그래디언트 지연으로 인한 불가피한 비용이 아니라, Adam 옵티마이저의 기저 불일치 취약성이 원인임을 이론과 실험으로 동시에 입증하였다는 점에서 의미가 크다. 이를 통해 비동기 파이프라인 학습에서 그동안 간과되어 온 최적화 기하학적 관점을 처음으로 체계화하였다.
95M 파라미터 규모의 LLM 사전 학습 실험에서, 기저 회전은 최상의 기존 비동기 기준선 대비 동일한 학습 손실 달성에 필요한 반복 횟수를 71.6% 줄였다. 단계별 기저 회전 전략을 통해 추가로 29.2%의 수렴 속도 향상을 이루었으며, GPU 실행 시간 기준으로도 기준선 대비 54.3% 효율 향상을 확인하였다. 나아가 모델 규모가 커질수록 기저 회전의 이점은 더욱 뚜렷하게 나타나, 3B 파라미터 규모에서는 81.7%까지 확대되었다. 이는 기저 회전이 확장성을 갖춘 비동기 파이프라인 학습의 실용적 해법임을 실증한다.
[연구결과의 진행상태 및 향후 계획]
본 연구는 기계 학습 분야 최고 권위의 국제 학술대회인 International Conference on Machine Learning (ICML 2026)에 채택되었다. 향후 연구에서는 기저 회전과 그래디언트 지연의 상호작용에 대한 이론적 분석을 심화하고, 더욱 다양한 대규모 학습 시나리오에 적용 가능한 범용 비동기 학습 프레임워크로 발전시킬 예정이다. 또한 더 큰 규모의 모델 및 데이터셋을 대상으로 추가 실험을 수행하여 본 방법론의 확장성과 범용성을 검증할 계획이다.
[성과와 관련된 실적]
Hyunji Jung*, Sungbin Shin*, Namhoon Lee. "Mitigating Staleness in Asynchronous Pipeline Parallelism via Basis Rotation", International Conference on Machine Learning (ICML), 2026.
[성과와 관련된 이미지]
