연구
최신연구
View
| [한욱신 교수] Batcher: Learning to Construct Cost-Efficient Batches of Small Queries in Big Data Processing Platforms | ||
|---|---|---|
| 작성자 시스템 | 작성일 26/03/23 (00:00) | 조회수 373 |
[연구의 필요성]
Spark, Flink, Snowflake와 같은 빅데이터 처리 플랫폼은 대규모 데이터 분석에 강점을 가지지만, 최근 실제 서비스 환경에서는 대량의 소형 질의(small queries)가 빠르게 유입되는 워크로드가 중요한 비중을 차지하고 있다. 이러한 소형 질의는 개별 연산량은 작지만 질의마다 발생하는 설정(setup) 및 입출력(I/O) 오버헤드의 비중이 커서 전체 처리 지연이 크게 증가하는 문제가 있다. 기존에는 여러 소형 질의를 하나의 큰 질의로 합치는 방식이 제안되었으나, 단순 병합은 실행 구조가 다른 질의들을 함께 묶어 짧은 질의가 긴 질의를 기다리게 만드는 새로운 병목을 유발한다. 따라서 소형 질의들을 비용과 구조를 고려해 효율적으로 배치(batch) 구성·스케줄링 하는 기술이 필요하다
[포스텍이 가진 고유의 기술]
포스텍 연구진이 개발한 Batcher는 소형 질의들을 무작위로 합치지 않고, 질의 처리 시간과 실행 계획의 DAG 구조를 함께 고려해 최적의 배치를 구성하는 지능형 배치 기술이다. Batcher는 먼저 질의별 실행 비용을 예측하고, 이후 질의 실행 시간과 DAG 기반 실행 구조의 유사성을 기준으로 질의들을 2단계로 군집화한다. 이어 반복적 개선(iterative refinement)을 통해 평균 turnaround time을 최소화하는 배치 구성을 찾고, 배치별 비용 추정과 비용 기반 배치 스케줄링으로 처리 순서를 정한다. 또한 배치 내부에서는 공통 서브쿼리 결과를 재사용하여 중복 연산을 줄임으로써 추가 성능 향상을 달성한다. 이 과정에서 배치 비용 추정에 경량 MLP 모델을 적용하고, 증분형 군집 갱신 기법을 활용해 높은 질의 유입 환경에서도 낮은 오버헤드로 의사결정을 수행할 수 있도록 설계한 것이 핵심이다.
[연구의 의미]
본 연구는 빅데이터 플랫폼에서 문제가 되는 소형 질의 워크로드를 대상으로, 단순 질의 병합을 넘어 배치 구성–비용 예측–스케줄링–공통 연산 재사용을 통합한 실용적 처리 체계를 제시했다는 점에서 의미가 크다. Batcher는 실제 거래 데이터 기반 평가에서 기존 Spark 처리 방식과 최신 소형 질의 처리 기법(QaaD) 대비 일관된 성능 향상을 보였으며, Spark 환경에서 최대 5.4배의 성능 개선을 달성했다. 또한 혼합 우선순위 워크로드에서도 높은 우선순위의 소형 질의를 효과적으로 우선 처리했으며, Flink 기반 대규모 스트림 환경으로 확장한 실험에서도 네이티브 방식 대비 최대 100.2배 빠른 성능을 보여, 다양한 빅데이터 처리 플랫폼에 대한 확장 가능성과 실용성을 입증했다.
[연구결과의 진행 상태 및 향후 계획]
본 연구 성과는 데이터베이스 분야 최상위 학술대회인 ICDE 2026에 게재가 확정되었다. 현재 Batcher는 Spark 상에서 설계·구현과 실증 평가를 완료한 상태이며, 실제 거래 데이터셋(BRA, eBay) 기반 실험에서 성능 향상을 확인하였다. 또한 Flink 환경에서도 대규모 스트림 워크로드에 대한 확장 가능성을 검증하였다. 향후에는 이러한 결과를 바탕으로 다른 빅데이터 처리 환경으로의 적용 범위를 넓히고, 배치 구성 및 실행 효율을 더욱 고도화하는 방향으로 후속 연구를 추진할 수 있다.
[성과와 관련된 실적]
Park, Y., Lee, T., Tak, B., and Han, W., “Batcher: Learning to Construct Cost-Efficient Batches of Small Queries in Big Data Processing Platforms,” In Proc., the 42nd IEEE International Conference on Data Engineering, IEEE ICDE, Montreal, Canada, May 2026
[성과와 관련된 이미지]
