본문 바로가기

뉴스

View
사진 몇 장 찍어두면…그 공간이 내 눈앞에...신경망으로 3차원 공간 학습 ‘NeRF’ 주목(컴공/인공지능 조민수 교수)
작성자 시스템 작성일 23/01/06 (15:38) 조회수 299

우리 인간에게는 눈을 통해 관찰한 주변 공간과 그곳에 존재하는 물체들의 3차원적인 형태와 거리를 추정하는 것이 자연스럽고, 보지 못한 장면들을 머릿속에 그려보는 것도 어려운 일이 아니다. 우리가 복잡한 현실 공간을 돌아다니며 다양한 작업들을 성공적으로 수행할 수 있는 이유도 상당 부분 이런 3차원 공간 인지 능력에 바탕을 두고 있다.
 
지난 십여 년간 인공지능 붐을 일으켜왔던 심층 학습 신경망의 눈부신 발전에도 불구하고, 이런 능력을 인공지능 기술로 구현하는 것은 그동안 여전히 쉽지 않은 문제였다.
 
하지만, 최근 신경망을 통해 3차원 공간 표현을 학습하는 혁신적인 방법론인 NeRF(Neural Radiance Field)가 탄생하면서 기존의 3차원 복원과 영상 생성 문제를 효과적으로 해결하고 이와 관련한 인공지능과 메타버스 기술을 한 단계 끌어올릴 핵심 기술로 주목받고 있다.
 
세상 어디든 카메라로 사진 몇 장만 찍어두면 언제든 그 장소를 눈앞에 꺼내 들어 3차원 공간을 마치 현실처럼 마음껏 돌아다니게 된다는 것. 생각만 해도 멋지지 않은가?
 
몇 장의 사진만으로도…보지 못한 부분까지
 
합성해내는 능력 갖춘 ‘NeRF’ 기술 각광
 
카메라로 촬영된 2차원 영상들을 바탕으로 3차원의 입체적인 공간 구조를 복원하고 새로운 각도에서 촬영된 사실적인 영상들을 만들어내는 것은 컴퓨터비전과 컴퓨터그래픽스 분야를 관통하는 주요 연구 주제 중의 하나다. 이는 3차원 세계를 사실적인 2차원 영상으로 포착하는 이미징 기술과는 정반대로, 영상들을 디지털 3차원 장면으로 바꿔내는 기술로서 이미징 과정을 뒤집는 일종의 역문제(Inverse Problem)와 관련된다.
 
실용적인 차원에서, 이 문제를 풀어내는 데 있어서 핵심적인 이슈는 얼마나 적은 수의 영상으로, 얼마나 정교한 3차원 구조를 만들고, 또 얼마나 사실적인 영상을 빠르게 만들어낼 수 있느냐는 것이다.
 
NeRF 기술은 이 문제를 풀어내는 새로운 기술로서, 2차원 카메라 영상들을 바탕으로 해당 3차원 공간의 효과적인 표현법을 학습하고 이를 통해 새로운 각도에서 촬영된 영상을 만들어내도록 하는 인공신경망 기술을 일컫는다.
 
➊에 나타난 과정과 같이, NeRF는 여러 각도에서 찍힌 2차원 영상들과 각 영상을 찍은 카메라 위치와 방향 정보를 입력으로 받아 임의의 새로운 위치와 방향에서 촬영된 영상을 생성할 수 있게끔 학습된다. 보통 이를 위해서는 다양한 각도에서 아주 촘촘히 찍은 영상 데이터가 필요하기 마련이지만, NeRF는 훨씬 적은 수의 영상들, 때로는 단 몇 장의 사진만으로도 새로운 각도에서 촬영한 영상을 아주 사실적으로 생성해내는 탁월한 능력을 보여준다. 마치 부족한 그림 조각들의 모습을 상상해 그려가면서 전체 그림을 완성하듯이, 인공지능 신경망이 카메라에 찍히지 않은 부분들까지 추정해 3차원 공간의 모습을 만들어내는 것이다.
 
➋의 결과에서 볼 수 있듯이, NeRF는 기존에 사용되던 다시점 스테레오(Multi-View Streo) 기반 기법들이 지녔던 큰 단점들을 상당 부분 해결하면서, 아주 얇거나 형태가 뚜렷하지 않은 물체들과 반짝이는 표면을 자연스럽게 처리하고 고품질의 영상합성 결과를 만들어낸다.
 
신경망을 활용한 암묵적인 표현법과
 
3차원 영상합성 기술과의 결합
 
어떻게 이런 결과가 가능했을까? NeRF는 3차원 구조를 기존의 메시(Mesh)나 복셀(Voxel)과 같은 명시적인 구조를 사용해 표현하는 고전적인 방법들과 달리 이를 학습된 신경망의 파라미터들로 대체하는 암묵적인 신경망 표현법(Neural Implicit Representations)을 활용한다. 암묵적이라는 것은, 3차원 표면이나 부피에 해당하는 수치들을 직접 기록해두는 것이 아니라 이런 값들을 신경망이 예측하도록 학습해 이 신경망을 활용하는 간접적인 방식을 사용한다는 것을 의미한다. 위치 정보와 관찰 방향을 입력으로 받아 색상과 밀도를 출력하는 함수를 간단한 신경망으로 기존 3차원 표현법을 대체하면서 한발 더 나아가 이를 미분 가능한 영상합성법과 결합함으로써 기존의 이미지 기반 렌더링과 3차원 표면 모델링 양쪽의 장점을 극대화한 것이 주요했다. 2020년 UC버클리, 구글리서치, UC산디에고 연구진들의 공동 연구를 통해 유럽 컴퓨터비전학회에 소개된 초기 NeRF 기술은 획기적인 방법과 놀라운 영상합성 성능으로 단번에 인공지능 커뮤니티의 주목을 받았으나 여러 가지 한계점들도 동시에 갖고 있었다. 학습 속도와 메모리 요구도 컸을 뿐 아니라 영상합성 속도도 느렸으며, 관찰 영상과 함께 입력으로 주어져야 하는 카메라 포즈(위치와 방향) 정보의 정확도에 영향을 크게 받는다는 점 등도 문제였다. 하지만, 지난 2년 동안 폭발적인 후속 연구들을 통해 이런 문제점들 중 상당수가 빠르게 해결돼나가면서 안정적인 실시간 영상합성이 가능한 수준으로 발전하고 있다.
 
NeRF가 열어갈 인공지능과 메타버스의 미래
 
출현한 지 2년 정도밖에 되지 않았지만 NeRF는 다양하게 활용돼 인공지능·메타버스 기술과 산업을 발전시킬 주역으로 기대를 받고 있다. 무엇보다 엔터테인먼트, 건축, 디자인 등에서 콘텐츠 제작자가 활용할 수 있는 실제 환경에 대한 3차원 디지털 모델을 빠르게 생성하는 데 NeRF는 큰 역할을 할 것이다. 이는 고품질의 가상현실을 구현하는 것이 핵심인 게임과 메타버스 산업에 직결되는 부분이다. 기존의 인공지능 기술들과 결합된다면 누구든 손쉽게 더 사실적으로 영상을 수정할 수 있는 자동 창작 툴을 만드는 데 활용될 수 있을 것이다.
 
이뿐 아니라, 3차원 세계에 적용돼야 하는 다양한 인공지능 기술들이 불완전한 데이터로부터 현실 세계를 이해하도록 인공지능 모델들을 학습시키는 데도 유용할 것으로 기대된다. 예를 들어, 로봇이나 자율주행차량이 몇 장면만을 보고도 보이지 않은 3차원 공간을 예측해 안정적으로 주행하도록 하는 데 기여할 수 있다. 이미 학계에서도 NeRF와 인공지능 기술들과 결합해 다양한 가능성들을 보여주는 연구들이 발표되고 있다. 스타일 전이 기법과 결합해 사용자가 원하는 그림의 스타일을 갖고 있는 3차원 물체를 생성하는 연구, 텍스트 기반 영상 생성 모델들과 결합돼 사용자가 입력한 텍스트에 기반해서 3차원 모델을 생성해주는 연구 등이 그러하다.
 
물론, NeRF는 아직 해결돼야 할 이슈들을 많이 갖고 있는 것도 사실이다. 현재 NeRF 기술들은 영상의 빛 정보를 분리하지 않고 함께 신경망 내에 학습해버리기 때문에 다양하고 현실적인 장면 제어가 어려운 문제점을 알고 있으며, 하나의 물체를 벗어나서 아주 복잡하고 큰 공간에 적용되는 데도 한계를 갖고 있다. 특히, 현실 세계의 더 다양한 문제들에 적용되기 위해서는 역동적으로 색상이 변화하거나 형태가 변하며 움직이는 물체들을 다루는 방법들이 개발돼야 할 것이다. 하지만, 지난 2년 동안 빠르게 발전해온 NeRF 관련 기술들과 최근 인공지능 분야에서 이뤄지고 있는 활발한 관련 연구들을 볼 때 NeRF 기술이 가져올 미래의 변화는 기대해도 좋을 것 같다.
 
출처: 매일경제 조민수 기자(https://www.mk.co.kr/news/economy/10595020)