[논문리뷰] Geometry-Grounded Gaussian Splatting

arXiv 2026. [Paper] [Page] [Github]
Baowen Zhang, Chenxing Jiang, Heng Li, Shaojie Shen, Ping Tan
HKUST
25 Jan 2026

Introduction

본 논문에서는 Gaussian에 geometry-grounded radiance field 개념을 도입하였다. 이를 위해 Objects as Volumes에서 제시된 이론적 토대를 활용하였으며, geometry-grounded radiance field에 대한 확률론적 해석을 제공한다. 저자들은 본 이론을 바탕으로 Gaussian Splatting의 렌더링 방정식을 분석하고, Gaussian primitive 렌더링이 stochastic solid와 동일함을 증명하였다. 이를 통해 Gaussian Splatting과 NeRF 기반 방법의 렌더링 공식을 통합하고, Gaussian primitive에 대한 geometric field를 최초로 도출하였다. 저자들은 geometric field의 등위면(isosurface)을 근사하고 Gaussian primitive에서 더욱 세밀한 geometry 정보를 추출하는 효율적인 깊이 렌더링 방법을 개발하였다. 이 방법은 멀티뷰 일관성과 floater에 대한 robustness를 보여준다.

기존의 Gaussian Splatting 기반 방법들은 광선을 따라 투과율이 0.5로 떨어지는 지점을 중간 깊이로 정의한다. 그러나 투과율의 불연속적인 변화 때문에 이 방법은 Gaussian이 겹치는 효과를 제대로 포착하지 못하고, 결과적으로 깊이 단차가 불규칙하게 나타난다. 반면, stochastic solid 모델은 감쇠를 연속적으로 모델링하여 부드러운 투과율 곡선을 생성한다. 이를 바탕으로, 본 논문에서는 Gaussian primitive에도 동일한 연속적인 특성을 부여하여 더욱 세밀한 depth map을 구현하였다. 중간 깊이를 계산하기 위해 투과율의 단조성을 활용하고 binary search를 통해 투과율이 0.5인 지점을 찾는다. 또한 효율적인 backpropagation을 위해 광선을 따라 모든 Gaussian의 파라미터에 대한 중간 깊이의 gradient를 구하는 식을 closed-form으로 도출하였다.

Preliminary: Objects as Volumes

Objects as Volumes에서는 볼륨 렌더링을 이용하여 stochastic solid를 렌더링하는 방법을 제시하였다. Occupancy $\mathcal{O}$와 vacancy $\textrm{v} = 1 - \mathcal{O}$로 특징지어지는 불투명한 stochastic solid에 대해, 감쇠 계수 (attenuation coefficient) $\sigma$는 다음과 같다.

\[\begin{equation} \sigma (\textbf{x}, \omega) = \vert \omega \cdot \nabla \log (v (\textbf{x})) \vert = \frac{\vert \omega \cdot \nabla \textbf{v} (\textbf{x}) \vert}{\textrm{v}(\textbf{x})} \end{equation}\]

($\omega$는 뷰 방향, $\textbf{x}$는 3D 위치)

이 감쇠 계수를 사용한 stochastic solid에 대한 볼륨 렌더링을 다음과 같다.

\[\begin{equation} \textbf{C} = \int_{t_n}^{t_f} p(t) \textbf{c} (\textbf{x}(t), \omega) dt \\ p(t) = T(t) \sigma (\textbf{x}(t), \omega) \\ T(t) = \exp \left( - \int_{t_n}^t \sigma (\textbf{x}(s), \omega) ds \right) \end{equation}\]

여기서 $p$는 빛이 충돌하기 전에 이동하는 거리의 통계적 분포를 나타내는 free-flight distribution이며, 색상 통합을 위한 가중치로 사용된다. $T(t)$는 광선을 따라 계산된 투과율(transmittance)이다.

본 논문에서는 3D Gaussian primitive를 stochastic solid로 간주하고 적절한 감쇠 계수 $\sigma$를 설계한다. 이 계수를 사용하면 Gaussian primitive의 볼륨 렌더링이 rasterization된 렌더링과 동일해진다. 이를 통해 Gaussian Splatting을 보다 체계적으로 연구하고 Gaussian primitive를 위한 shape reconstruction 방법을 개발할 수 있다.

Method

1. Gaussian Primitives as Stochastic Solids

본 논문에서는 Gaussian primitive를 stochastic solid로 취급하고 그 렌더링 함수를 유도하였다. 적절한 감쇠 계수 $\sigma$를 사용하면 이 stochastic Gaussian solid의 볼륨 렌더링이 원래 Gaussian Splatting의 rasterization 렌더링과 동일하다. 구체적으로, 픽셀의 불투명도 $\alpha$는 해당 픽셀 광선 위에서 Gaussian의 최댓값에 해당한다. 따라서 Gaussian 하나의 렌더링된 색상은 다음과 같다.

\[\begin{equation} \textbf{C} = \textbf{c} \alpha = \textbf{c} G(t^\ast) \end{equation}\]

($t^\ast$는 광선 $l: \textbf{o} + \omega t$ 위에서의 최댓점)

위 식은 감쇠 계수를 고유하게 결정할 수 없다. 따라서 occupancy $\textrm{o}(\textbf{x})$에 대한 세 가지 추가 제약 조건을 적용한다. Gaussian primitive $G(\textbf{x})$가 주어졌을 때, 다음과 같이 가정한다.

$G(\textbf{x}_1) \ge G(\textbf{x}_2)$인 경우 $\textrm{o}(\textbf{x}_1) \ge \textrm{o}(\textbf{x}_2)$가 성립한다. 즉, Gaussian 중심에 더 가까운 위치일수록 occupancy가 더 높다.
$\textbf{x}$가 Gaussian 중심에서 멀어질수록 occupancy는 0에 가까워진다: $\textrm{o}(-\infty) = \textrm{o}(\infty) = 0$.
$\textrm{o}(\textbf{x})$는 $\textbf{x}$에 대해 미분 가능하다.

증명

파라미터 $t$로 표현되는 직선 $l$이 $G(\textbf{x})$를 통과한다고 가정하자. 그러면 $t$가 $−\infty$에서 $+\infty$까지 변하고 $t^\ast$에서 1D Gaussian $G(t)$의 최댓값에 도달하는 직선 위의 $G(\textbf{x})$ 값을 얻게 된다.

첫 번째 가정에 따르면, 이 직선 $l$을 따라 나타나는 vacancy function은 Gaussian function과 반대되는 단조성을 가진다. 따라서 감쇠 계수 $\sigma$는 다음과 같이 계산된다. (단조성 가정 덕분에 절댓값을 제거할 수 있음)

\[\begin{aligned} \sigma (t) &= \vert \omega \cdot \nabla \log (\textrm{v}(\textbf{x})) \vert = \left\vert \frac{\partial \textbf{x}}{\partial t} \cdot \frac{\partial \log (\textrm{v}(\textbf{x}))}{\partial \textbf{x}} \right\vert = \left\vert \frac{\partial \log (\textrm{v}(\textbf{x}))}{\partial t} \right\vert\\ &= \begin{cases} - \frac{\partial \log (\textrm{v}(\textbf{x}))}{\partial t}, & \quad t \le t^\ast \\ \frac{\partial \log (\textrm{v}(\textbf{x}))}{\partial t}, & \quad t > t^\ast \end{cases} \end{aligned}\]

Gaussian kernel은 색상이 균일하므로 볼륨 렌더링을 단순화할 수 있다.

\[\begin{aligned} \textbf{C} &= \textbf{c} \int_{t = -\infty}^{t = \infty} T(t) \sigma (\textbf{x}(t), \omega) dt \\ &= \textbf{c} \int_{t = -\infty}^{t = +\infty} - dT(t) = -\textbf{c} T(t) \big\vert_{t = -\infty}^{t = \infty} \\ &= \textbf{c} (1 - T (\infty)) \end{aligned}\]

$T(\infty)$를 계산하면 다음과 같다.

\[\begin{aligned} T(\infty) &= \exp \left( - \int_{-\infty}^\infty \sigma (\textbf{x}(s), \omega) ds \right) = \exp \left( - \int_{-\infty}^{t^\ast} \sigma (\textbf{x}(s), \omega) ds - \int_{t^\ast}^\infty \sigma (\textbf{x}(s), \omega) ds \right) \\ &= \exp \left( - \int_{-\infty}^{t^\ast} \sigma (\textbf{x}(s), \omega) ds \right) \times \exp \left( - \int_{t^\ast}^\infty \sigma (\textbf{x}(s), \omega) ds \right) \\ &= \exp \left( \log (\textrm{v}(t)) \big\vert_{-\infty}^{t^\ast} \right) \times \exp \left( - \log (\textrm{v}(t)) \big\vert_{t^\ast}^{\infty} \right) \\ &= \frac{\textrm{v} (t^\ast)}{\textrm{v} (-\infty)} \times \frac{\textrm{v} (t^\ast)}{\textrm{v} (\infty)} \end{aligned}\]

두 번째 가정에 의해 $\textrm{v}(-\infty) = \textrm{v}(\infty) = 1$이므로, $T(\infty) = \textrm{v}(t^\ast)^2$이다. 따라서 볼륨 렌더링으로 얻은 색상은 다음과 같다.

\[\begin{equation} \textbf{C} = \textbf{c} (1 - T(\infty)) = \textbf{c} (1 - \textrm{v}(t^\ast)^2) \end{equation}\]

이 색상이 Gaussian Splatting으로 얻은 색상과 같아야 하므로, $\textrm{v}(t^\ast)$와 $G(t^\ast)$ 사이의 관계식을 얻을 수 있다.

\[\begin{equation} \textbf{c} (1 - \textrm{v}(t^\ast)^2) = \textbf{c} G(t^\ast)\\ \textrm{v}(t^\ast) = \sqrt{1 - G(t^\ast)} \end{equation}\]

이 관계식을 임의의 3D 위치 $\textbf{x} \in \mathbb{R}^3$으로 일반화하자. 세 번째 가정에 의해, 항상 $\omega \cdot \nabla G(\textbf{x}) = \frac{\partial G (\textbf{x})}{\partial \omega} = 0$을 만족하는 방향 $\omega \in \mathbb{S}^2$를 찾을 수 있으며, 이는 $\textbf{x}$가 광선 $l : \textbf{x} + t \omega$를 따라 최대점임을 나타낸다. 즉, 항상 $\textbf{x}$가 최대점인 광선을 만들 수 있다. 따라서, 위의 방정식은 임의의 위치 $\textbf{x}$에 대해 성립해야 하며, 이는 vacancy에 대한 유일한 해이다.

\[\begin{equation} \therefore \; \textrm{v}(\textbf{x}) = \sqrt{1 - G(\textbf{x})} \end{equation}\]

따라서, stochastic Gaussian solid는 Gaussian Splatting의 rasterization과 동일한 렌더링 결과를 생성할 수 있다. 이제 Gaussian primitive 내부의 감쇠 계수 $\sigma$를 얻을 수 있으며, 이를 통해 정확한 depth map과 부드러운 최적화를 구현할 수 있다. 이러한 특성 덕분에 경험적인 기하학적 해석을 넘어 Gaussian primitive를 기반으로 하는 원칙적인 shape reconstruction 방법을 사용할 수 있게 되었다.

2. Depth from Stochastic Solids

표면 geometry를 더 잘 복원하기 위해 최근 연구들에서는 Gaussian primitive에서 depth map을 렌더링하고 정규화 항을 추가한 다음, 해당 gradient를 Gaussian 파라미터로 backpropagation하였다. 그러나 렌더링된 depth map은 노이즈가 많고 시점 간 일관성이 떨어진다. 이러한 문제점을 해결하기 위해 본 논문에서는 stochastic solid에서 파생된 감쇠 계수를 활용하여 Gaussian Splatting의 깊이 렌더링을 개선하고자 하였다.

Depth definition

기존의 Gaussian Splatting 방법을 따라, 기하학적 정규화를 위해 중앙값 깊이 $t_\textrm{med}$를 사용한다.

\[\begin{equation} t_\textrm{med} = T^{-1} (0.5) \end{equation}\]

뷰 광선이 서로 다른 Gaussian과 교차하는 사건들이 통계적으로 독립적이라고 가정하자. 이 가정 하에서, 광선을 따라 $t$에서의 전체 투과율은 각 Gaussian primitive에서 계산된 투과율의 곱으로 다음과 같다.

\[\begin{equation} T(t) = \prod_i T_i (t) \end{equation}\]

$T_i (t)$는 $i$번째 Gaussian의 투과율이며, 다음과 같이 계산된다.

\[\begin{equation} T_i (t) = \begin{cases} v_i (t), & \quad t \le t_i^\ast \\ v_i (t_i^\ast)^2 / v_i (t), & \quad t > t_i^\ast \end{cases} \end{equation}\]

증명)

$t \le t^\ast$일 때, $$ \begin{aligned} T(t) &= \exp \left( - \int_{-\infty}^t \sigma (\textbf{x}(s), \omega) ds \right) \\ &= \exp \left( \log (\textrm{v}(t)) \big\vert_{-\infty}^{t} \right) \\ &= \frac{\textrm{v}(t)}{\textrm{v}(-\infty)} = \textrm{v}(t) \end{aligned} $$ $t > t^\ast$일 때, $$ \begin{aligned} T(t) &= \exp \left( - \int_{-\infty}^t \sigma (\textbf{x}(s), \omega) ds \right) \\ &= \exp \left( - \int_{-\infty}^{t^\ast} \sigma (\textbf{x}(s), \omega) ds \right) \times \exp \left( - \int_{t^\ast}^t \sigma (\textbf{x}(s), \omega) ds \right) \\ &= \exp \left( \log (\textrm{v}(t)) \big\vert_{-\infty}^{t^\ast} \right) \times \exp \left( - \log (\textrm{v}(t)) \big\vert_{t^\ast}^t \right) \\ &= \frac{\textrm{v} (t^\ast)}{\textrm{v} (-\infty)} \times \frac{\textrm{v} (t^\ast)}{\textrm{v} (t)} \\ &= \frac{\textrm{v} (t^\ast)^2}{\textrm{v} (t)} \end{aligned} $$

Implementation

일반적으로 $t_\textrm{med}$에 대한 식은 closed-form solution을 갖지 않는다. 이를 해결하기 위해 각 광선을 따라 투과율의 단조성을 활용하고 반복적인 binary search를 사용하여 $t_\textrm{med}$를 찾는다. Backpropagation에서는 반복적인 탐색이 필요하지 않다. 대신, Gaussian 파라미터에 대한 $t_\textrm{med}$의 gradient를 다음과 같이 closed-form solution으로 유도할 수 있다.

\[\begin{equation} \frac{\partial t_\textrm{med}}{\partial \theta} = - \frac{\partial T (t_\textrm{med}; \theta)}{\partial \theta} / \frac{\partial T (t; \theta)}{\partial t} \big\vert_{t = t_\textrm{med}} \end{equation}\]

증명)

$T(t_\textrm{med}; \theta)$가 항상 0.5이므로 $dT(t_\textrm{med}; \theta) = 0$이다. $dT$를 전개하고 $t_\textrm{med}$를 대입하면 다음과 같다. $$ \begin{aligned} dT(t; \theta) &= \frac{\partial T}{\partial t} dt + \frac{\partial T}{\partial \theta} d \theta \\ 0 &= \frac{\partial T}{\partial t} dt_\textrm{med} + \frac{\partial T}{\partial \theta} d \theta \\ dt_\textrm{med} &= ( - \frac{\partial T}{\partial \theta} / \frac{\partial T}{\partial t} ) d \theta \\ \therefore \frac{\partial t_\textrm{med}}{\partial \theta} &= - \frac{\partial T (t_\textrm{med}; \theta)}{\partial \theta} / \frac{\partial T (t; \theta)}{\partial t} \big\vert_{t = t_\textrm{med}} \end{aligned} $$

위 식은 이전 방법들에서 $t_\textrm{med}$의 gradient가 하나의 Gaussian에만 적용되었던 것과 달리, gradient를 광선을 따라 기여하는 모든 Gaussian에 분산시킬 수 있음을 보여준다. 이는 미분 가능한 투과율 함수를 생성하는 stochastic solid 식에서 비롯된다. 결과적으로 $t_\textrm{med}$는 Gaussian 파라미터에 따라 부드럽게 변화하여 최적화를 위한 더욱 dense한 supervision을 제공한다.

3. Optimization with Stochastic Solids

저자들은 3DGS의 photometric loss, 2DGS의 normal consistency loss, PGSR의 multi-view regularization을 사용하여 장면을 최적화하였다. 이러한 loss들을 적용하려면 RGB 이미지, normal map, depth map을 렌더링해야 한다. 모든 모달리티에 대한 완전한 볼륨 렌더링은 계산 비용이 많이 든다. 따라서 RGB와 normal에 대해서는 표준 Gaussian Splatting을 유지하고, depth map은 위와 같이 반복적인 binary search를 사용하여 계산한다.

Experiments

1. Reconstruction Comparison

다음은 DTU 데이터셋에 대한 비교 결과이다.

다음은 Tanks & Temples 데이터셋에 대한 비교 결과이다.

2. Multi-view Consistency

다음은 cycle reprojection error를 시각화한 것이다. (a는 본 논문의 방법, b는 PGSR, c는 RaDe-GS)

3. Ablation Study

다음은 Tanks & Temple에서의 ablation study 결과이다. ($L_n$은 normal consistency loss, $L_{gc}$는 geometric consistency loss)

JiYeop Kim