🌍

a9.3_3. title: NeRF는 3D 오브젝트를 만들어 내는 것이 아니라, 뷰를 입력으로 넣었을 때, feed-forward 결과 노블 뷰를 보여 주는 네트워크다. 하지만 학습 과정에서 광학적 개념을 이용했기 때문에 3D 공간에 대한 정보를 뉴럴 네트워크가 분명히 가지고 있다고도 바라볼 수 있는데, 그래서 explicit representation 이 아닌 implicit representation 이라고 부른다.

생성

prev summary

🚀 prev note

♻️ prev note

a9.3_2. title: NeRF 에서 Ray는 이미지 평면 위의 픽셀 하나에 영향을 주는 모든 파티클들이 존재하는 3D 공간상의 직선이다. Ray 위 모든 점들의 색상을 더하되, 벽처럼 밀한 것은 많이 반영하고 물과 공기처럼 소한 것은 조금만 고려한다.

next summary

🚀 next note

♻️ next note

a9.3_3_1. title: Gaussian Splatting 은 NeRF 와 비교되지만 사실 explicit representation 이기 때문에 본질적으로 다르다. 3D 공간을 가우시안으로 표현할 수 있다는 아이디어보다 가우시안을 이미지 평면에 래스터화할 때 사용되는 함수가 미분가능하다는 점에 큰 의미가 있다.

관련 임시노트

9 more properties

어릴 적 방에서 엄청난 시간동안 공들여 쌓은 근사한 레고 건축물을 만든 당신을 상상해 보자. 그런데 어머니가 들어와 잔소리를 늘어놓기 시작했다. 벌써 레고블록을 해체해 정리정돈해야 하는 시간이 온 것이다. 나는 이 근사한 건축물을 해체하고 싶지 않다. 나는 이 레고 블록의 모양을 그대로 기억해 두고 싶다.

이런 상황에서 활용할 수 있는 첫 번째 방법은 각 레고 블럭들의 위치를 메모장에 하나하나 기록해 두는 방법이다. 레고블록1: (5, 10, 4), 레고블록2: (10, 9, 10), … 이렇게 말이다. 하지만 이 작업은 꽤나 피곤하다.

두 번째 방법은 장면을 잘 기억하는 친구를 데려다 놓고 건축물을 다양한 방향에서 보고 머릿속에 기억하라고 시키는 것이다. 이 친구를 이용하면 ‘이 방향에서 보면 어떻게 생겼어?’, ‘저 방향에서 보면 어떻게 생겼어?’ 를 편하게 물어볼 수 있다. 친구는 ‘이 방향에서 건축물을 보면 이런 모습일걸?’, ‘저 방향에서 건축물을 바라보면 이런 모습일걸?’ 하면서 사실적인 그림을 그려 준다.

앞선 이야기에서 레고 블럭들의 위치를 하나하나 기록해 두는 메모장은 explicit representation 에 대응된다. 복셀 그리드, 포인트클라우드, 메시는 어떠한 표현이 그 자체로 의미를 가지는 3D 구조로써 존재한다.

앞선 이야기에서 친구의 머릿속은 NeRF에 대응된다. 친구의 뇌를 열어 본다고 해서 레고 블럭들에 대한 절대적인 위치를 알 수는 없다. NeRF는 단지 뉴럴 네트워크 feed-forward의 출력으로 하나의 그림을 그려낼 뿐이다(ref1). 이는 뉴럴 네트워크의 출력으로 복셀 그리드를 만들어내는 LLFF와 대조된다(ref2).

하지만 학습 과정에서 광학적 개념을 이용했기 때문에 3D 공간에 대한 정보를 뉴럴 네트워크가 분명히 가지고 있다고도 바라볼 수 있다. 이렇게 가중치에 3D 정보를 가지고 있기 때문에 묵시적 표현(Implicit representation)이라고 한다.

그럼 이제 왜 일부 사람들이 NeRF에 ‘뉴럴 렌더링’이라는 표현을 사용하는지 이해할 수 있다.

렌더링(Rendering)	ND 모델로부터 2D 이미지를 생성하는 프로세스
볼륨 렌더링(Volume Rendering)	3D 모델로부터 2D 이미지를 생성하는 프로세스
뉴럴 볼륨 렌더링(Neural (Volume) Rendering)	뉴럴 네트워크를 이용해서 (볼륨) 렌더링을 하는 기술

정의에 따르면 렌더링이란 컴퓨터 프로그램을 이용하여 사실적이거나 비사실적인 이미지(2D)를 생성하는 작업이다. NeRF에는 뉴럴 렌더링이라는 표현을 사용한다는 것은, NeRF가 3D 정보를 저장할 수 있는 대상으로 보고, 2D 이미지에 사실적으로 표현해 내는 것을 강조했다고 해석할 수 있다.

NeRF Implicit representation 이 정확히 무엇이라고 깔끔하게 한 문장으로 정의할 수 있을까?

3D representation 이랑 view synthesis vs image-based rendering: NeRF 에서는 이것들을 구분하는 의미가 없지 않은가. NeRF 에서는 이 모든 것들이 동시에 일어나니까.

parse me : 언젠가 이 글에 쓰이면 좋을 것 같은 재료을 보관해 두는 영역입니다.

None

from : 과거의 어떤 원자적 생각이 이 생각을 만들었는지 연결하고 설명합니다.

a9.3_2. title: NeRF 에서 Ray는 이미지 평면 위의 픽셀 하나에 영향을 주는 모든 파티클들이 존재하는 3D 공간상의 직선이다. Ray 위 모든 점들의 색상을 더하되, 벽처럼 밀한 것은 많이 반영하고 물과 공기처럼 소한 것은 조금만 고려한다.

•

NeRF는 ray 를 이용해 학습한다.

supplementary : 어떤 새로운 생각이 이 문서에 작성된 생각을 뒷받침하는지 연결합니다.

None

opposite : 어떤 새로운 생각이 이 문서에 작성된 생각과 대조되는지 연결합니다.

a9.3_3_1. title: Gaussian Splatting 은 NeRF 와 비교되지만 사실 explicit representation 이기 때문에 본질적으로 다르다. 3D 공간을 가우시안으로 표현할 수 있다는 아이디어보다 가우시안을 이미지 평면에 래스터화할 때 사용되는 함수가 미분가능하다는 점에 큰 의미가 있다.

to : 이 문서에 작성된 생각이 어떤 생각으로 발전되거나 이어지는지를 작성하는 영역입니다.

ref : 생각에 참고한 자료입니다.

NeRF(Neural Radiance Fields) 역시 비슷한 기술이지만, 객체의 3D 모델을 생성하는 것이 아니라 객체를 바라보는 모든 시점의 장면을 생성하는 Novel View Synthesis 기술입니다. 다시 말해, 특정 객체나 장면을 여러 시점에서 관찰한 결과로부터 촬영하지 않은 각도의 뷰를 생성하여 3D 렌더링된 것처럼 보여주는 기술입니다. 또한 NeRF는 새로운 뷰를 생성할 때 MLP(Multi-Layer Perceptron) 네트워크를 사용하여 결과를 생성하므로 3D 형상 정보를 미리 저장하고 보여주는 전통적인 방식과는 다릅니다.

13p, Results, LLFF produces a large 3D voxel grid for every input image, resulting in enor- mous storage requirements (over 15GB for one “Realistic Synthetic” scene). Our method requires only 5 MB for the network weights (a relative compression of 3000× compared to LLFF), which is even less memory than the input images alone for a single scene from any of our datasets.