AI가 1장의 사진으로부터 고해상도 3DCG 모델을 생성해주는「Human-SGD」
![](https://blog.kakaocdn.net/dn/tyKEm/btsA0ayEfjj/gXtLFmaSmSSQVMEEDmUnLk/img.jpg)
사진에서 3DCG 모델을 만들려면 피사체를 여러 방향에서 다수 촬영해야 합니다. 쿠웨이트 대학, Meta, 메릴랜드 대학의 연구원이 단 한 장의 사진에서 고해상도 CG 모델을 생성하는 "Human-SGD"를 발표했습니다.
[2311.09221] Single-Image 3D Human Digitization with Shape-Guided Diffusion
https://arxiv.org/abs/2311.09221
Single-Image 3D Human Digitization with Shape-Guided Diffusion
We present an approach to generate a 360-degree view of a person with a consistent, high-resolution appearance from a single input image. NeRF and its variants typically require videos or images from different viewpoints. Most existing approaches taking mo
arxiv.org
Human-SGD
https://human-sgd.github.io/
Human-SGD
To generate a 360-degree view of a person from a single image, we first synthesize multi-view images of the person. We use off-the-shelf methods to infer the 3D geometry and synthesize an initial back-view of the person as a guidance. We add our input view
human-sgd.github.io
연구팀의 한 명인 Jia-Bin Huang 씨가 Human-SGD가 어떤 모델인지 설명하는 영상을 YouTube에 공개했습니다.
3D Human Digitization from a Single Image! - YouTube
라이더 재킷을 입은 여성의 사진이 1장.
![](https://blog.kakaocdn.net/dn/nHOhy/btsASHZesfJ/viPnQ76Bsmz8Gzld8BZwlk/img.jpg)
이 사진으로부터 생성한 3DCG 모델이 이하. 사진은 정면에서 촬영한 것만입니다만, 360도의 어디에서 봐도 망가진 곳 없이 고정밀도의 3DCG 모델이 되고 있습니다.
![](https://blog.kakaocdn.net/dn/ML0R4/btsAWgswklg/qRFgm6qV6BTdvtPFeJaKUk/img.jpg)
폴로셔츠와 반바지 차림의 걷는 남자 사진
![](https://blog.kakaocdn.net/dn/rkG0M/btsA1ffx52a/8Ko8Uux50f0hh4ei4tCkUk/img.jpg)
텍스처뿐만 아니라, 반바지의 옷자락이나 바지에서 삐져나온 폴로셔츠의 옷자락 등 세세한 형상도 재현되고 있습니다.
![](https://blog.kakaocdn.net/dn/dIfwYJ/btsATkCzGtf/OiwUA4A6r4MAJ4eDTxa9h0/img.jpg)
Human-SGD는 입력한 사진에서 모양과 텍스처를 생성하고 결합합니다.
![](https://blog.kakaocdn.net/dn/daRxHq/btsAYIbeaJd/OSS63kMXqojukNcfUkoYt0/img.jpg)
생성하는 프로세스는 다음과 같습니다. Human-SGD는 사진의 실루엣에서 모양을 렌더링 하고 정면 사진에서 후면 사진을 자동으로 생성, 결합하여 렌더링 합니다.
![](https://blog.kakaocdn.net/dn/dTDDCW/btsATl9h7pa/sG4rrsOFjwB9jCmpXRInlk/img.jpg)
텍스처는 확산 모델로 생성되어 「미분 가능 렌더링」이라고 불리는 기술로 UV 매핑(2차원 그림을 3차원 모델로 만드는 3차원 모델링 프로세스)이 최적화된다고 합니다.
![](https://blog.kakaocdn.net/dn/z3xhK/btsAZ8Omd5Y/vMgQ69OOQwhOWgDnU3Oya0/img.jpg)
비교용으로 제시된 것이 아래의 사진.
![](https://blog.kakaocdn.net/dn/trqjT/btsAWgMO74d/cXKPTKd8fF981rIKB2TTbk/img.jpg)
2019년에 발표된 PIFu로 생성한 CG모델은 이런 느낌. 정면에서 보면 사진에 가깝지만, 옆에서 보면 정밀도가 떨어지고 얼굴 부분은 해상도도 낮다는 것을 알 수 있습니다.
![](https://blog.kakaocdn.net/dn/C80KM/btsART6U7RO/I1Q9KgftATkBPa2sR25Isk/img.jpg)
2023년에 발표된 TEXTure는 텍스처의 해상도가 PIFu보다 높아졌습니다만, 바로 옆에서 보면 세세한 부분에서 노이즈가 매우 많습니다.
![](https://blog.kakaocdn.net/dn/6Mukj/btsASGeS6XD/qyDSnfQP47MNP5rKkq6Q9K/img.jpg)
Magic-123은 모양이 지나치게 매끄럽게 되는 것으로 약간 인간을 벗어난 형상이 되고 있고, 텍스처도 무리하게 사진을 잘라 붙인 것 같은 인상.
![](https://blog.kakaocdn.net/dn/srolH/btsAXi4MI40/XhpQfjAqjYNjbHNwR6NkS1/img.jpg)
TeCH는 모양이 세세하게 묘사되고 있습니다만, 포즈가 앞으로 기울어지거나 가랑이가 어색하여 정밀도는 낮습니다. 텍스처도 노이즈가 많은 것처럼 보입니다.
![](https://blog.kakaocdn.net/dn/dO6RE5/btsAYEGFE48/RV72utUQ9qI1y0OP6iMIl1/img.jpg)
HUMAN-SGD로 생성한 모델은 모양도 비교적 자연스럽고, 노이즈가 적은 텍스처가 무리 없이 구현되고 있습니다.
![](https://blog.kakaocdn.net/dn/r1oY6/btsASGzdfZ4/9RiZFl1P71R25sSa9xfa1k/img.jpg)
사진에 찍히지 않은 뒷면도 자연스럽고 붕괴가 적다는 인상.
![](https://blog.kakaocdn.net/dn/98EEY/btsAXhY8RsE/TtKrX1pjXC8qYVOwydSzq0/img.jpg)
다만, 연구팀에 의하면, 음영이 강한 사진은 텍스처의 생성에 지장을 초래하며, 기존의 방법에서는 보다 정밀하게 모양을 생성하는 것이 어렵기 때문에 추가 연구가 필요하다고 합니다.
![](https://blog.kakaocdn.net/dn/cEijpx/btsATBEdY4D/RCQiGp3BCaHtqV6DvellkK/img.jpg)