본문 바로가기
AI · 인공지능/이미지 생성 AI

OpenAI가 텍스트와 이미지로 3D 모델을 생성하는 오픈 소스 AI 「Shap-E」를 발표

by 두우우부 2023. 5. 10.
반응형

OpenAI가 텍스트와 이미지를 입력하여 3D 모델을 자동 생성하는 AI "Shap-E"를 발표했습니다. Shap-E는 오픈 소스로 개발되었으며 무료로 사용할 수 있습니다.

GitHub - openai/shap-e: Generate 3D objects conditioned on text or images
https://github.com/openai/shap-e

GitHub - openai/shap-e: Generate 3D objects conditioned on text or images

Generate 3D objects conditioned on text or images. Contribute to openai/shap-e development by creating an account on GitHub.

github.com


기계 학습 엔지니어 hysts 씨가 Shap-E를 체험할 수 있는 데모 사이트를 AI용 리포지토리 사이트 Hugging Face에 공개하고 있어, Shap-E가 어떤 AI인지를 브라우저에서 쉽게 체험해 볼 수 있습니다.

Shap-E - a Hugging Face Space by hysts
https://huggingface.co/spaces/hysts/Shap-E

Shap-E - a Hugging Face Space by hysts

huggingface.co



데모 사이트에 액세스 하면 이런 느낌.



텍스트 입력란에 프롬프트를 입력하고 Run을 클릭합니다. 이번에는 'a teacup like a cat'을 입력해 보았습니다.



수십 초 만에 처리가 이루어집니다.



처리가 끝나면 생성된 3D 모델이 하단에 표시됩니다. 3D 모델은 드래그하여 다양한 방향에서 볼 수 있습니다. 오른쪽 상단의 ↓ 아이콘을 클릭하면 생성된 3D 모델을 glTF(GL Transmission Format) 형식으로 다운로드할 수 있습니다.



3D 모델이 표시되는 공간 아래에 있는 [Advance options]를 클릭하여 Seed(시드값) · Guidance scale · Number of inference steps(스텝 수)를 변경할 수 있습니다. 가이던스 스케일을 20, 스텝수를 100으로 설정해, 「an astronaut riding a horse(말을 타고 있는 우주 비행사)」를 생성해 본 것이 아래.

가이던스 스케일과 스텝 수의 설정 탓인지, 말과 우주 비행사가 합체되어 수수께끼의 생명체가 탄생해 버렸습니다.



GitHub에는 프롬프트 및 생성 예제가 요약되어 있습니다.



또한 Sharp-E는 이미지에서 3D 모델을 생성할 수 있는 "Image to 3D" 모드도 탑재되어 있습니다. 「Image to 3D」의 탭을 클릭해, 3D 화하고 싶은 이미지를 읽어 들여, 「Run」을 클릭하면 됩니다. GitHub의 생성예에 있는 「A chair that looks like an avocado(아보카도와 같은 외형의 의자)」의 생성예의 정지화면 이미지를 읽혀 보았더니, 원래의 3D 모델에 가까운 것이 생성되었습니다.



OpenAI는 이전에 3D 모델을 생성하는 AI로「Point-E」를 개발했었습니다. 이 Point-E는 점을 찍어 3D 모델을 생성하는 것이 특징이었습니다.

OpenAI가 3D모델 생성 AI「Point-E」를 오픈 소스화, 600배 빠른 3D 오브젝트 생성

OpenAI가 3D모델 생성 AI「Point-E」를 오픈 소스화, 600배 빠른 3D 오브젝트 생성

이미지 생성 AI DALL-E 2 와 텍스트 생성 AI GPT-3, 대화형 AI ChatGPT를 개발하는 연구 단체 OpenAI가 텍스트에서 3D 객체를 생성하는 AI Point-E 를 오픈소스 화하여 GitHub에 게시했습니다. GitHub - openai/point-e:

doooob.tistory.com


Shap-E는 Point-E와는 달리, 다양한 각도에서 촬영한 사진에서 3D 모델을 생성하는 NeRF(Neural Radiance Fields) 및 텍스처로 3D 모델을 생성하는 구조로, 기존보다 유연한 표현이 가능하다는 것. 다만, 3D 모델에 복수의 속성을 할당하거나 적절한 폴리곤 수의 설정이 어렵다는 제한은 있어, Point-E에 비하면 보다 높은 연산 성능이 요구될 가능성이 있다고 합니다. OpenAI는 "학습 데이터가 적은 것이 원인이다."라고 말하고 있으며, 보다 큰 데이터 세트를 사용하여 학습하면 성능도 향상될 것이라고 말하고 있습니다.

반응형