본문 바로가기
AI · 인공지능/AI 뉴스

LLM이 문장을 다루듯이 3D 객체를 다루는 생성 AI 「MeshGPT」가 등장

by 두우우부 2023. 12. 1.
반응형

  
대규모 언어 모델(LLM)이 언어를 구사하는 구조를 이용하여 3D 객체를 생성하는 AI 「MeshGPT」가 등장했습니다.

MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers
https://nihalsid.github.io/mesh-gpt/

MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers

We introduce MeshGPT, a new approach for generating triangle meshes that reflects the compactness typical of artist-created meshes, in contrast to dense triangle meshes extracted by iso-surfacing methods from neural fields. Inspired by recent advances in p

nihalsid.github.io


[2311.15475] MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers
https://arxiv.org/abs/4351

Generating Triangle Meshes with Decoder-Only Transformers - YouTube



대규모 언어 모델은 언어를 말할 수 있다는 것 외에, 트레이닝에 따라서는 프로그래밍 언어도 말하게 하는 것이 가능합니다.

그래서 연구팀은 모델에 대해 3D 객체의 구성요소인 메쉬를 말할 수 있도록 훈련을 실시했습니다.

구체적인 트레이닝의 기법은 이런 느낌. 

우선은 다양한 3D 오브젝트의 데이터를 바탕으로 메쉬의 「어휘」를 배워, 다음에 학습한 어휘에 근거해 Transformer를 트레이닝하고 있습니다.


어휘 학습의 구조는 아래와 같습니다. 신경망이 메쉬의 지오메트리와 토폴로지 정보를 처리할 수 있도록 하고 있습니다.


어휘 학습 후 대규모 언어 모델이 단어와 단어의 연결을 기억하게 하는 것처럼 Transformer가 메쉬와 메쉬의 연결을 기억하게 합니다.


대규모 언어 모델이 문장의 연속을 쓸 수 있는 것처럼 MeshGPT는 모델의 일부를 바탕으로 나머지 부분을 완성시킬 수 있습니다.


MeshGPT는 다른 기법에 비해 정점(頂点: 각을 이룬 두 직선의 꼭짓점)의 수가 너무 많거나 너무 적지 않고 적당히 디테일이 있는 모델을 생성할 수 있다는 것.


제품의 품질을 나타내는 FID 점수가 30포인트 향상되거나 형상 커버리지가 9% 증가하는 등 MeshGPT는 메쉬 생성을 크게 개선할 수 있었다고 합니다.

 

LLM의 변용성은 어디까지인가...

반응형