본문 바로가기
AI · 인공지능/AI 뉴스

1만 6000개의 GPU를 탑재한 세계에서 가장 빠른 AI 슈퍼컴퓨터를 Meta가 구축 중

by 두우우부 2022. 1. 25.
반응형

 

Facebook이나 Instagram으로 유명하며 메타버스 사업에 주력하고 있는 Meta가 현재 가동 중인 AI 슈퍼컴퓨터 중에서 가장 빠른 'AI Research SuperCluster(RSC)'를 구축하고 있다고 발표했습니다. 이미 RSC는 가동하고 있습니다만, 현재도 구축은 계속되고 있어, 2022년 중반에 완전하게 구축을 마치면 1만 6000개의 GPU를 탑재한 「세계 가장 빠른 AI 슈퍼컴퓨터」가 될 전망입니다.

Introducing the AI ​​Research SuperCluster — Meta's cutting-edge AI supercomputer for AI research

https://ai.facebook.com/blog/ai-rsc


Meta Collaborates with NVIDIA on AI Research Supercomputer | NVIDIA Blog

 

Meta Collaborates with NVIDIA on AI Research Supercomputer | NVIDIA Blog

Meta Platforms chose NVIDIA technologies for its AI Research SuperCluster, what it believes will be its most powerful research system to date.

blogs.nvidia.com

Meta's Massive New AI Supercomputer Will Be 'World's Fastest'

 

Meta's Massive New AI Supercomputer Will Be 'World's Fastest'

Fresh off its rebrand last October, Meta (née Facebook) is putting muscle behind its vision of a metaversal future with a massive new AI supercomputer

www.hpcwire.com

Meta has built an AI supercomputer it says will be world’s fastest by end of 2022 - The Verge

 

Meta has built an AI supercomputer it says will be world’s fastest by end of 2022

You don’t just need AI — you need an "AI supercomputer."

www.theverge.com

 

Meta가 발표한 RSC는 완성을 목표로 구축이 진행되고 있으며, 2022년 중반에 완전체가 되면 세계에서 가장 빠른 AI 슈퍼컴퓨터가 될 전망입니다. 이미 Meta의 연구자들은 RSC를 사용하여 자연 언어 처리 및 컴퓨터 비전의 대규모 모델을 학습하기 시작했으며, 앞으로 몇 조의 매개 변수를 가진 모델을 학습하기 위해 노력할 것입니다.

2013년 'Facebook AI Research Lab'을 설립한 이래 Meta(당시 Facebook)는 AI에 장기 투자를 하고 있으며, 2017년에는 NVIDIA V100 Tensor 코어 GPU를 2만 2000기 탑재한 제1 세대의 AI 슈퍼 컴퓨터를 구축. 하루에 35,000회의 교육 작업을 수행했습니다.


RSC에는 NVIDIA DGX A100이 760기 탑재되어 있습니다. 1기의 DGX A100에 대해, V100보다 강력한 NVIDIA A100 Tensor 코어 GPU가 8기 탑재되고 있기 때문에, GPU의 총계는 6080기. 또한 스토리지는 175PB(페타바이트), 캐시는 46PB, Pure StorageFlashBlade는 10PB라는 것.

 


RSC는 V100을 탑재한 기존 기기에 비해 컴퓨터 비전 워크플로우를 최대 20배 고속으로 실행 가능합니다. 또한 NVIDIA Collective Communication Library도 9배 이상 빠르게 실행하여 수백억 개의 매개변수를 가진 모델 교육을 3주 만에 완료할 수 있는 성능을 제공합니다.

덧붙여 이 상태는 어디까지나 「페이즈 1」이며, 완전히 구축된 「페이즈 2」에서는 DGX A100이 1000기로 늘어나, GPU총수는 1만 6000기가 됩니다.

반응형