미국 애플은 2023년 12월 12일, 대규모 언어 모델(LLM)의 파라미터를 SSD 등의 외부 플래시 메모리에 저장해 PC에서 효율적인 모델 운용을 가능하게 하는 새로운 방법인 「LLM in a flash」를 발표했습니다.
https://arxiv.org/abs/2312.11514
DRAM의 제한된 용량을 넘는 LLM을 효율적으로 실행하기 위해 모델 파라미터를 플래시 메모리에 저장하고, 필요에 따라 DRAM으로 읽는 방법입니다. 이 수법에 의해 같은 DRAM 용량으로 최대 2배 사이즈의 모델을 실행할 수 있어, CPU에서는 4~5배, GPU에서는 20~25배의 추론 속도 향상을 확인할 수 있었다고 합니다.
애플의 연구팀은 「windowing」과 「row-column bundling」이라는 데이터를 보다 효율적으로 처리하기 위한 방법을 채용했습니다.
「windowing」은 데이터를 작은 구분으로 나누어 처리해, 필요한 데이터만을 효율적으로 취급할 수 있는 기술입니다.
「row-column bundling」은, 데이터를 행과 열에 정리해 그룹화하는 기술로, 데이터를 읽어 들여 전송을 보다 부드럽게 실시할 수 있습니다.
이들 기술의 조합에 의해, 플래시 메모리로부터의 데이터 전송량을 삭감하고, 한 번에 판독하는 데이터의 양(읽기 청크 사이즈)을 늘릴 수 있어, 전체적인 처리 속도를 개선했습니다. 결과적으로 모델의 추론 속도를 크게 향상하고 메모리 사용 효율을 높일 수 있었습니다.
이 연구는 LLM의 운영에 있어서 메모리 용량의 제약이 큰 과제로 여겨지는 현상에서 중요한 진보를 이뤄냈다고 연구팀은 말합니다.
「LLM in a flash」는 퍼스널 컴퓨터나 다른 메모리 제한이 있는 디바이스로, LLM을 효율적으로 이용하는 어프로치이지만, 그 앞에는, iPhone에서의 LLM 운용을 엿볼 수 있습니다.
모바일 단말에서의 LLM 로컬 운용은, Google Gemini의 최소 사이즈 모델 「Gemini Nano」가 2023년 12월 Pixel 8 Pro에 탑재, 실용화되고 있습니다.
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
구글 DeepMind가 수학 올림피아드 수준의 기하학 문제를 푸는 AI, 「AlphaGeometry」를 발표 (106) | 2024.01.19 |
---|---|
Stability AI가 새로운 코딩 보조 AI 「Stable Code 3B」를 릴리즈 (92) | 2024.01.18 |
가정용 AI 바둑 로봇 「SenseRobot Go」가 일본에서 발매 중 (88) | 2024.01.18 |
난방도 하면서 AI 트레이닝 및 암호화폐 마이닝을 하는「Heatbit Mini」 (83) | 2024.01.17 |
AI로 전세계 고용의 40%가 영향받을 수 있다고 IMF가 경고 (82) | 2024.01.17 |
NVIDIA의「Align Your Gaussians(AYG)」 : 텍스트로 동적 4D 장면을 생성 (84) | 2024.01.11 |
아이디어를 몇 단어로 지시하면 AI가 음악을 생성해주는 Google 「MusicFX」 (81) | 2024.01.11 |
Microsoft가 30년 만에 표준 키보드에 새로운 키를 추가, AI 툴에 액세스하는 「Copilot 키」가 등장 (84) | 2024.01.10 |