본문 바로가기
AI · 인공지능/AI 뉴스

Apple 이 효율적인 모델 운용을 위한「LLM in a flash」 를 발표

by 두우우부 2024. 1. 17.
반응형

 
 
미국 애플은 2023년 12월 12일, 대규모 언어 모델(LLM)의 파라미터를 SSD 등의 외부 플래시 메모리에 저장해 PC에서 효율적인 모델 운용을 가능하게 하는 새로운 방법인 「LLM in a flash」를 발표했습니다.

https://arxiv.org/abs/2312.11514

LLM in a flash: Efficient Large Language Model Inference with Limited Memory

Large language models (LLMs) are central to modern natural language processing, delivering exceptional performance in various tasks. However, their substantial computational and memory requirements present challenges, especially for devices with limited DR

arxiv.org


DRAM의 제한된 용량을 넘는 LLM을 효율적으로 실행하기 위해 모델 파라미터를 플래시 메모리에 저장하고, 필요에 따라 DRAM으로 읽는 방법입니다. 이 수법에 의해 같은 DRAM 용량으로 최대 2배 사이즈의 모델을 실행할 수 있어, CPU에서는 4~5배, GPU에서는 20~25배의 추론 속도 향상을 확인할 수 있었다고 합니다.

애플의 연구팀은 「windowing」과 「row-column bundling」이라는 데이터를 보다 효율적으로 처리하기 위한 방법을 채용했습니다.

「windowing」은 데이터를 작은 구분으로 나누어 처리해, 필요한 데이터만을 효율적으로 취급할 수 있는 기술입니다.

「row-column bundling」은, 데이터를 행과 열에 정리해 그룹화하는 기술로, 데이터를 읽어 들여 전송을 보다 부드럽게 실시할 수 있습니다.



이들 기술의 조합에 의해, 플래시 메모리로부터의 데이터 전송량을 삭감하고, 한 번에 판독하는 데이터의 양(읽기 청크 사이즈)을 늘릴 수 있어, 전체적인 처리 속도를 개선했습니다. 결과적으로 모델의 추론 속도를 크게 향상하고 메모리 사용 효율을 높일 수 있었습니다.

이 연구는 LLM의 운영에 있어서 메모리 용량의 제약이 큰 과제로 여겨지는 현상에서 중요한 진보를 이뤄냈다고 연구팀은 말합니다.

「LLM in a flash」는 퍼스널 컴퓨터나 다른 메모리 제한이 있는 디바이스로, LLM을 효율적으로 이용하는 어프로치이지만, 그 앞에는, iPhone에서의 LLM 운용을 엿볼 수 있습니다.

모바일 단말에서의 LLM 로컬 운용은, Google Gemini의 최소 사이즈 모델 「Gemini Nano」가 2023년 12월 Pixel 8 Pro에 탑재, 실용화되고 있습니다.

반응형