본문 바로가기
AI · 인공지능/AI 뉴스

Apple이 iPhone 및 iPad에서 로컬로 작동하는 오픈소스 언어모델 「OpenELM」 출시

by 두우우부 2024. 4. 26.
반응형

 
 
Apple의 연구팀이 오픈 소스 언어 모델인 OpenELM(Open-source Efficient Language Models)을 공개했습니다. 공개된 모델에는 Apple 디바이스에서 동작할 수 있도록 변환하는 코드도 준비되어 있어, 「언어 모델을 Apple 디바이스상에서 로컬로 실행시키기」 가 가능합니다.

[2404.14619] OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework
https://arxiv.org/abs/2404.14619


OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework - Apple Machine Learning Research
https://machinelearning.apple.com/research/openelm

OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework

The reproducibility and transparency of large language models are crucial for advancing open research, ensuring the trustworthiness of…

machinelearning.apple.com


공개된 OpenELM은
270M(파라미터수:2억7000만),
450M(파라미터수:4억5000만),
1_1B(파라미터수:11억),
3B(파라미터수:30억)의 4가지 모델이 준비되어 있습니다.

OpenAI의 GPT-4와 Anthropic의 Claude 3, Meta의 Lama 3와 비교하면 OpenELM은 비교적 소규모 모델이지만 소규모로 인해 실행 비용이 낮고 스마트 폰이나 노트북에서도 작동하도록 최적화되어 있습니다.


OpenELM의 특징 중 하나는 Transformer의 각 레이어에 있어서의 파라미터수를 변화시킴으로써 모델 전체의 파라미터를 효율적으로 배분하는 「layer-wise scaling」 라는 기법을 채용하고 있다는 것입니다.

구체적으로는 입력에 가까운 레이어에서는 어텐션이나 피드 포워드를 위한 잠재 파라미터의 차원을 작게 하고, 출력에 가까워짐에 따라 서서히 레이어를 넓혀갑니다. 이렇게 하면 제한된 매개 변수의 수 중 각 레이어에 적절한 수의 매개 변수를 할당할 수 있습니다. 기존의 언어 모델에서는 모든 레이어에서 동일한 설정을 가지는 것이 일반적이었지만, 이 layer-wise scaling에 의해 레이어마다 다른 설정을 실시해, 파라미터를 보다 효과적으로 활용할 수 있게 되었습니다.

연구팀에 따르면 공개 데이터세트만으로 학습한 결과, OpenELM은 동등한 파라미터 개수의 오픈 모델에 비해 높은 정확도를 달성했다고 보고했습니다. 예를 들어, 약 11억의 파라미터를 가진 OpenELM은, 약 12억의 파라미터를 가지는 OLMo라는 모델에 비해, 필요했던 학습 데이터량이 OLMo의 절반이었음에도 불구하고, 정밀도가 2.36% 높았다고 합니다.



또한, 언어 모델에 특정 태스크를 실시하기 위한 지시를 주어, 그 태스크에 특화된 학습을 실시하는 「Instruction Tuning」 을 적용하는 것으로, OpenELM의 정밀도가 1~2% 향상되었다고 합니다. 연구팀은 Instruction Tuning을 적용함으로써 OpenELM은 범용 언어 이해 능력뿐만 아니라 특정 작업의 성능도 향상되었다고 보고했습니다. 게다가 OpenELM은 Low-Rank Adaptation(LoRA)이나 Decomposed Low-Rank Adaptation(LoRA) 등, 파라미터 효율이 좋은 파인 튜닝(미조정)을 실시하는 것이 가능하다고 합니다.

또한 학습한 모델을 Apple의 MLX(Machine Learning Accelerator) 라이브러리로 변환하기 위한 코드도 제공됩니다. 즉, 학습한 OpenELM 모델을 iPhone이나 iPad 등의 Apple 기기에서 효율적으로 동작시킬 수 있습니다.

OpenELM은 오픈 소스로 개발되었으며 온라인 AI 플랫폼의 Hugging Face에 리포지토리를 호스팅 합니다. 연구팀은 OpenELM의 재현성과 투명성을 보장하기 위해 OpenELM 모델의 가중치뿐만 아니라 학습 코드와 학습 로그, 여러 체크포인트, 모델 학습에 사용된 공개 데이터 세트, 학습에 대한 자세한 하이퍼파라미터, MLX 라이브러리로 변환하는 코드도 제공합니다.

apple/OpenELM · Hugging Face
https://huggingface.co/apple/OpenELM

apple/OpenELM · Hugging Face

OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework Sachin Mehta, Mohammad Hossein Sekhavat, Qingqing Cao, Maxwell Horton, Yanzi Jin, Chenfan Sun, Iman Mirzadeh, Mahyar Najibi, Dmitry Belenko, Peter Zatloukal, Moha

huggingface.co


Apple은 이 OpenELM을 향후 어떻게 배포할지 밝히지 않았지만, IT계 뉴스 사이트인 The Verge는 "메일 작성 등 텍스트 관련 태스크를 Apple 디바이스상에서 효율적으로 실행할 가능성"을 기대하고 있습니다.

반응형