본문 바로가기
AI · 인공지능/AI 뉴스

Microsoft가 소규모 언어 모델 'Phi-2'를 출시, 소규모인데 최대 25배 사이즈의 모델과 동등하거나 그 이상

by 두우우부 2023. 12. 14.
반응형

 
 
2023년 11월의 이벤트 「Microsoft Ignite 2023」에서 발표되었던 언어 모델, 「Phi-2」가 릴리스 되었습니다. 파라미터 수는 27억으로 소규모 모델이지만 최대 25배의 파라미터를 가진 모델과 동등한 성능을 발휘합니다.

Phi-2: The surprising power of small language models - Microsoft Research

Phi-2: The surprising power of small language models

Phi-2 is now accessible on the Azure model catalog. Its compact size and new innovations in model scaling and training data curation make it ideal for exploration around mechanistic interpretability, safety improvements, and fine-tuning experimentation on

www.microsoft.com


"Phi"는 Microsoft Research의 기계 학습 기반 팀이 개발하는 Transformer 기반 소규모 언어 모델 시리즈입니다. 최초의 모델인 'Phi-1'은 13억 파라미터로 기존의 소규모 언어 모델 중에서 파이썬 코딩에서 최첨단 성능을 달성했습니다. Phi-1을 기점으로 일반적인 추론과 언어 이해 능력을 향상한 모델이 「Phi-1.5」로, 파라미터 수가 13억으로 작지만 5배 큰 모델과 동등한 퍼포먼스를 발휘하고 있습니다.

이번에 발표된 Phi-2는 27억 파라미터의 모델로 파라미터 수가 130억 미만인 기본 언어 모델 중에서 최첨단 성능을 달성할 수 있었다는 것. 그 외, 다양한 벤치마크를 계측하면 최대 25배 큰 모델과 동등하거나 그 이상의 성능을 발휘했습니다. 모델의 크기가 작기 때문에 트레이닝이나 추론 등의 비용을 줄일 수 있어, 언어 모델을 연구하는데 적합하다는 것.

작은 모델에서 큰 모델에 필적하는 성능을 내기 위해 Microsoft는 교육 데이터와 방법에 중점을 두었습니다. 교육 데이터로서는 과학이나 일상생활, 심리 등의 상식・일반 지식을 가르치기 위한 데이터세트와, 교육적 가치나 콘텐츠의 품질에 근거해 신중하게 필터링한 웹의 데이터 세트를 사용했다는 것. 또한, 먼저 Phi-1.5를 트레이닝하고 그 지식을 Phi-2로 이전하는 방법을 이용함으로써 트레이닝의 수렴을 가속하면서 벤치마크 스코어를 향상하는 데 성공했습니다. 트레이닝 데이터의 양은 1.4조 토큰으로, 96개의 NVIDIA A100 GPU를 사용해 14일에 걸쳐 트레이닝을 실시했다고 합니다.



아래 그림은 ToxiGen을 기반으로 안전성 점수를 산출한 것으로, 점수가 높을수록 무해한 문장을 생성하기 쉽다는 것을 보여줍니다. Phi-2는 RLHF나 정밀 튜닝에 의한 조정을 하지 않은 베이스 모델인데도 포이즌이나 바이어스에 관해서 기존의 조정이 끝난 모델인 Flama2-7b보다 뛰어난 결과를 냈습니다.



다른 모델과 비교한 벤치마크 결과는 다음과 같습니다. Phi-2는 특히 프로그래밍이나 수학 등 여러 단계가 필요한 추론 작업에서 뛰어난 성능을 발휘하고 있습니다.



2023년 12월 6일에 등장한 Gemini 중, 가장 작은 모델인 「Gemini Nano 2」와의 비교입니다.
Phi-2는 Gemini Nano 2와 동등하거나 그 이상의 성능을 가지고 있음을 확인할 수 있습니다.


벤치마크 결과대로, 단순한 물리 문제라면 어렵지 않게 풀 수 있는 모양.
제곱근의 계산도 거의 정확하게 실시할 수 있었습니다.



덧붙여 Phi-2는 연구 용도만의 라이선스로 제공되고 있기 때문에, 상용 이용은 불가능하다는 점에 주의가 필요합니다.

반응형