본문 바로가기
AI · 인공지능/AI 뉴스

대규모 언어 모델(LLM)을 LoRA로 강화하는 데 도움이 되는 정보를 연구원이 공개

by 두우우부 2023. 11. 24.
반응형

 
 

LoRA는 이미지 생성 모델이나 대규모 언어 모델(LLM)에 추가 정보를 학습시켜 모델을 미세 조정할 수 있는 구조입니다.

LoRA를 사용하여 LLM을 강화할 때 있어서 유용한 정보를, AI 연구자인 세바스찬 라슈카 씨가 해설하고 있습니다.

Practical Tips for Finetuning LLMs Using LoRA (Low-Rank Adaptation)

Practical Tips for Finetuning LLMs Using LoRA (Low-Rank Adaptation)

Things I Learned From Hundreds of Experiments

magazine.sebastianraschka.com


◆ LoRA의 효과에는 일관성이 있다
Meta가 개발한 LLM 「Llama 2」를 LoRA로 강화했을 때의 벤치마크 결과를 나타낸 표가 아래입니다. 'LoRA defaul 1', 'LoRA defaul 2', 'LoRA defaul 3'은 각각 다른 타이밍에 만들어진 LoRA 모델이지만, 벤치마크 점수는 상당히 비슷합니다.


◆ QLoRA를 사용하면 추가 학습 시의 VRAM 사용량을 대폭 절약
QLoRA는 LoRA보다 적은 메모리 소비량으로 추가 학습을 가능하게 하는 기술입니다. 라슈카씨가 RoLA와 QRoLA로 LLM에 추가 학습을 실시했을 때의 학습 시간과 VRAM 소비량을 정리한 표가 아래입니다. QLoRA를 사용한 추가 학습에서는 LoRA에 비해 학습 시간이 39% 길어졌지만 VRAM 소비량은 33% 적어졌습니다.



LoRA와 QLoRA에서 추가 학습한 LLM의 벤치마크 스코어를 비교한 표로, LoRA와 QLoRA 어느 쪽을 사용해도 성능에는 큰 차이가 발생하지 않습니다.



덧붙여 QLoRA의 자세한 구조는 아래에서 설명하고 있습니다.

적은 GPU 메모리로 대규모 언어 모델을 트레이닝하는 기법 「QLoRA」 가 등장

적은 GPU 메모리로 대규모 언어 모델을 트레이닝 하는 기법 「QLoRA」가 등장

GPT-1은 1억 1,700만 개의 파라미터를 가지는 언어 모델로, GPT-2에서는 15억, GPT-3에서는 1,750억 개로 파라미터 수가 증가함에 따라 언어 모델 성능이 좋아지고 있습니다. 그러나 파라미터의 수가 증

doooob.tistory.com


◆ LoRA에도 학습률 스케줄이 유효
기계 학습에서는 학습의 진행도에 따라 학습률을 조정하는 「학습률 스케줄」이 유효한 것으로 알려져 있습니다. 라슈카의 실험에서는 LoRA에서도 학습률 스케줄에 의해 LLM의 성능이 향상되는 것을 확인했습니다.

◆ 최적화 알고리즘은 Adam에서도 SGD에서도 큰 차이가 없다
기계 학습에서는 최적화 알고리즘의 차이로 메모리 사용량에 큰 차이가 생기는 경우가 있습니다만, LoRA에서는 Adam을 사용해도 SGD를 사용해도 메모리 사용량에 큰 차이는 없습니다.

◆ LoRA에 의한 추가 학습을 반복하면 성능이 저하된다
기계 학습에서는 모델의 미세조정을 위해 학습을 몇 번이나 반복하는 일이 있습니다. 한편, LoRA에 의한 학습을 여러 번 반복하면 모델의 성능이 저하되어 버리는 것이 밝혀지고 있습니다. LoRA에 의한 추가 학습을 1회 실시한 모델과 2회 실시한 모델의 벤치마크 스코어를 정리한 표가 아래입니다. 추가 학습을 2회 실시한 모델에서는 모델의 성능이 저하되어 버리는 것을 알 수 있습니다.


◆ LoRA는 많은 레이어에 적용하는 것이 효과적
LoRA는 단일 레이어가 아니라 프로젝션 레이어나 선형 레이어에도 LoRA를 적용하면 성능이 향상됩니다.

◆ Alpha를 Rank의 2배로 설정하기
LoRA의 추가 학습 시에는 스케일링의 효과를 조정하기 위해 「Alpha」와 「Rank」의 값을 설정할 수 있습니다. 라슈카에 따르면 Alpha의 값은 Rank값의 2배가 적절하다고 합니다.

◆ LoRA에 의한 추가 학습은 단일 GPU로 실행 가능
LoRA에 의한 추가 학습은 단일 GPU에서도 실행 가능하므로, 개인 개발자도 독자적인 커스텀을 실시한 LLM을 작성 가능합니다.

라슈카의 기사에서는 그 밖에도 LLM에 있어서의 RoLA에 관하여 도움 되는 정보를 다수 소개하고 있습니다.

반응형