본문 바로가기
AI · 인공지능/AI 뉴스

Meta가 무료로 상용 이용도 가능한 차세대 오픈 LLM 「Llama 3」 을 공개

by 두우우부 2024. 4. 21.
반응형

 

 

Meta는 Lama 가족의 차세대 대규모 언어 모델 Llama 3를 출시했습니다. 연구 목적 외에도, 월간 액티브 유저가 7억 명 이하인 경우에는 무료로 상용 이용도 가능합니다.

Meta Llama 3
https://llama.meta.com/llama3/

 

Meta Llama 3

Build the future of AI with Meta Llama 3. Now available with both 8B and 70B pretrained and instruction-tuned versions to support a wide range of applications.

llama.meta.com


Introducing Meta Llama 3: The most capable openly available LLM to date
https://ai.meta.com/blog/meta-llama-3/

 

Introducing Meta Llama 3: The most capable openly available LLM to date

In the development of Llama 3, we looked at model performance on standard benchmarks and also sought to optimize for performance for real-world scenarios. To this end, we developed a new high-quality human evaluation set. This evaluation set contains 1,800

ai.meta.com

 


이번에 출시된 모델은 80억(8B) 파라미터와 700억(70B) 파라미터의 두 가지 모델입니다. 사전 트레이닝 후에 명령 추종용 파인 튜닝된 「Instruct」 모델로, 채팅 AI로서의 태스크를 해낼 수 있습니다.

동등한 파라미터를 가지는 모델과의 비교는 아래와 같습니다. 개방형 모델 중 대부분의 지표에서 최고의 점수를 기록하고 있습니다. 트레이닝 후의 절차를 개선함으로써 잘못된 거부 발생률을 줄이고 응답의 다양성을 향상시킨 것 외에 추론 · 코드 생성 · 명령 등의 기능이 크게 향상되었습니다.


Llama 3는 표준 벤치마크 외에, 실제 사용 시나리오에 따라 퍼포먼스를 최적화하는 시도도 행해지고 있어, 새로운 고품질의 인간 평가 세트를 도입했다고 합니다. 이 평가 세트에는 12개의 주요 사용 사례에 해당하는 1800개의 프롬프트가 포함되어 있으며 각 프롬프트에 대한 응답 결과를 인간이 평가했습니다.

같은 프롬프트에 대한 다른 모델의 출력과 "어느 대답이 더 좋았는가"를 인간이 평가한 결과입니다. Claude Sonnet이나 Mistral Medium, GPT-3.5보다 높은 평가를 받은 것 외에, 이전 모델인 Lama 2에 비해 훨씬 답변이 개선되었습니다.

 


덧붙여 파인 튜닝을 실시하지 않은 사전 트레이닝 완료 단계에서의 성능 비교 결과입니다.

 


Llama 3의 개발에 있어서, Meta는 「모델 아키텍쳐」, 「사전 트레이닝 데이터」, 「사전 트레이닝의 스케일 업」, 「명령의 파인 튜닝」 이라는 4개의 요소에 중점을 두었다고 합니다.

Llama 3에서는 모델 아키텍처로서 비교적 표준 디코더 전용 트랜스포머 아키텍처를 채용하고 있습니다. Llama 2와 비교하면 토큰의 어휘 수를 12만 8000토큰으로 증가시킴으로써 언어를 보다 효율적으로 인코딩할 수 있어 성능을 대폭 향상시킬 수 있었습니다. 또한 Llama 3의 추론 효율 향상을 위해 그룹화 쿼리어 텐션(GQA)을 채용하여 8192 토큰 시퀀스로 모델을 트레이닝했다고 합니다.


Llama 3의 학습은 출판된 출처에서 수집한 총 15조 토큰 이상의 데이터를 사용합니다. 이 트레이닝 데이터 세트는 Flama 2에서 사용한 것보다 7배 크고, 또한 4배 많은 양의 코드가 포함되어 있다는 것. 향후 다국어 사용 사례에 대비하기 위해, 이 데이터 세트의 5%는 30개 이상의 언어에 걸친 영어 이외의 데이터로 되어 있지만, 영어와 같은 성능은 기대할 수는 없습니다.

게다가 Meta는 데이터 필터링 파이프라인을 개발해, 휴리스틱 필터나 NSFW 필터, 시맨틱 중복 제거 어프로치, 텍스트 분류자 등을 사용해 트레이닝 데이터의 품질을 높였다고 합니다. 광범위한 실험을 통해 다수의 데이터를 적절히 혼합하는 방법을 조사하고 과학, 코딩, 역사 등 다양한 사용 사례에서 Lama 3가 제대로 작동하는지 확인하는 데이터 믹스를 선택할 수 있다고 합니다.

Llama 3의 개발 중, Meta는 트레이닝 데이터의 스케일이 품질에 미치는 영향도 조사했다고 한다. 8B 모델과 70B 모델 모두에서 15조 토큰으로 훈련한 후에도 대수 선형으로 성능이 향상되었습니다. 이러한 대량 교육을 수행하기 위해 Meta는 데이터 모델 파이프라인의 3개를 병렬화하여 1만 6000대의 GPU에서 동시에 훈련하는 경우에도 1GPU당 400TFLOPS의 컴퓨팅 사용률을 달성할 수 있었다고 밝혔습니다. 또한 GPU의 에러의 검출이나 처리, 메인터넌스를 자동화하는 새롭게 개발한 트레이닝 스택에 의해 유효 트레이닝 시간은 95%를 넘어, 전체적으로 Llama 3의 트레이닝 효율은 Llama 2의 때에 비해 약 3배 좋아졌다는 것.

 


이러한 사전 훈련 후, 라마 3는 "지도학습 정밀 튜닝(SFT)", "거부 샘플링", "근접 정책 최적화(PPO)", "직접 정책 최적화 (DPO)"를 결합한 명령 추종을위한 조정을 받았습니다. 대답하기 어려운 질문을 만났을 때 모델은 '정확한 대답을 생성하는 방법을 알고 있지만 그 방법을 선택하는 방법을 모르는 상태'에 있었기 때문에 PPO와 DPO를 통한 우선 순위 학습을 통해 답변을 생성하는 방법을 적절하게 선택할 수 있으며, 추론과 코딩 작업의 성능이 크게 향상되었습니다.

또한 Meta는 Lama 모델을 "개발자가 운전석에 앉을 수 있는 광범위한 시스템의 일부"라고 가정하고 있으며, 새로운 시스템 수준의 접근 방식을 채택하여 모델의 안전성을 향상시키고 있습니다.

 


Llama 3에서는 이번에 등장한 「Llama 3 8B」, 「Llama 3 70B」의 2개의 모델뿐만 아니라, 향후 더욱 다양한 모델이 등장할 예정이라고 말하고 있습니다. 그 중 가장 큰 모델은 파라미터 수가 4000억(400B)으로 되어 있으며, 현재 트레이닝 중이라고 합다. 400B 모델의 2024년 4월 15일 현재의 벤치마크 결과는 아래 그림과 같습니다.

 

 


향후 몇 개월에 걸쳐 멀티 모달이나 복수 언어로 대화하는 기능, 장대한 컨텍스트 윈도우, 보다 강력한 새로운 기능을 갖춘 모델이 출시될 것입니다. Llama 3의 훈련이 완료된 후에는 상세한 연구 논문을 공개할 것이라고 합니다.

Llama 3의 릴리즈와 동시에, Facebook이나 Instagram, WhatsApp등에 Llama 3로 구축된 「Meta AI」가 등장했습니다. 아직 Meta AI는 영어 전용이며 미국 외에 호주와 캐나다 등 영어권 국가에서만 출시되고 있습니다. 아래 그림과 같이 매우 고속으로 동작하기 때문에 입력 중에 실시간으로 어떤 이미지가 생성되는지 확인할 수 있다는 것.



Llama 3는 Replicate에서 실제로 체험할 수 있으며 Nvidia의 NIM 과 Cloudflare의 Workers AI 에서 이미 도입 된 것으로 발표되었습니다.

반응형