Facebook과 Instagram을 운영하는 Meta가 텍스트 입력을 바탕으로 프로그램 코드를 생성하는 AI 'Code Llama'의 700억 파라미터 모델을 출시했다고 발표했습니다. 모델은 Llama 2와 같은 「Llama 2 Community License」로 공개되어 있어, 월간 액티브 유저수가 7억 명 이하인 경우 무상으로 상용 이용도 가능합니다.
Introducing Code Llama, a state-of-the-art large language model for coding
https://ai.meta.com/blog/code-llama-large-language-model-coding/
Code Llama는 Meta가 2023년 7월에 릴리즈 한 Llama 2를 코드 고유의 데이터 세트로 한층 더 트레이닝한 것입니다. Python, C++, Java, PHP, Typescript & Javascript, C#, Bash에 대응하고 있으며, 코드의 다음(연속)을 생성하는 기능 외에 자연어 입력을 바탕으로 코드를 생성하거나 코드에 대한 해설을 생성하는 것이 가능하고, 2023년 8월에 파라미터 수가 70억, 130억, 340억 인 모델이 릴리즈 되었습니다.
2024년 1월 29일, Meta는 700억 파라미터의 'Llama 2 70B' 모델을 기반으로 코드별 데이터 세트로 추가 교육을 실시한 'Code Llama 70B' 모델을 출시했습니다. 다른 사이즈 모델의 트레이닝 데이터가 5000억 토큰인 것에 비해, 700억 파라미터 모델에서는 1조 토큰으로 트레이닝을 실시했다고 합니다. 게다가 목적마다 파인 튜닝을 실시하는 것으로 기본이 되는 「Code Llama」 외, 자연 언어로부터의 프로그래밍이라고 하는 태스크에 특화한 「Code Llama - Instruct」나 Python의 취급에 특화한 「Code Llama - Python」의 변형이 준비되어 있습니다.
"HumanEval"과 "MBPP"를 사용하여 측정한 700억 파라미터의 모델과 다른 모델의 성능 비교 결과는 아래와 같습니다. Instruct 모델이 GPT-4를 넘는 성능을 기록한 것 외에, 3개의 변종 모두에 있어서 순차적으로 성능이 향상된 것을 알 수 있습니다.
Code Llama의 모델은 Meta에 신청하여 얻을 수 있으며 Hugging Face에서 호스팅 되고 있습니다.
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
기계 학습 모델의 재학습으로 LoRA보다 적은 비용과 시간으로 더 높은 성능을 기대할 수 있는「DoRA」 (80) | 2024.02.21 |
---|---|
Google이 AI로 파일 형식을 식별하는 도구 「Magika」를 오픈 소스로 공개 (81) | 2024.02.20 |
동영상을 보고 학습하는 아키텍처 「V-JEPA」를 Meta가 개발 (76) | 2024.02.20 |
중국에서 잇따라 AI 모델이 승인되고, 93조 규모의 AI 산업 시장으로 (111) | 2024.01.31 |
구글 챗봇 AI 「Bard」가 드디어 벤치마크 스코어에서 GPT-4를 넘어 2위로 부상 (91) | 2024.01.30 |
NVIDIA의 SDR의 영상을 HDR로 변환하는 AI 기술 「RTX Video HDR」 (99) | 2024.01.26 |
「인간형 로봇이 커피를 내리는 영상」AI 로보틱스의 미래에 있어서 자이언트 스텝 (110) | 2024.01.24 |
AI 그림 앱「AI 피카소」, 1장의 전신 이미지로 댄스 동영상을 생성 (102) | 2024.01.24 |