본문 바로가기
AI · 인공지능/AI 뉴스

Meta의 코딩 지원 AI 「Code Llama」에 조정을 가하면 OpenAI GPT-4의 성능을 웃돌 가능성

by 두우우부 2023. 8. 29.
반응형

 

Facebook이나 Instagram 등을 운영하는 Meta가 2023년 8월에 릴리스한 「Code Llama」는, 텍스트 입력을 바탕으로 프로그램 코드를 생성해 주는 코딩 지원 AI입니다. 그런 Code Llama를 미세 조정한 「CodeLlama-34B」와 「CodeLlama-34B-Python」을 OpenAI의 테스트 데이터 세트 「HumanEval」로 테스트한 결과, OpenAI의 대규모 언어 모델 「GPT-4」의 결과를 웃돌았고 합니다.

Phind: AI Search Engine and Pair Programmer
https://www.phind.com/blog/code-llama-beats-gpt4



Code Llama는 Meta가 2023년 7월에 릴리스한 「Llama 2」를 코드 고유의 데이터 세트로 한층 더 트레이닝한 것입니다. 코드의 연속을 생성하는 기능 외에, 자연 언어로의 입력을 바탕으로 한 코드 생성이나, 코드에 대한 해설 생성 등이 가능합니다.

Meta가 상용 이용도 가능한 코딩 지원 AI 「Code Llama」를 무료로 공개

Meta가 상용 이용도 가능한 코딩 지원 AI 「Code Llama」를 무료로 공개

Facebook과 Instagram을 운영하는 Meta가 텍스트 입력을 바탕으로 프로그램 코드를 생성하는 AI 「Code Llama」를 발표했습니다. 모델은 Llama 2와 같은 「Llama 2 Community License」로 공개되어 있어, 월간 액티

doooob.tistory.com


그런 Code Llama에 대해 AI 개발 기업인 Phind가 미세조정을 더하여 테스트를 실시했습니다.

구체적으로는 CodeLlama-34B와 CodeLlama-34B-Python에 대해 각각 약 8만 건의 프로그래밍 문제와 해결책을 제시하고 미세 조정을 실시했습니다. 미세 조정에는 「DeepSpeed ZeRO-3」나 「Flash Attention 2」가 채용되어, 32개의 NVIDIA A100 Tensor 코어 GPU 가 사용되었습니다.

Phind에 따르면 훈련에는 약 3시간이 걸렸다는 것. 또한 Phind에서는 CodeLlama-34B와 CodeLlama-34B-Python에 대해 평가 데이터의 오염을 제거하는 처리를 실시하여 결과의 타당성을 확보했습니다. Phind에 의하면, 각 평가예에 있어서, 50 문자를 넘는 경우는 3개의 문자열을 랜덤 하게 샘플링해 평가를 실시해, 50 문자 이내의 경우는 생성된 예시 전체를 평가했다고 합니다.



조정된 CodeLlama-34B와 CodeLlama-34B-Python을 테스트 데이터 세트인 HumanEval을 사용하여 테스트한 결과, GPT-4는 67%의 문제를 해결할 수 있었지만, CodeLlama-34B는 67.6%, CodeLlama-34B-Python은 69.5%의 문제를 해결한 것으로 확인되었습니다.

Phind는 사용자의 추가 검증과 오픈 소스 커뮤니티 강화를 목적으로 테스트에 사용한 조정된 CodeLlama-34BCodeLlama-34B-Python을 HuggingFace에 공개하고 있습니다. 또한 "이번에 공개한 모델은 시작에 불과하며, 추가 테스트를 실시한 개선판이 곧 공개될 예정"이라고 보고하고 있습니다.

반응형