반응형 스탠퍼드 알파카2 스탠퍼드가 인간의 평가를 흉내내어 고속으로 저렴하게 채팅 AI를 학습시키는 'AlpacaFarm' 공개 대규모 언어 모델의 학습에서는, 실제 인간에 의한 평가를 모델의 출력에 반영시키는 「Reinforcement Learning from Human Feedback(RLHF)」가 행해집니다. 그러나 RLHF는 인건비로 인한 비용이 많이 들거나 피드백을 회수하는 데 시간이 걸리는 등의 단점이 존재했습니다. AlpacaFarm은 "인간이 어떤 평가를 돌려주는지"를 시뮬레이션함으로써 저렴하고 빠른 속도로 RLHF를 진행할 수 있는 도구입니다. Stanford CRFM https://crfm.stanford.edu/2023/05/22/alpaca-farm.html Stanford CRFMAlpacaFarm replicates the RLHF process at a fraction of the time ( 2023. 5. 25. GPT-3.5에 필적하는「Alpaca 7B」를 스탠퍼드 대학이 공개 Meta의 대규모 언어 모델 LLAMA의 7B 모델에 미세 조정을 실시한 오픈 소스로 더 나은 명령 추종성을 실현한 대규모 언어 모델 Alpaca 7B를 스탠퍼드 대학의 연구팀이 공개했습니다. Alpaca를 사용하면 GPT-3.5와 유사한 동작을 훨씬 소규모 환경에서 간단하고 저렴하게 재현할 수 있습니다. Alpaca: A Strong Open-Source Instruction-Following Model - Stanford CRFM https://crfm.stanford.edu/2023/03/13/alpaca.html Stanford Alpaca, and the aceleration of on-device large language model development https://simonwillison.. 2023. 3. 16. 이전 1 다음 반응형