본문 바로가기
반응형

LLM 벤치마크3

「Llama 2 70B」와 「Stable Diffusion XL」이 추가된 AI 벤치마크 테스트 「MLPerf Inference v4.0」 발표 신경망의 성능 평가를 실시하는 업계 컨소시엄의 MLCommons는 다양한 시나리오에서 하드웨어의 AI 처리 성능을 측정할 수 있는 벤치마크 테스트 'MLPerf Inference'를 설계하고 있습니다. 최신 「MLPerf Inference v4.0」 에서는 퍼포먼스 지표로서 새롭게 Meta의 대규모 언어 모델 「Llama 2 70B」 와 이미지 생성 AI인 「Stable Diffusion XL」이 추가되었습니다. New MLPerf Inference Benchmark Results Highlight The Rapid Growth of Generative AI Models - MLCommons New MLPerf Inference Benchmark Results Highlight The Rapid Grow.. 2024. 3. 29.
대화형 채팅 AI의 벤치마크 순위 공개, 1위는 GPT-4 캘리포니아 대학 버클리 학교의 학생과 교원이 캘리포니아 대학 샌디에이고 학교와 카네기 멜론 대학과 협력하여 설립한 오픈 연구 조직 "Large Model Systems Org(LMSYS Org)"가 ChatGPT, Palm, Vicuna 등의 채팅 AI와 대규모 언어 모델(LLM)의 벤치마크 「 Chatbot Arena」 를 공개하고 있습니다. Chatbot Arena Leaderboard Updates (Week 4) | LMSYS Org 2023. 6. 4.
Meta의 대규모 언어 모델 "LLaMA"가 ChatGPT를 재현할 수 있다고, 다양한 채팅 AI 용 언어 모델의 벤치마크 측정으로 판명 최근에는 기계 학습 분야의 연구가 엄청난 기세로 진행되고 있으며, 수십억을 넘는 파라미터를 가지는 대규모 언어 모델이 잇달아 발표되고 있습니다. 영국 에든버러 대학의 대규모 언어 모델 연구자인 야오 후(Jao Hu) 씨의 연구팀은 자체 벤치 마크를 기반으로 여러 대규모 언어 모델의 성능을 비교한 결과를 GitHub에 공개하고 있습니다. GitHub - FranxYao/chain-of-thought-hub: Benchmarking large language models' complex reasoning ability with chain-of-thought prompting https://github.com/FranxYao/chain-of-thought-hub GitHub - FranxYao/chain-of.. 2023. 6. 1.
반응형