반응형 PagedAttention 구조1 최대 24배 빠른 대규모 언어 모델 라이브러리 「vLLM」의 등장과 PagedAttention 구조 대규모 언어 모델을 사용할 때는 모델 자체뿐만 아니라 모델을 다루는 라이브러리가 필요합니다. 대다수의 경우 Transformers라는 라이브러리가 사용되고 있습니다만, 「PagedAttention」이라는 구조를 도입한 새로운 라이브러리 「vLLM 」를 이용하여 처리량을 최대 24배 향상할 수 있다는 것이 대규모 언어 모델 연구팀에 의해 발표되었습니다. vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention https://vllm.ai/ vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttentionvLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention By W.. 2023. 6. 23. 이전 1 다음 반응형