본문 바로가기
AI · 인공지능/AI 뉴스

Google이 대규모 언어 모델 'PaLM 2'의 기술 보고서를 공개했지만, 중요 정보는 기재되지 않음

by 두우우부 2023. 5. 22.
반응형

 
Google이 Google I/O 2023에서 GPT-4의 경쟁이 되는 대규모 언어 모델 'PaLM 2'를 발표했습니다. 동시에 Palm 2의 기술 보고서도 공개되었지만 학습 데이터 수집 및 학습 시 하드웨어 설정과 같은 중요 정보는 공개되지 않았습니다.

PaLM 2 Technical Report
https://ai.google/static/documents/palm2techreport.pdf

palm2techreport.pdf
4.85MB


PaLM 2에서 무엇이 가능한지에 대해서는 저번 글에서 소개했습니다.

Google이 대규모 언어 모델 'PaLM 2'를 발표, 이미 25개의 Google 서비스에 도입

Google이 대규모 언어 모델 'PaLM 2'를 발표, 이미 25개의 Google 서비스에 도입

Google이 대규모 언어 모델(LLM) 'PaLM'의 차세대 버전이 되는 'PaLM 2(Pathways Language Model)'를 발표했습니다. PaLM 2는 이미 Google의 다양한 서비스에 도입되었으며 채팅 AI Bard에서도 Palm 2가 이미 사용되고

doooob.tistory.com



PaLM 2의 기술 보고서는 모두 92페이지에 이르고 있지만, 그중에서 학습에 사용한 데이터에 대해서 설명한 것은 반 페이지뿐입니다. 이 반 페이지에 따르면 Palm 2의 학습 데이터에는 '웹 문서', '책', '코드', '수식', '회화 문장' 등이 포함되어 있으며 Palm을 학습했을 때와 비교하여 더 큰 규모로 이와 동시에 영어 이외의 언어의 비율이 증가하고 있다는 것입니다만, 구체적으로 어떻게 수집한 어떤 데이터를 이용했는지에 대해서는 기재되어 있지 않습니다.

데이터를 숨기고 있는 것은 Google만이 아닙니다. PaLM 2와 경쟁하는 GPT-4 기술 보고서(PDF) 에서도 GPT-4를 개발한 OpenAI는 GPT-4와 같은 대규모 모델의 경쟁 환경과 안전성을 모두 고려하여, 이 보고서에서는 아키텍처, 하드웨어, 교육 계산, 데이터 세트 구성, 학습 방법 또는 그에 준한 것에 대하여 자세한 정보를 제공하지 않습니다."라면서, 대규모 언어 모델 개발에 있어서 정보를 숨기는 경향이 계속되고 있습니다. 이러한 정보의 은닉에 대해, Hacker News는 "모델의 세부 정보가 기업 존속을 좌우할 만큼 중요하게 되어, 정보를 오픈하는 시대가 끝났다."라고 코멘트하고 있습니다.
 
그럼에도 불구하고 모든 정보가 숨겨져 있는 것은 아니며 Palm 2의 기술 보고서에서 "컴퓨팅 볼륨과 모델 크기 및 학습에 사용되는 데이터 양의 최적 관계", "프라이버시 보호에 대한 노력", "인종차별 등 유해한 응답의 출현량에 대한 조사" 등이 해설되어 있습니다.

아래 그림의 가로축은 모두 계산량을 나타내고,
왼쪽 그래프의 세로축은 최적의 파라미터수(=모델의 사이즈),
오른쪽 그래프의 세로축은 최적의 토큰수(=트레이닝에 이용한 데이터의 양)를 나타냅니다.

이 기술 보고서는 계산량이 증가함에 따라 모델의 크기와 학습 데이터 양을 동일한 비율로 증가시키는 것이 가장 효율적인 학습을 수행할 수 있었다고 말합니다.


프라이버시 보호의 관점에서는, Palm 2에서는 「트레이닝한 문언과 완전히 같은 단어가 생성된다」는 축어 기억(verbatim memorization)의 발생량이 Palm에 비해 감소했다고 합니다. 교육 데이터에 포함되는 비율이 작은 언어에서도 축어 기억이 발생하기 어려워졌다고 기재되어 있습니다.

그러나 Palm 2의 기술 보고서는 다양한 언어에 걸친 해로운 반응과 관련하여 여전히 해야 할 일이 남아 있음을 밝혔습니다. 예를 들어, 특히 유해한 프롬프트가 주어지면 Palm 2는 30% 이상의 확률로 유해한 반응을 생성하거나, 영어, 독일어, 포르투갈어와 같은 특정 언어에서 인종 정체성 및 종교 등의 프롬프트로 인해 Palm 2는 17% 이상의 확률로 유해한 반응을 나타내는 결과가 되기도 했습니다. 또한 Palm 2와의 상호 작용을 실제로 시도하고 싶다면 Google에서 만든 AI 채팅 서비스 "Bard"를 사용하는 것이 쉽습니다.

반응형