2023년 10월 3일, 대규모 언어 모델(LLM)이 연구 논문의 검토 과정에 얼마나 유용한지를 보여주는 연구 결과가 발표되었습니다.
https://arxiv.org/abs/2310.01783
이 연구는 스탠퍼드 대학을 비롯한 연구팀에 의해 수행되었습니다. Nature 계열의 논문 3,096개와 ICLR의 논문 1,709개, 합계 4,805개의 논문을 대상으로 GPT-4를 사용하여 생성된 피드백과 인간에 의한 검토 피드백의 유용성을 비교했습니다. 그 결과, LLM이 과학적 피드백의 생성에 유용하며, 인간의 검토 과정에 도움이 되는 것으로 나타났습니다.
이 연구의 배경에는 과학적 피드백 제공 프로세스가 기존의 검토 및 회의 토론과 같은 수단에 의해 제공되는 경우 시간과 같은 자원 및 전문 지식의 제약에 직면하고 있다는 과제가 있었습니다. 특히 학술논문의 급속한 증가와 과학지식의 전문화가 진행되는 가운데, 고품질 피드백을 제공할 수 있는 검토자의 확보가 어려워지고 있습니다. 이 과제에 대응하기 위해 LLM과 같은 기술을 활용하여 과학적 피드백을 효율적으로 제공하는 방법이 검토되고 있습니다.
연구 결과에 따르면, GPT-4에 의한 피드백 품질은 Nature 계열의 논문에서 평균 30.85%, ICLR에서 39.23%의 일치율을 나타내며, 이는 2명의 인간에 의한 검토자 간의 일치율(Nature 계열)에서 28.58%, ICLR로 35.25%)와 비교해도 높은 것으로 밝혀졌습니다. 또한 연구자 308명의 피드백에 따르면 57.4%의 연구자가 GPT-4에 의한 피드백을 유용하다고 느꼈으며, 82.4%가 일부는 인간 검토자보다 GPT-4의 피드백이 유용하다고 느꼈다는 것.
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
대규모 언어 모델이 일으키는 '환각'위험을 객관적으로 검증할 수 있는 오픈소스 평가 모델을 Vectara가 출시 (0) | 2023.11.08 |
---|---|
일론 머스크의 인공지능기업 xAI가 프롬프트 엔지니어링용 통합 개발 환경 'PromptIDE'를 발표 (0) | 2023.11.08 |
일론 머스크가 ChatGPT의 라이벌 AI「Grok」발표 (46) | 2023.11.06 |
AI 만으로 Angry Birds의 복제 게임을 만든 엔지니어가 등장 (51) | 2023.11.06 |
대규모 언어 모델 「Phind」가 코딩에서 GPT-4를 능가 (45) | 2023.11.05 |
「Hugging Face」란 무엇인가? 내 블로그의 QR코드를 AI로 만들어 보았다 (32) | 2023.11.02 |
단백질의 입체 구조를 정확하게 예측하는 AI, 「AlphaFold」의 최신판이 릴리즈 (2) | 2023.11.02 |
바이두(Baidu)가 대규모 언어 모델 「문심 4.0」을 발표, GPT-4와 동등한 성능? (43) | 2023.10.31 |