본문 바로가기
AI · 인공지능/AI 뉴스

GPT-4로 논문 검토? 스탠퍼드, Nature 등의 논문 약 4,800개로 검증

by 두우우부 2023. 11. 6.
반응형

 

 

2023년 10월 3일, 대규모 언어 모델(LLM)이 연구 논문의 검토 과정에 얼마나 유용한지를 보여주는 연구 결과가 발표되었습니다. 

 

https://arxiv.org/abs/2310.01783

 

Can large language models provide useful feedback on research papers? A large-scale empirical analysis

Expert feedback lays the foundation of rigorous research. However, the rapid growth of scholarly production and intricate knowledge specialization challenge the conventional scientific feedback mechanisms. High-quality peer reviews are increasingly difficu

arxiv.org

 

이 연구는 스탠퍼드 대학을 비롯한 연구팀에 의해 수행되었습니다. Nature 계열의 논문 3,096개와 ICLR의 논문 1,709개, 합계 4,805개의 논문을 대상으로 GPT-4를 사용하여 생성된 피드백과 인간에 의한 검토 피드백의 유용성을 비교했습니다. 그 결과, LLM이 과학적 피드백의 생성에 유용하며, 인간의 검토 과정에 도움이 되는 것으로 나타났습니다.

이 연구의 배경에는 과학적 피드백 제공 프로세스가 기존의 검토 및 회의 토론과 같은 수단에 의해 제공되는 경우 시간과 같은 자원 및 전문 지식의 제약에 직면하고 있다는 과제가 있었습니다. 특히 학술논문의 급속한 증가와 과학지식의 전문화가 진행되는 가운데, 고품질 피드백을 제공할 수 있는 검토자의 확보가 어려워지고 있습니다. 이 과제에 대응하기 위해 LLM과 같은 기술을 활용하여 과학적 피드백을 효율적으로 제공하는 방법이 검토되고 있습니다.

연구 결과에 따르면, GPT-4에 의한 피드백 품질은 Nature 계열의 논문에서 평균 30.85%, ICLR에서 39.23%의 일치율을 나타내며, 이는 2명의 인간에 의한 검토자 간의 일치율(Nature 계열)에서 28.58%, ICLR로 35.25%)와 비교해도 높은 것으로 밝혀졌습니다. 또한 연구자 308명의 피드백에 따르면 57.4%의 연구자가 GPT-4에 의한 피드백을 유용하다고 느꼈으며, 82.4%가 일부는 인간 검토자보다 GPT-4의 피드백이 유용하다고 느꼈다는 것.

 

반응형