본문 바로가기
AI · 인공지능/AI 뉴스

ChatGPT로 작성된 과학 논문을 99% 이상의 정확도로 감지할 수 있는 도구가 개발됨

by 두우우부 2023. 6. 13.
반응형

 

스탠퍼드 대학이 실시한 조사에서 학생의 약 17%가 "과제 또는 시험에 ChatGPT를 사용하고 있다"라고 응답했습니다. 캔자스 대학의 헤더 디제르(Heather Desaire) 씨의 연구팀은 ChatGPT를 사용하여 작성된 논문을 감지하는 도구를 개발했습니다. 연구팀에 따르면 검출의 정확도는 무려 99% 이상이라고 합니다.


Distinguishing academic science writing from humans or ChatGPT with over 99% accuracy using off-the-shelf machine learning tools: Cell Reports Physical Science
https://doi.org/10.1016/j.xcrp.2023.10142


AI-generated academic science writing can be | EurekAlert!
https://www.eurekalert.org/news-releases/991128



기존에 인간이 쓴 문장인지 AI가 생성한 문장인지를 구별하는 도구의 대부분은, 전문적인 과학 논문을 위해 특별히 제작된 것은 아니었습니다. 때문에, 디제르 씨의 연구팀은 과학 논문 용으로만 정확하게 인간과 AI를 구분할 수 있는 툴을 개발하였습니다.
 
연구팀은 생물학이나 물리학 등 다양한 분야에서 64개의 논문을 선택했으며, ChatGPT에 대해 동일한 내용을 설명하기 위한 문장을 128개 생성시켰습니다. 총 1,276개의 단락이 ChatGPT에 의해 생성되어 알고리즘 학습에 사용되었습니다.

연구팀에 의하면, 인간이 쓴 논문인지 ChatGPT가 생성한 논문인지를 판단하는 데 있어서 기준이 되는 것은, 인간과 ChatGPT의 문장의 사이에 있는 「문체의 차이」라고 합니다. 논문을 발표하는 과학자들은 ChatGPT보다 전문적인 단어나 문구를 알고 있는 경우가 많고, 다양한 단어를 포함한 긴 단락을 쓸 가능성이 있다고 합니다. 또한, 인간이 쓴 논문에는 ChatGPT에 의해 생성된 문장에 별로 포함되지 않는, 물음표나 괄호, 세미콜론 등이 많이 포함되어 있다는 것입니다.



또한, 단락당 문자 수나 단어 수가 일정하게 되기 쉬운 ChatGPT에 비해서, 인간이 쓰는 논문은 단락당 문자 수나 단어 수, 문장의 길이가 일정하지 않습니다. 인간이 쓴 논문에서는 「그러나」, 「단」, 「왜냐면」이라고 하는 단어가 논문 내에 많이 등장하는 한편, ChatGPT가 생성한 논문에서는 「기타」, 「연구자는」이라는 문구가 많이 사용되었습니다.

그 후, 인간에 의해 쓰인 30개의 논문과 논문의 요지를 바탕으로 ChatGPT가 생성한 60개의 문장을 이용하여 알고리즘의 테스트가 행해졌습니다. 실험 결과 연구팀이 개발한 툴은 인간이 쓴 논문과 AI가 생성한 논문을 거의 100%의 정확도로 식별할 수 있었다고 보고되었습니다. 또한 논문의 개별 단락에 대해서만 식별을 하면 탐지 정확도가 약간 떨어졌으며 약 92 % 정확도로 성공적으로 식별되었습니다. 연구팀에 의하면, 이번 툴은 시장에서 입수 가능한 AI 텍스트 검출 툴의 정밀도를 크게 웃돌고 있다고 합니다.



향후 목표로, 보다 광범위한 종류의 학술 논문에서 툴 사용을 검토하고 있으며, AI가 진보하여 더욱 인간과 가까운 문장을 생성하게 되었을 때 자신들의 도구가 도움이 될지 여부를 조사하는 것입니다.

한편 해외미디어 The Register는 "AI로 생성된 텍스트를 검출하도록 설계된 많은 소프트웨어는 신뢰성이 낮아 문제가 되고 있다"라고 말하며 "ChatGPT로 생성하고, 인간의 손으로 가볍게 편집된 논문에 대해서, 이번 툴이 얼마나 정확한 검출을 할 수 있을지는 아직 밝혀지지 않았습니다. 따라서, 툴에 의해 표시된 결과는 어디까지나 참고로만 사용해야 한다"라고 주장하고 있습니다.
 



또한, 디제르 씨는 "이 도구를 사용하여 학생이 ChatGPT를 사용하여 논문을 작성했는지 여부를 판단할 수 있습니까?"라는 질문에 대해, "이 도구는 AI와 전문 과학자를 판별하는 것이지, 학생이 쓴 논문이나 에세이를 판별하도록 설계되어 있지 않습니다."라고 대답했습니다.

반응형