본문 바로가기
AI · 인공지능/AI 뉴스

문장을 쓴 것이 인간인지 AI인지를 구별하는 툴「GPTZero」의 정밀도는 어느 정도인가?

by 두우우부 2023. 2. 27.
반응형



고정밀도의 문장을 생성하는「GPT-3」나 「ChatGPT」의 등장으로 인해,「어떻게 하면 인간이 쓴 문장과 AI가 쓴 문장을 구별할 수 있을까?」라는 과제가 부상하고 있습니다. 그런 가운데, 미국의 프린스턴 대학에 재적하는 Edward Tian씨는, 인간이 쓴 문장과 ChatGPT가 쓴 문장을 구별하는 툴「GPTZero」를 공개해, 큰 화제를 모았습니다. 기술 관련 블로그를 운영하는 대학생인 Jacob Gonzales 씨는 GPTZero의 정확성이 얼마나 되는지, 의학 논문으로 테스트한 결과를 보고하고 있습니다.

GPTZero Case Study (Exploring False Positives) | Gonzo Knows
https://gonzoknows.com/posts/GPTZero-Case-Study/

GPTZero Case Study (Exploring False Positives)

Introduction In this case study, I will be sharing the vast amounts of false positives current AI detection software gives, specifically for this case study I will be demonstrating GPTZero. I personally want to thank the supposed “Healthcare professional

gonzoknows.com


Tian 씨가 공개한 GPTZero는 입력한 문장이 인간이 쓴 것인지, 아니면 ChatGPT에 의해 작성된 것인지를 판별하기 위해서 작성된 툴입니다. GPTZero는 ChatGPT와 유사한 데이터 세트로 훈련되고 있으며, 텍스트의 복잡도와 변형을 검증하여 ChatGPT가 작성했을 가능성이 높은 문장을 구분한다는 것.

Tian 씨는 미국의 잡지 · The New Yorker에 게재된 인간에 의해 작성된 문장과, ChatGPT에 의해 생성된 문장을 GPTZero에 입력한 데모 동영상을 공개하고 있습니다. GPTZero의 공개 후, Tian 씨에게는 전 세계의 교육 관계자로부터 연락이 왔었다고 합니다.
 
그러나 GPTZero는 100%의 정확도로 인간이 쓴 문장과 ChatGPT의 문장을 구별할 수 있는 것은 아니고, 실제로는 어느 정도의 정밀도인지는 불분명합니다. 여기서 Gonzales 씨는 2021년에 발표된 신형 코로나 바이러스 감염증(COVID-19)에 대한 논문을 이용하여 GPTZero가 어떻게 판단하는지를 체크해 보았습니다.

논문의 첫 단락을 입력한 결과, GPTZero는 "50% 이상의 확률로 AI로 쓰인 것"이라는 판단을 내렸습니다. 그러나 해당 논문이 발표된 시점에서는 ChatGPT가 아직 등장하지 않았고, 논문은 복수의 미국 질병 예방 관리 센터(CDC)의 연구자에 의해 쓰였기 때문에, 이것은 오 검지라고 Gonzales 씨는 지적했습니다.



그 후, Gonzales 씨는 미국 국립 의학 도서관이 온라인으로 공개하고 있는 신경학 관련 논문 20건을 사용해, abstract의 부분을 GPTZero에 입력했습니다. 그 결과 20건 중 11건의 논문이 "AI에 의해 작성되었을 가능성이 있다"라고 판단되었지만, 이들 논문은 대부분 2020년 이전에 발표되었으며 GPTZero에 의한 오 검지라고 Gonzales 씨는 주장합니다.



실제로 Gonzales 씨의 조사에서「AI에 의해 쓰였을 가능성이 높다」라고 오검지되어 버린 논문은 아래와 같습니다.

· https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7164350/
· https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8093009/
· https://www.ncbi .nlm.nih.gov/pmc/articles/PMC7668548/
· https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8055322/
· https://www.ncbi.nlm.nih.gov/pmc /articles/PMC5894931/
· https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6105044/
· https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3776536/
· https: //www.ncbi.nlm.nih.gov/pmc/articles/PMC5047042/
· https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4762419/
· https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7538222/
· https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3590056/


또한 GPTZero를 이용하려면 가중치 목록에 등록해야 하지만 처음에는 웹에서 무료로 이용할 수 있었기 때문에 테스트에 영어 버전 Wikipedia 의 시작 부분을 GPTZero에 입력해 보았습니다.



그러자 "Your text is likely to be written entirely by AI(너의 문장은 모두 AI에 의해 쓰였을 가능성이 높다)"라고 판단되어 버렸습니다.


Gonzales는 상용 소프트웨어의 부정확성이 많은 문제를 일으킬 수 있다고 지적합니다. "개인적으로 가장 큰 문제라고 생각하는 것은 교육 현장에서 도용을 탐지하고 있다는 것입니다. 만약, 교육 기관이 결함이 있는 인공지능 탐지 프로그램을 사용하여 학생에게 도용을 부당하게 호소하는 경우, 어떤 학생에게든 불이익이 줄 수 있습니다."라고 코멘트.
 

반응형