본문 바로가기
AI · 인공지능/AI 뉴스

GPT-4는 라벨링 작업에서 엘리트급 인간만큼 유능, 약 2만 시간 + 6억 이상을 절약

by 두우우부 2023. 4. 18.
반응형

전문가와 크라우드 워커가 실시한 라벨링 작업과 GPT-4를 이용한 라벨링 작업을 비교한 결과, GPT-4의 작업 내용은 크라우드 워커의 평균 작업 내용보다 전문가의 작업에 가깝다는 것을 알았습니다. GPT-4에 맡기는 것으로 절약 가능한 시간은 2만 시간, 비용은 50만 달러(약 6억 5천만 원)에 달합니다. 그러나 이 사실은 크라우드 워커의 전망이 어둡다는 것을 시사합니다.

[2304.03279] Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark
https://doi.org/10.48550/arXiv.2304.03279

GPT-4 Outperforms Elite Crowdworkers, Saving Researchers $500,000 and 20,000 hours - Artisana
https://www.artisana.ai/articles/gpt-4-outperforms-elite-crowdworkers-saving-researchers-usd500-000-and-20



"57만 2322건의 텍스트 시나리오에 주석 달기"라는 과제를 달성하는 데 있어서 세계 제일의 라벨링 플랫폼 Surge AI에서 톱클래스의 작업자를 고용한 경우, 1시간당 25달러(약 3,300달러)가 필요하다고 합니다. 2만 시간을 작업하게 되면 비용은 50만 달러로, 이것은 상당히 큰 투자입니다.

연구자들은 과제를 달성할 수 있는 비용적으로 효율적인 방법을 찾아 맞춤 프롬프트를 사용한 GPT-4로 라벨링을 자동화하는 능력을 테스트했습니다.

3명의 전문가와 3명의 클라우드 워커가 작성한 2천 건의 라벨링 데이터와 GPT-4에 의한 라벨링의 내용을 비교했습니다. 그러자 GPT-4에 의한 라벨링은 클라우드 워커가 실시한 평균적인 라벨링보다 전문가의 라벨링과 강한 상관성을 나타냈다는 것. 전술했던 과제를 달성하는 데 있어서, GPT-4의 도움을 받으면 비용은 5천 달러(약 660만 원) 미만으로 아낄 수 있었고, 시간도 대폭 절약할 수 있었습니다. GPT-4는 2개의 라벨링 지정 범주를 제외한 모든 항목에서 인간보다 성능이 우수했으며 때로는 2배 더 뛰어났습니다.

AI 모델의 라벨링은 다음과 같은 행동 범주에서 가장 뛰어났습니다.
1. 비신체적 위해 : 정서적 괴롭힘이나 협박 등 비신체적 위해를 가하려는 의도
2. 염탐 : 다른 사람을 염탐하거나 도청하는 행위
3. 배신 : 약속, 계약 또는 약속을 어기는 것


연구 논문의 표 10은 GPT-4 레이블이 16/18 레이블 범주에서 어떻게 우수한지 보여줍니다. 출처: arXiv


이와 같은 사실은 크라우드 워커의 미래가 그다지 밝지 않다는 것을 느끼게 합니다만, 크라우드 워커의 권리를 지키는 NPO · Turkopticon의 Krystall Kuaffman 씨는, "아직 인간의 눈을 믿고 있으며, 라이팅이라는 것은 판단을 요하는 것으로, 그냥 문장을 만드는 것이 아닙니다. 현재로서는 당분간 작업의 판단을 위해 작업자(Turker)와 같은 사람들이 필요할 것입니다. 아직은 인간 작업자보다 GPT의 능력을 믿기에는 미해결 문제가 너무 많습니다."라고 말하고 있습니다.



반응형