본문 바로가기
AI · 인공지능/AI 뉴스

OpenAI가 미래의 AI 모델 개선을 위한 웹 크롤러 'GPTBot'을 발표

by 두우우부 2023. 8. 9.
반응형

 

GPT-3.5 및 GPT-4와 같은 대규모 언어 모델은 인터넷에서 다양한 콘텐츠를 학습하여 사용자의 질문과 프롬프트에 응답합니다. OpenAI가 2023년 8월에 기술 문서 등을 공개한 웹 크롤러 'GPTBot'은 액세스가 허가된 웹사이트에서 자동으로 정보를 취득하여 GPT-4나 앞으로 공개될 GPT-5 등 대규모 언어 모델을 개선하는 데 도움이 될 것으로 보입니다.

GPTBot - OpenAI API
https://platform.openai.com/docs/gptbot₩


OpenAI Launches GPTBot With Details On How To Restrict Access

OpenAI Launches GPTBot With Details On How To Restrict Access

Learn more about OpenAI's web crawler, GPTBot, and how to restrict or limit its access to your website content.

www.searchenginejournal.com



OpenAI는 2023년 8월 자사의 AI 제품을 학습하는 데 사용되는 웹 크롤러 'GPTBot'을 공개했습니다. GPTBot에 의한 학습은 AI 모델의 정밀도 향상과 일반적인 능력, 안전성 개선에 도움이 될 가능성을 시사하고 있습니다.

한편, 향후 등장하는 OpenAI의 AI 관련 제품이 자신의 사이트 콘텐츠를 무단으로 사용하는 것은 원치 않는 유저들도 있을 것입니다. 그래서 OpenAI는 GPTBot에 의한 크롤링을 차단하는 방법을 소개하고 있습니다.



GPTBot에 의한 사이트 액세스를 완전히 차단하려면 디렉터리의 "robots.txt"에 다음과 같은 코드를 추가하십시오.

User-agent: GPTBot
Disallow: /


또한 특정 디렉터리나 파일 등 사이트의 일부 콘텐츠에 액세스 할 수 있도록 할 경우에는 robot.txt를 다음과 같이 변경합니다.

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/


또한 OpenAI는 GPTBot을 포함한 OpenAI에서 사용하는 크롤러의 IP 주소도 공개하고 있으며, IP 주소별로 액세스 거부를 수행할 수 있습니다.

OpenAI는, 지금까지 유저에게 동의를 구하거나 경고 없이 인터넷상의 콘텐츠를 이용해 학습을 해 온 것에 대해, 저작권이나 프라이버시 등의 관점에서 다양한 논의 및 소송의 대상이 되었습니다.



해외미디어 Search Engine Journal은 "GPTBot의 공개로 콘텐츠 소유권, 페어 유즈, 콘텐츠 제작자 인센티브를 둘러싼 복잡한 논의에 첫걸음을 내디뎠습니다."라고 코멘트.

OpenAI는 "유료 콘텐츠나 개인정보를 포함한 콘텐츠, 당사의 정책에 반하는 텍스트를 포함한 콘텐츠는 GPTBot에 의한 액세스 대상에서 제외, 필터링 대상이 되어 미래의 새로운 언어 모델 개선에 도움이 될 것."이라고 말합니다. 또한 "GPTBot에 의한 웹페이지의 크롤링을 허용함으로써 AI의 정확성과 프라이버시 향상, 가능성 확대에 기여할 수 있습니다."라고 말했습니다.

반응형