GPT-3.5 및 GPT-4와 같은 대규모 언어 모델은 인터넷에서 다양한 콘텐츠를 학습하여 사용자의 질문과 프롬프트에 응답합니다. OpenAI가 2023년 8월에 기술 문서 등을 공개한 웹 크롤러 'GPTBot'은 액세스가 허가된 웹사이트에서 자동으로 정보를 취득하여 GPT-4나 앞으로 공개될 GPT-5 등 대규모 언어 모델을 개선하는 데 도움이 될 것으로 보입니다.
GPTBot - OpenAI API
https://platform.openai.com/docs/gptbot₩
OpenAI Launches GPTBot With Details On How To Restrict Access
OpenAI는 2023년 8월 자사의 AI 제품을 학습하는 데 사용되는 웹 크롤러 'GPTBot'을 공개했습니다. GPTBot에 의한 학습은 AI 모델의 정밀도 향상과 일반적인 능력, 안전성 개선에 도움이 될 가능성을 시사하고 있습니다.
한편, 향후 등장하는 OpenAI의 AI 관련 제품이 자신의 사이트 콘텐츠를 무단으로 사용하는 것은 원치 않는 유저들도 있을 것입니다. 그래서 OpenAI는 GPTBot에 의한 크롤링을 차단하는 방법을 소개하고 있습니다.
GPTBot에 의한 사이트 액세스를 완전히 차단하려면 디렉터리의 "robots.txt"에 다음과 같은 코드를 추가하십시오.
User-agent: GPTBot
Disallow: /
또한 특정 디렉터리나 파일 등 사이트의 일부 콘텐츠에 액세스 할 수 있도록 할 경우에는 robot.txt를 다음과 같이 변경합니다.
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
또한 OpenAI는 GPTBot을 포함한 OpenAI에서 사용하는 크롤러의 IP 주소도 공개하고 있으며, IP 주소별로 액세스 거부를 수행할 수 있습니다.
OpenAI는, 지금까지 유저에게 동의를 구하거나 경고 없이 인터넷상의 콘텐츠를 이용해 학습을 해 온 것에 대해, 저작권이나 프라이버시 등의 관점에서 다양한 논의 및 소송의 대상이 되었습니다.
해외미디어 Search Engine Journal은 "GPTBot의 공개로 콘텐츠 소유권, 페어 유즈, 콘텐츠 제작자 인센티브를 둘러싼 복잡한 논의에 첫걸음을 내디뎠습니다."라고 코멘트.
OpenAI는 "유료 콘텐츠나 개인정보를 포함한 콘텐츠, 당사의 정책에 반하는 텍스트를 포함한 콘텐츠는 GPTBot에 의한 액세스 대상에서 제외, 필터링 대상이 되어 미래의 새로운 언어 모델 개선에 도움이 될 것."이라고 말합니다. 또한 "GPTBot에 의한 웹페이지의 크롤링을 허용함으로써 AI의 정확성과 프라이버시 향상, 가능성 확대에 기여할 수 있습니다."라고 말했습니다.
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
AI에게 이상한 발언을 시키는 「저주된 이미지」, 「저주된 음성」 을 만드는 기술, LLM의 고기능을 악용 (1) | 2023.08.10 |
---|---|
AI의 지능이 급격히 떨어지는 '드리프트' 문제는 왜 발생하는가? (1) | 2023.08.10 |
Stability AI가 오픈 소스 코딩 보조 AI인 「StableCode」발표 (1) | 2023.08.10 |
YouTube 동영상의 썸네일 제작은 AI에게 빼앗겨 버리는가? (2) | 2023.08.09 |
음악을 들은 뇌의 움직임으로부터 AI가 노래를 재구성하는 방법을 구글 및 오사카 대학이 발표 (1) | 2023.08.07 |
AI에 의한 유방암 검진은 발견률이 20% 상승해 방사선과 의사의 업무를 44% 줄인다 (23) | 2023.08.04 |
AMD CEO의 예측, 「AI용 반도체 시장은 3~4년간 연 50%씩 성장한다」 제조 위탁처 확대 가능성 (2) | 2023.08.04 |
Google이 AI 검색에 '이미지 및 동영상' 기능 추가 발표, 동영상의 필요 부분만 찾아주는 편리함 (1) | 2023.08.04 |