본문 바로가기
AI · 인공지능/AI 뉴스

OpenAI 설립자가 "우리가 틀렸다"며 데이터를 오픈하지 않는 정책으로 전환

by 두우우부 2023. 3. 17.
반응형



언어 모델 ChatGPT와 이미지 생성 AI DALL· E를 만든 AI 연구소 OpenAI는 AI 기술의 악용을 막고 사회에 우호적인 형태로 발전시키는 것을 목적으로 샘 알트만 씨와 일론 머스크 씨에 의해 2015년에 발족된 비영리 조직입니다. 그런 OpenAI의 창립 멤버에 이름을 올리고 있는 일루야 서츠케버(Ilya Sutskever) 씨가, AI를 오픈한다는 설립 초기의 이념은 잘못되었다고, IT계 뉴스 사이트 The Verge의 인터뷰에서 말했습니다.

OpenAI co-founder on company's past approach to openly sharing research: 'We were wrong' - The Verge

OpenAI co-founder on company’s past approach to openly sharing research: “We were wrong”

Should AI research be open or closed? Experts disagree.

www.theverge.com


OpenAI는 2023년 3월 14일에 ChatGPT에 사용되는 언어 모델의 최신 버전인 GPT-4를 출시했습니다. 사법시험 상위 10%의 성적을 거두고, 튜링 테스트를 통과하는 등, 그 성능이나 유연성에서 AI 커뮤니티를 들끓게 하고 있는 GPT -4입니다만, AI 전문가나 연구자들로부터 GPT-4에 관한 정보 공개가 불충분하다는 실망의 목소리도 들려오고 있었습니다.

AI 기업 Nomic AI의 정보 디자인 담당 바이스 프레지던트를 맡고 있는 벤 슈미트 씨에 의하면, AI가 가지는 바이어스나 오류를 점검하거나 수정하기 위해서는, 트레이닝 데이터의 공개가 필요 불가결하다고 합니다.

그러나 OpenAI는 GPT-4 구축에 사용한 데이터 세트나 트레이닝 방법에 대해서는 비공개로 하고 있으며, 이 점에 대해 슈미트 씨는 "OpenAI는 GPT-4를 소개하는 논문에서도「공개하지 않는다」라고 당당하게 선언하고 있습니다."라고 지적했습니다.



슈미트 씨의 기술 보고서(PDF 파일)에서 OpenAI는 "GPT-4와 같은 대규모 모델의 경쟁 환경과 안전성을 모두 고려합니다. 이 보고서에는 모델 크기가 포함된 구조, 하드 웨어, 트레이닝 계산, 데이터세트 구축, 트레이닝 방법 또는 이와 유사한 것에 대한 추가 세부 정보는 기재되지 않았습니다."라고...

이러한 OpenAI의 결정에 비판이 모이는 가운데, The Verge의 인터뷰에 응한 OpenAI의 수석 사이언티스트 겸 공동 창업자인 일루야 서츠케버 씨는,"「경쟁」과「안전성」을 이유로 GPT-4의 트레이닝 데이터를 비공개로 전환한 것은 자명한 일이다"라고 말했습니다.

첫째, AI 분야에서의 개발 경쟁에 대해 서츠케버 씨는「GPT-4의 개발은 쉽지 않았습니다. GPT-4와 같은 것을 만들고자 하는 기업은 많습니다. 그만큼, 경쟁면에서 이 분야가 성숙했다고 할 수 있습니다」라고 말했습니다.

서츠케버 씨는 또, 안전성의 관점에서도「이러한 모델은 매우 강력합니다만, 향후에는 더욱 강력해질 것입니다. 이런 AI를 사용하여 타인에게 막대한 손해를 끼치는 것은 아주 쉬운 일이 될 것입니다. 때문에, AI의 능력이 높아짐에 따라 이를 공개하지 말아야겠다고 생각하게 되었습니다」라고 코멘트.

인공 지능을 폐쇄하는 접근법은 개방형 인공 지능 연구를 목표로 설립된 OpenAI에게 큰 정책 전환이 될 것입니다. 서츠케버 씨 본인도 OpenAI가 발족한 2015년 12월 블로그 기사에서 "비영리 단체로서 우리의 목적은 주주가 아닌 모든 사람을 위한 가치를 추구하는 것"이라고 적고 있습니다.

AI 연구를 공유하겠다는 당초의 자세를 바꾼 이유를 묻는 The Verge 기자에게, 서츠케버 씨는 "우리는 완전히 틀렸다. 만약 여러분이 우리와 마찬가지로 AI나 AGI 즉, 범용 인공 지능이 믿을 수 없을 만큼 강력하다고 믿는다면, 오픈 소스로 만드는 것은 무의미하며 나쁜 아이디어입니다. 그것은 현명하지 않다는 것을 누구나 알게 될 날이 올 것이라고 생각합니다."라고 대답했습니다.


일루야 서츠케버(Ilya Sutskever) 씨


OpenAI가 GPT-4의 세부 사항을 비공개로 하는 또 다른 이유로 지적되고 있는 것이 법적 책임입니다. 언어 모델은 엄청난 양의 텍스트 데이터로 교육되지만 대부분의 데이터는 웹 스크래핑에 의해 인터넷에서 수집되는 것이므로, 저작권으로 보호되는 데이터가 데이터셋에 포함될 수 있습니다. 이것은 언어 모델뿐만 아니라 그림이나 일러스트를 학습한 이미지 생성 AI에서도 공통으로 적용되는 문제입니다.

이에 대해 묻자 서츠케버 씨는, "저의 견해로는 트레이닝 데이터는 곧 기술입니다. 그렇지 않은 것 같지만 그렇습니다. 그리고, 트레이닝 데이터를 공개하지 않는 이유도 거의 동일합니다."라고 대답했습니다. 그러나 OpenAI 교육 데이터에 저작권을 침해한 건이 있는지에 대한 질문에는 대답하지 않았습니다.

AI가 급속히 발전하고 있는 가운데, 대형 AI 기업은 자사 제품에 AI 도입을 서두르고 있어, 종종 안전이나 윤리에 관한 논의가 남아 있습니다. 예를 들어, 인터랙티브 인공지능인 Bing Chat은 GPT-4에 기반을 두고 있다고 밝혔습니다. Microsoft는 2023년 3월 AI 기술에 대한 위험을 전문으로 연구하는 사내 팀을 해고했습니다.

마이크로소프트가 'AI 기술의 위험을 경고하는 팀'을 해고한 것으로 판명

Microsoft just laid off one of its responsible AI teams

As the company accelerates its push into AI products, the ethics and society team is gone

www.platformer.news


영국의 싱크 탱크 The Centre for Long-Term Resilience에서 AI 정책을 담당하는 Jess Whittlestone 씨는 GPT-4의 세부 사항을 공유하지 않는다는 OpenAI의 결정에 어느 정도 공감한다는 의견을 보이는 반면, AI가 중앙 집권화 될 우려가 있다고 지적합니다.

Whittlestone 씨는 "AI를 공개할지 여부를 선택하는 것은 개별 기업에 맡겨서는 안 됩니다. 이상적으로는 독립된 제삼자가 이 역할을 맡아, 모델의 위험성과 그것을 세계에 공개하는 것이 합리적인지 여부를 조사할 필요가 있다고 생각합니다."라고 코멘트하였습니다.

반응형