본문 바로가기
AI · 인공지능/AI 뉴스

Microsoft가 생성 AI의 허점을 테스트하는 툴「PyRIT」을 발표

by 두우우부 2024. 2. 28.
반응형

 
 
Microsoft가 2024년 2월 22일에 생성 AI의 리스크를 식별하는 자동화 툴 「PyRIT(Python Risk Identification Toolkit for Generative AI:생성 AI용 리스크 특정 툴)」의 릴리스를 발표했습니다.

GitHub - Azure/PyRIT: The Python Risk Identification Tool for generative AI

GitHub: Let’s build from here

GitHub is where over 100 million developers shape the future of software, together. Contribute to the open source community, manage your Git repositories, review code like a pro, track bugs and fea...

github.com


Announcing Microsoft's open automation framework to red team generative AI Systems | Microsoft Security Blog

Announcing Microsoft’s open automation framework to red team generative AI Systems | Microsoft Security Blog

Read about Microsoft's new open automation framework, PyRIT, to empower security professionals and machine learning engineers to proactively find risks in their generative AI systems.

www.microsoft.com


Microsoft releases automated PyRIT red teaming tool for finding AI model risks - SiliconANGLE

Microsoft releases automated PyRIT red teaming tool for finding AI model risks - SiliconANGLE

Microsoft releases automated PyRIT red teaming tool for finding AI model risks - SiliconANGLE

siliconangle.com



생성 AI에는 잘못된 정보를 출력하는 '할루시네이션(환각)' 문제나 부적절한 결과를 출력하는 등의 해결 과제가 있으며, 그 악영향을 억제하기 위해 AI 기업은 기능에 제한을 걸어 대응하고 있습니다만, 유저 입장에서는 이러저러한 수법으로 탈옥하는 모습도 종종 보이기 때문에, 영 찝찝한 기분을 떨칠 수 없습니다.

Microsoft의 생성 AI인 Copilot도 예외는 아니기 때문에 Microsoft는 AI에 특화된 AI Red Team을 사내에 설립하여 책임 있는 AI 개발에 임하고 있습니다.



이번에 마이크로소프트가 공개한 PyRIT은 AI Red Team이 AI 연구자나 엔지니어용으로 개발한 라이브러리로, 가장 큰 특징은 AI 시스템의 '레드 팀' 자동화로 인간 전문가가 AI 리스크를 특정하는 데 걸리는 시간을 대폭 단축한다는 점입니다.

전통적인 테스트에서는 AI가 악성코드를 출력하거나 학습 데이터세트의 기밀 정보를 그대로 토출 하는 것을 방지하기 위해 인간 레드팀이 수동으로 적대적인 프롬프트를 생성해야 했습니다.

게다가 적대적인 프롬프트는 텍스트나 이미지와 같은 AI가 출력하는 형식마다, 그리고 AI와 유저가 교환을 하는 API마다 생성할 필요가 있기 때문에, 이러한 작업은 번거롭고 시간도 걸리는 태스크였습니다.

반면에 PyRIT를 사용하면 AI에 대한 적대적인 입력 유형을 지정하기만 하면 해당 기준을 충족하는 수천 개의 프롬프트를 자동으로 생성할 수 있습니다. 예를 들어, Microsoft가 Copilot에서 수행한 연습에서는 위험 범주를 선택하여 수천 개의 악의적인 프롬프트를 생성하고 이에 대한 Copilot의 출력을 모두 평가하는 데 걸리는 시간이 몇 주에서 몇 시간으로 단축되었다는 것.



적대적 프롬프트 생성 외에도 PyRIT은 AI 모델의 반응을 보고, 한 프롬프트에 유해한 출력을 수행했는지 여부를 자동으로 결정하거나 AI 응답을 분석하여 프롬프트를 조정할 수 있기 때문에 전체 테스트의 효율성을 높일 수 있습니다.

Microsoft는 다음과 같이 말했습니다.

PyRIT은 수동 레드 팀을 대신하는 것이 아니라 레드 팀의 전문 지식을 강화하고 번거로운 작업을 자동화함으로써 보안 전문가가 잠재적 위험을 보다 날카롭게 조사할 수 있도록 하는 것입니다.

반응형