본문 바로가기
AI · 인공지능/AI 뉴스

AI가 작성한 문장에 「전자 워터마크」를 삽입하여 인간의 문장과 구별하는 기법을 미국 대학이 개발

by 두우우부 2023. 8. 21.
반응형

 
미국 메릴랜드 대학의 연구팀이 대규모 언어 모델(LLM)의 출력 텍스트에 전자 워터마크(watermark)를 내장하는 프레임워크에 관한 논문 'A Watermark for Large Language Models'를 발표했습니다.

https://arxiv.org/abs/2301.10226

A Watermark for Large Language Models

Potential harms of large language models can be mitigated by watermarking model output, i.e., embedding signals into generated text that are invisible to humans but algorithmically detectable from a short span of tokens. We propose a watermarking framework

arxiv.org


이 기술은 텍스트의 품질을 손상시키지 않고 보이지 않는 형태로 전자 워터 마크를 통합할 수 있도록 합니다.

특정 API 및 매개 변수에 대한 액세스가 필요치 않으며, 효율적인 오픈소스 알고리즘을 사용하여 전자 워터마크를 감지할 수 있습니다. 또한 LLM을 가동하지 않고 저렴한 비용으로 신속하게 검출이 가능합니다.

악의적인 목적으로의 사용 리스크가 증가하고 있는 LLM이지만, 모델 출력에 전자 워터마크를 심는 것으로 리스크를 완화할 수 있습니다. 또한 합성 데이터는 인간의 콘텐츠보다 열등한 경우가 많고, 모델의 훈련에 앞서 검출하여 제외할 필요가 있지만, 이에도 이용할 수 있습니다.

이 방법은 인간은 인식할 수 없지만, 짧은 토큰의 범위로부터 알고리즘으로 검출 가능한 신호를 생성 텍스트에 심는 방법입니다.

보다 구체적으로, 토큰은 이전 토큰의 해시 값에 기초하여 '그린 토큰'과 '레드 토큰'으로 분류하고, 생성된 텍스트는 '그린 토큰'의 비율이 높아지도록 설정됩니다. 두 토큰의 비율을 분석하면 텍스트에 전자 워터마크가 있는지 여부를 판단할 수 있다는 것입니다.

반응형