입력된 문장(프롬프트)에서 이미지를 생성하는 AI의 기능을 "Text to Image"라고 합니다. 이 프롬프트를 일반 텍스트가 아닌 리치 텍스트로 하여 폰트의 크기나 색, 스타일, 각주를 생성하는 이미지에 반영하는 기술인 「Expressive Text-to-Image Generation」 을 메릴랜드 대학 컬리지 파크의 연구원들이 내놨습니다.
공개된 데모 영상을 보면 어떤 기술인지 쉽게 알 수 있습니다.
프롬프트로 "A rustic cabin sits on the edge of a giant lake. Wildflowers dot the meadow around the cabin and lake." 라는 문장을 줍니다.
그러자 이러한 이미지가 생성되었습니다.
cabin을 주황색으로 변경합니다.
그러자 그림 안의 오두막이 오렌지색을 기조로 한 것이 되었습니다.
이어서 "Wildflowers"라는 단어의 스타일을 "Watercolor"로 변경.
그러자 야생화가 수채화 풍으로 변했습니다.
"lake"라는 단어에 대해서는 "crystal-clear, blueish lake, glistening in the sunlight"이라는 각주를 추가합니다.
호수의 묘사가 변경되었습니다.
이런 조작을 통해 「머리카락만 좋아하는 색으로 조정하고 싶다」라는 것이 가능해 집니다.
다른 기술과의 비교도 공개되었습니다. 이것은 교회의 색을 지정한 것으로, 「Pink」나 「Olive Yellow」라고 하는 색으로의 지정은 다른 기술의 프롬프트에서도 잘 적응하고 있습니다만, 「(211, 22, 52)」라고 하는 RGB 지정에도 대응하고 있는 것은 Ours 뿐입니다.
바지의 색 변경은 이런 느낌입니다.
피자를 생성하는 프롬프트에서 'mushrooms(버섯)'와 'pepperonis(페퍼로니)'라는 재료 부분의 글꼴을 크게 하여 생성한 피자 이미지의 재료를 늘릴 수도 있습니다.
이거 신박한데?

