반응형 AI · 인공지능/AI 칼럼64 【2024년 최신판】모르면 손해하는 AI 모델이나 기술 10선 정리 최근 AI가 매우 화제가 되고 있네요. 다만, 이 분야는 매우 기술의 성장 스피드가 빠르고, 솔직히 지금의 AI 분야의 기술에 전혀 붙어 있지 않다고 하는 분도 많다고 생각했기 때문에, 지금 화제가 되고 있는 AI 기술에 대해서 알기 쉽게 정리했습니다.현재의 주요 모델 목록우선 현재의 주요 LLM 목록을 소개합니다.GPT GPT는 OpenAI가 개발하는 LLM입니다. 현재라면 GPT-4가 최신입니다. GPT-4는 월 20달러의 유료 플랜에서만 사용할 수 있습니다. GPT-3.5는 무료로 사용할 수 있습니다.클로드Claude는 Anthropic이 개발한 LLM입니다. 현재라면 Claude3가 최신입니다. Claude3는 일본어에도 대응하고 있습니다.Claude3에는 Opus, Sonnet, Haiku의 3.. 2024. 4. 29. 오픈 소스 Sora가 왔습니다! 자신의 Sora 모델을 훈련합시다! 00: 소개현재까지, Sora에 가장 가까운 오픈 소스 모델은 Latte로, Sora와 같은 Vision Transformer 아키텍처를 채용하고 있다. 그럼 Vision Transformer의 무엇이 뛰어나는지, 지금까지의 방법과 어떻게 다른가?Latte는 텍스트에서 동영상으로의 훈련에 관한 코드를 오픈 소스화하지 않았다. 우리는 논문을 읽고 텍스트에서 동영상으로의 훈련 코드를 복제하고 Sora의 대체 모델을 훈련하기 위해 누구나 사용할 수있게했습니다. 우리의 훈련은 어느 정도 효과적이었을까. 상세한 것은 후술한다.01:3차원 U-Net에서 Vision Transformer로이미지 생성은 매우 성숙하지만, UNet 모델 구조가 이미지 생성에 가장 많이 사용되고 있다.2D UNet 아키텍처U-Net이란,.. 2024. 4. 29. ChatGPT 등 수많은 고성능 AI를 낳은 구조 「Attention」 에 대한 상세한 해설 영상 다양한 수학적 주제를 영상으로 해설하는 사이트 「3Blue1Brown」 에서, ChatGPT로 대표되는 AI를 형성하고 있는 「Transformer」 구조의 심장부인 「Attention」 에 대해 해설하고 있습니다. 3Blue1Brown - Visualizing Attention, a Transformer's Heart | Chapter 6, Deep Learning 3Blue1Brown - Visualizing Attention, a Transformer's Heart | Chapter 6, Deep Learning Demystifying attention, the key mechanism inside transformers and LLMs. www.3blue1brown.com AI의 몸체라고도 할 수.. 2024. 4. 17. 멀티 모달 LLM의 활용 방법과 기술 해설 3줄 요약 GPT-4V나 Gemini 등, 대규모 언어 모델(LLM)을 화상이나 음성 등 복수의 모달리티에 대응시킨 멀티 모달 LLM이 등장하기 시작하고 있다 LLM을 멀티 모달화함으로써 다양한 혜택을 누릴 수 있습니다. 학습된 모델끼리를 조합한 구조로 하여 사전 지식을 활용함으로써 학습의 효율화를 실현한다. 소개 Elith에서 기계 학습 엔지니어를 하고 있는 나리키입니다. ChatGPT를 비롯한 다양한 제품이 등장해 LLM이 급속히 보급되고 있는 가운데, 최근 그들에게 이미지나 음성 등의 모달리티를 입력할 수 있게 되는 등 LLM의 멀티 모달화가 진행되고 있습니다. 그 예로는 화상 입력에 대응하는 GPT-4V나, 화상이나 음성, 동영상을 이용한 대화가 가능한 Gemini등이 있습니다. 이와 같이 이미지.. 2024. 4. 16. OpenAI의 Sora에 사용된 기술 간단 리뷰 4줄 요약 OpenAI가 초 고품질의 비디오 생성 모델 Sora 출시 이미지 생성 모델 Diffusion-Transformer 사용 동영상을 3차원 이미지로 취급하여 이미지 모델을 확장 캡션은 DALL • E3과 마찬가지로 캡션 생성 모델로 생성 OpenAI 소라 Sora는 OpenAI가 올해 2월에 발표한 동영상 생성 모델입니다. 먼저 이 모델의 출력 예를 살펴보겠습니다. https://cdn.openai.com/sora/videos/big-sur.mp4 각 프레임의 이미지가 매우 아름답게 생성됩니다. 또한, 기존의 동영상 생성에서는 시간이 지났을 때에 찍혀 있는 오브젝트를 유지하는 것이 어렵고, 사라지거나 나타나거나, 갑자기 왜곡하는 것이 많았던 것에 비해, Sora에서는 한 번 사라졌다가 다시 나타.. 2024. 4. 14. 문과도 도전? 비즈니스 관점에서 본 프롬프트 엔지니어링 요약 소개 최근, ChatGPT를 비롯한 생성 AI로부터 원하는 출력을 얻기 위해 적절한 지시를 입력하는 기술인 「프롬프트 엔지니어링」이 주목받고 있습니다. 이에, 구인시장에서의 주목도나 프롬프트 엔지니어의 급여 등의 비즈니스 면에 초점을 맞추어 이 기술에 대해 살펴보겠습니다. 프롬프트 엔지니어링이란 무엇입니까? 프롬프트 엔지니어링(prompt engineering)은 생성 AI에서 원하는 출력을 얻기 위해 입력하는 자연 언어로 작성된 지침에 대한 기술 체계를 의미합니다. 생성 AI에 입력하는 지시를 '프롬프트'라고 부르기 때문에 '프롬프트 엔지니어링'이 된 것입니다. 프롬프트 엔지니어링이 주목받게 된 것은 OpenAI가 대규모 언어 모델 'GPT-3'을 공개한 2020년 무렵부터입니다. 이 AI의 출력 결과.. 2023. 8. 1. AI 기업의 엔지니어가 대규모 언어 모델과 RLHF를 알기 쉽게 해설 OpenAI가 개발한 ChatGPT를 비롯하여 다양한 AI가 인간 수준의 대화를 하게 되었습니다. 이러한 채팅 AI가 어떤 기술로 이루어져 있는지 AssemblyAI의 엔지니어인 매크로 람포니 씨가 최대한 쉽게 해설하고 있습니다. The Full Story of Large Language Models and RLHF The Full Story of Large Language Models and RLHFLarge Language Models have been in the limelight since the release of ChatGPT, with new models being announced seemingly every week. This guide walks through the essential .. 2023. 6. 27. ChatGPT를 사용하여 10년 만에 백만장자가 되는 공식, 「기업가로서의 청사진」 저자 인 Joseph Mavericks 씨는 블로거 겸 YouTuber이며 생산성과 기업에 대한 콘텐츠를 투고합니다. 그가 Medium에 투고한 기사 'ChatGPT를 사용해 10년 만에 억만장자가 되는 공식 - 기업가로서의 청사진'에서는 ChatGPT를 활용한 사업 계획의 가능성이 논의되고 있습니다. 부를 구축하기 위한 AI 팁 + 기업가의 위치에서 본 고찰 미국의 2021년 소득 중앙값은 월 5,809달러(약 743만 원)였습니다. 그러나 억만장자는 불과 8.8%로 미국의 억만장자의 95%는 순자산이 100만 달러 ~ 1,000만 달러(약 13억 ~ 128억 원) 사이입니다. 일반적으로 순자산이 많을수록 수입이 많다는 상관관계가 있지만, 반드시 그렇지는 않으며 많은 사람들이 금융자산의 대부분을 집이나.. 2023. 6. 14. Meta의 세분화 모델 Segment Anything Model(SAM) 논문 간단 리뷰 SAM의 논문인 Segment Anything 의 간단한 리뷰를 진행합니다. 직접 설명하지는 않지만, 소스 코드는( facebookresearch/segment-anything )입니다. 개요 논문의 첫 이미지는 바로 SAM의 개념을 나타냅니다. 아래 그림의 (b)를 보면 이미지 이외에 프롬프트를 입력하고 있습니다. 그리고 각각의 정보를 엔코더로 해석하고, 디코더로 섞어서 유효한 세그멘테이션 마스크를 출력하고 있습니다. 이러한 설계는 (a)와 같이 다양한 프롬프트에 대하여, 세그먼테이션 태스크(세분화 작업)를 추가 학습 없이 실행 가능하게 합니다. 또한 ZeroShot 성능을 향상하기 위해, 대량의 데이터에 의한 훈련이 필요하기 때문에 아래 그림(c)과 같이 훈련 및 어노테이션의 반복에 의해 10억을 넘.. 2023. 4. 7. GPT-4 총평 : 성능, 응용 사례, 안전 대책 및 리스크를 전망 소개2023년 3월 14일, OpenAI는 고급 대규모 언어 모델 GPT-4를 발표했습니다. 이 글에서는 GPT-4의 성능, 응용 사례, 안전 대책, 리스크에 대한 평가를 해설함으로써 이 AI를 전망합니다. 신 시대의 멀티 모달 모델「GPT-4」의 성능GPT-4와 (ChatGPT의 기본 모델인) GPT-3.5의 결정적인 차이점은 GPT-4가 이미지 인식 기능을 구현한다는 것입니다. 화상 인식이 가능하게 됨에 의해, 예를 들면「식재료가 찍힌 화상을 인식해 가능한 레시피를 제안」처럼, 화상으로부터의 추론에 대응합니다. 언어 능력과 추론 능력에 관해서도 GPT-4는 GPT-3.5에 비해 향상되었습니다. 각종 테스트로 보는 GPT-4의 성능GPT-4 해설 기사 에는 GPT-4와 GPT-3.5를 비교하기 위해 실.. 2023. 3. 24. 이전 1 2 3 4 ··· 7 다음 반응형