제3차 AI 붐의 종말과 제4차 AI 붐의 상승
AI Index Report 2024 4장 “ 경제 ”에서는 경제 활동에서 AI 업계의 동향을 분석합니다. 이하에서는 AI 인재 구인, 투자, 기업 활동 등의 관점에서 그러한 분석을 정리해 나갑니다.
감소로 돌아간 AI 인재 구인
2010년부터 51,000개 이상의 구인 사이트의 정보를 분석하고 있는 조사회사 Lightcast 의 데이터에 의하면, 각국의 전구인에 대한 AI 인재 구인의 비율은 2022년 이후 감소 로 전환하고 있습니다(그림 1). 그 중에서도 2023년에 AI 인재 구인이 많은 것은 미국의 1.62%, 스페인의 1.4%, 스웨덴의 1.3%였습니다.

(그림 1) 2014년부터 2023년까지 각국의 전 구인에 대한 AI 인재 구인의 비율 추이. 이미지 출처: AI Index Report 2024 4장
AI 인재 구인이 감소로 전환한 원인으로 Amazon이나 Deloitte 등 AI 구인을 많이 출고하고 있던 기업이 AI 구인을 줄인 것을 지적할 수 있습니다. 예를 들어 아마존은 데이터 과학자 직업의 채용을 줄이는 반면, 포장 작업자와 같은 운영 직업의 수를 늘렸습니다.
미국과 생성 AI가 견인하는 AI 투자
800만개 이상의 투자활동을 수집·분석하고 있는 조사회사 Quid 의 데이터에 의하면, 2023년에 있어서의 세계의 AI기업투자는 전년으로부터 약 20%감소의 약 1,892억 달러 였습니다. 그러나 AI 기업 투자는 10년간 약 13배가 되었습니다.

(그림 2) 2013년부터 2023년까지 세계의 AI 기업 투자 추이. 이미지 출처: AI Index Report 2024 4장
2013년부터 2023년까지 세계의 AI기업투자에 관하여 개인투자(※주석1)의 추이에 주목한 것이 아래의 그림 3입니다. 2021년부터 감소로 전환하고 있으며, 2023년은 전년 대비 7.2% 감소한 약 960억 달러였습니다.

(그림 3) 2013년부터 2023년까지 세계 AI에 대한 개인 투자 추이. 이미지 출처: AI Index Report 2024 4장
2019년부터 2023년까지의 생성 AI를 대상으로 한 프라이빗 투자는 일전적으로 2023년에 있어서 폭증하고 있어 , 2022년 대비 9배, 2019년 대비 30배의 약 252억 달러였다(그림 4). 이 투자 금액은 2023년 개인 투자 전체의 1/4을 차지합니다.

(그림 4) 2019년부터 2023년까지 세계의 생성 AI에 대한 개인 투자 추이. 이미지 출처: AI Index Report 2024 4장
2023년에 AI에 대한 개인 투자액을 국가별로 집계하면 그림 5와 같다. 미국이 압도적 1위로 약 672억 달러 , 그 다음 중국의 약 78억 달러, 영국의 약 38억 달러가 됩니다. 일본은 미국 대비 약 1%인 약 7억 달러였다.

(그림 5) 2023년 AI에 대한 국가별 개인 투자액. 이미지 출처: AI Index Report 2024 4장
2013년부터 2023년까지 AI에 대한 개인 투자액 추이를 미국, EU 국가와 영국, 중국 등 지역별로 집계하면 그림 6과 같이 됩니다. 미국이 2023년이 되어 급증하고 있는 것은, 후술하는 바와 같이 생성 AI에 대한 투자가 폭증했기 때문입니다.

(그림 6) 2013년부터 2023년까지 지역별 AI에 대한 개인 투자액 추이. 이미지 출처: AI Index Report 2024 4장
2019년부터 2023년 생성 AI에 대한 개인 투자를 지역별로 집계한 것이 그림 7입니다. 미국의 투자액은 2023년에 폭증해 약 225억 달러가 되었습니다. 이 투자 금액은 다른 지역의 총 투자 금액보다 약 211 억 달러 이상입니다.

(그림 7) 2013년부터 2023년까지 지역별 생성 AI에 대한 개인 투자액 추이. 이미지 출처: AI Index Report 2024 4장
2022년과 2023년 사설투자를 개발분야별로 집계하여 비교한 것이 그림 8이다. 2023년이 되어 「AI 인프라/연구/거버넌스」가 폭증하고 있습니다. 이 폭증은 OpenAI나 Anthropic 같은 AI 스타트업이 최신 LLM 개발에 거비를 던지고 있기 때문이라고 생각됩니다.

(그림 8) 2022년과 2023년 개발 분야별 개인 투자 비교. 이미지 출처: AI Index Report 2024 4장
이상의 투자 동향을 정리하면, AI 전반에 대한 투자는 감소 경향인 것도, 생성 AI에 대한 투자는 특히 미국에서 폭증 하고 있다고 말할 수 있습니다.
기업의 AI 도입 현황과 생성 AI에 대한 주목
McKinsey가 2023년 8월 1일에 발표한 『2023년에 있어서의 AI의 현상:생성 AI가 돌입한 해』는, 세계 각지의 다양한 속성을 가지는 기업 간부 1,684명을 대상으로 하여 기업의 AI 도입에 관한 앙케이트 조사를 실시한 결과를 정리한 것입니다. 이 보고서에 따르면 소속기업에서 적어도 하나의 사업부문 또는 기능으로 AI를 도입하고 있다고 응답한 비율은 55%이며, 2022년의 50%에서 미증, 2017년의 20%와 비교하면 2 배 이상이 되었습니다(그림 9).

(그림 9) 소속기업에서 적어도 하나의 사업부문 또는 기능으로 AI를 도입하고 있다고 응답한 비율 추이. 이미지 출처: AI Index Report 2024 4장
2022년과 2023년 기업의 AI 도입률을 지역별로 비교한 것이 그림 10입니다. 가장 AI 도입이 진행되고 있는 것이 북미로 , 2023년에는 61%였습니다. 2023년이 되어 AI 도입이 가장 진행된 것이 유럽에서 2022년 대비 9% 증가한 57%였습니다. 일본을 포함한 아시아 태평양 지역은 2023년 시점에서 58%이며 세계 평균의 55%를 상회하고 있습니다.

(그림 10) 2022년과 2023년에 있어서 지역별로 본 기업의 AI 도입률 비교. 이미지 출처: AI Index Report 2024 4장
2023년에 있어서의 생성 AI의 도입률을 지역별로 집계한 것이 그림 11입니다. 세계 평균은 33% 이며, AI의 그것인 55%와 비교하면 아직 도입이 진행되지 않았음을 알 수 있습니다. 가장 도입이 진행되고 있는 것은 북미의 40% 로, 2위가 인도나 라틴 아메리카 국가가 포함되는 개발도상국의 33%입니다. 일본을 포함한 아시아 태평양 지역이 최하위의 30% 인 이유는 이 지역의 모국어가 생성 AI가 자랑하는 영어를 비롯한 유럽 국가와 크게 다르기 때문일지도 모릅니다.

(그림 11) 2023년 지역별로 본 기업의 생성 AI 도입률. 이미지 출처: AI Index Report 2024 4장
AI에 대한 기업의 주목에 관해서는, 앞서 나온 Quid가 Fortune 500에 속하는 기업의 수지 보고를 자연언어 처리에 의해 분석한 바, 「인공지능」 「AI」 「기계 학습」 「ML(Machine Learning의 약칭)」 에 언급한 기업은 394사(78.8%)였습니다(그림 12). 이 결과는 2022년 조사 결과 266개에서 128개로 늘었으며, 2018년부터 거의 두 배가 되었습니다.

(그림 11) 2023년 지역별로 본 기업의 생성 AI 도입률. 이미지 출처: AI Index Report 2024 4장
이상의 수지 보고 분석에 있어서, AI에 관련된 테마별로 언급된 비율을 2018년과 2023년에 비교한 것이 그림 13입니다. 생성 AI는 2018년에는 불과 0.31%였지만, 2023년에는 19.73%였습니다. 2023년에 언급된 테마 중에서 생성 AI가 1위 였습니다.

(그림 13) 2018년과 2023년에 Fortune 500 기업의 수지 보고서에서 AI에 관한 각 주제에 언급한 비율 비교. 이미지 출처: AI Index Report 2024 4장
이상과 같은 AI 업계의 경제 동향에서 떠오르는 것은 2023년에는 2010년대 전반부터 시작된 제3차 AI 붐이 종말 되는 한편, 생성 AI가 견인하는 제4차 AI 붐이 대두 해 있어, 추세로서는 정반대의 특징(한쪽은 끝나, 다른 쪽은 시작되었다)을 가진 두개의 붐이 혼재한 시기였다고 말할 수 있는 것은 아닐까요. 그리고 2024년에 있어서는, 제4차 AI 붐이 더욱 기세가 되고 있는 것은 명백하겠지요.
과점화를 향한 대규모 AI 모델 개발
AI Index Report 2024 1장 “R& D ”에서는 AI 모델 개발 동향을 분석합니다. 이하에서는 출판물, 기계 학습 모델, 기반 모델, 훈련 비용 등의 관점에서 그러한 동향을 정리해 갑니다.
또한 기계 학습 모델은 이미지 인식 모델과 언어 모델을 포함한 AI 모델 전반을 의미하며, 기본 모델은 GPT-3과 같은 대규모 언어 모델과 GPT-4를 비롯한 대규모 멀티 모달 모델을 가리킨다. 합니다.
AI 관련 출판물 증가는 한 단락
그림 14는 미국의 연구기관 CSET (Center for Security and Emerging Technology:안전보장·신흥기술센터)가 수집한 정보를 출전으로 작성된 2010년부터 2022년까지의 AI 관련 출판물 수의 추이입니다. 2010년부터 2022년까지 10년간 AI 관련 출판물은 약 88,000개에서 240,000개로 약 2,7배로 증가했습니다. 무엇보다, 2021년부터 2022년의 증가율은 1.1%이며, 증가 경향이 일단락했다고 보여집니다.

(그림 14) 2010년부터 2022년까지 AI 관련 출판물 수의 추이. 이미지 출처: 이미지 출처: AI Index Report 2024 1장
그림 15는 2010년부터 2022년까지 출판 형태별로 집계한 AI 관련 출판물 수 추이입니다. 가장 많은 것이 AI학계지이며, 이어 AI컨퍼런스 출판물입니다. 이 두 가지 출판 형태는 조사 기간 동안 같은 정도의 비율로 계속 증가하고 있기 때문에 AI 연구의 견조함을 알 수 있습니다.

(그림 15) 2010년부터 2022년까지의 출판 형태별로 집계한 AI 관련 출판물 수 추이. 이미지 출처: AI Index Report 2024 1장
학계에 대한 산업계의 우위
1950년대부터 현재까지의 기계 학습 모델의 정보를 수집하고 있는 연구 기관 Epoch AI 의 데이터에 따르면, 기계 학습 모델 개발은 2014년까지 학계가 견인하고 있었지만, 2015년 이후는 산업계가 리드 하게 되었습니다. 2023년에는 산업계가 개발한 주목할 만한 기계 학습 모델이 51인 반면, 학계는 15에 그쳤습니다(그림 16).
기계 학습 모델 개발에 있어서의 학계와 산업계의 서 위치의 역전은, 최근의 모델 개발에는 다액의 비용이 요구되는 것에 기인하는 것으로 생각됩니다.

(그림 16) 2003년부터 2023년까지의 개발 섹터마다 집계한 주목할만한 기계 학습 모델 개발수 추이. 이미지 출처: AI Index Report 2024 1장
그림 17은 2023년에 주목해야 할 기계 학습 모델 개발 수를 국가별로 집계한 것이다. 미국이 압도적 1위인 61 로, 이어 중국의 15, 프랑스의 8이 되었습니다. 미국이 1위인 것은 자본력이 있는 거대 AI 기업이 다수 존재하고 있기 때문입니다.

(그림 17) 국가별로 집계한 2023년의 주목할만한 기계 학습 모델 개발 수. 이미지 출처: AI Index Report 2024 1장
그림 18은 세로축에 모델의 파라미터 수, 가로축에 모델 개발 연도를 설정한 후, 플롯 점의 색으로 개발 섹터를 나타낸 주목해야 할 기계 학습 모델의 산포도입니다. 2013년 이전에는 학계 개발을 의미하는 청자의 점이 많은 반면, 2014년 이후에는 산업계 개발을 의미하는 옅은 보라색의 점이 늘어나고 있습니다. 또한 2023년에 가까울수록 세로축이 높은 위치에 점이 집중되어 있기 때문에 새로운 모델일수록 파라미터 수가 많아지고 있음을 알 수 있습니다. 파라미터 수의 증가는, 모델 사이즈가 클수록 성능이 좋아지는 스케일링 법칙이 여전히 중시 되고 있기 때문이라고 말할 수 있을 것입니다.

(그림 18) 파라미터 수에 주목한 2003년부터 2023년까지의 개발 섹터별 주목할만한 기계 학습 모델 산포도. 이미지 출처: AI Index Report 2024 1장
그림 19는 그림 18의 세로축을 기계 학습 모델의 학습과 운영에 필요한 연산량으로 바꾼 것이다. 파라미터 수가 큰 모델의 학습과 운용에는 큰 연산량이 요구되기 때문에 그림 19에서도 새로운 모델만큼 세로축이 높은 위치에 플롯됩니다.

(그림 19) 요구 연산량에 주목한 2003년부터 2023년까지의 개발 섹터마다 주목할만한 기계 학습 모델 산포도. 이미지 출처: AI Index Report 2024 1장
그림 20은 그림 19에서 기계 학습 모델을 엄선한 후 모델의 도메인(언어, 이미지 인식 , 멀티모달)마다 플롯 포인트를 색으로 구분한 것입니다. Transformer가 등장한 이후, 요구 계산량이 급격히 증가하고 있는 것을 알 수 있습니다.

(그림 20) 요구 연산량에 주목한 2003년부터 2023년까지의 도메인별 주목할만한 기계 학습 모델 산포도. 이미지 출처: AI Index Report 2024 1장
기반 모델 개발을 견인하는 미국 거대 AI 기업
기초 모델 정보를 수집하는 스탠포드 대학 커뮤니티 Ecosystem Graphs 의 데이터에 따르면, 2019년부터 2023년까지의 개발 섹터별 기반 모델 개발 수 추이를 집계하면 그림 21과 같이 된다. 기반 모델에서도 산업계가 학계에 우위 가 되고 있습니다.

(그림 21) 2019년부터 2023년까지 개발 섹터별 기반 모델 개발 수 추이. 이미지 출처: AI Index Report 2024 1장
2023년에 개발된 기반 모델을 개발 조직별로 집계한 것이 그림 22입니다. Google은 18에서 1위를 차지하며 Meta, Microsoft, OpenAI 등을 따릅니다.

(그림 22) 2023년에 있어서의 개발 조직마다 집계한 기반 모델수. 이미지 출처: AI Index Report 2024 1장
2023년에 개발된 기반 모델을 개발된 국가별로 집계한 것이 그림 23입니다. 미국이 109로 압도적 1위가 되어, 중국, 영국과 계속됩니다. 4위에는 아랍 에미리트 연방이 랭킹되어 있습니다.

(그림 23) 2023년에 있어서의 개발국마다 집계한 기반 모델수. 이미지 출처: AI Index Report 2024 1장
증가의 길을 따라가는 훈련 비용
최근의 기반 모델 개발에서는, 파라미터수를 비롯해 학습 데이터나 개발비가 비공개인 것이 대부분입니다. 이러한 가운데 전출된 Epoch AI는 클라우드 컴퓨터의 렌탈료 등으로부터 2017년부터 2023년까지의 대표적인 LLM과 기반 모델의 훈련 비용을 추계했습니다(그림 24). 멀티모달 모델인 GPT-4는 약 7,800만 달러, Gemini Ultra는 1억 9,100만 달러로 다른 모델을 압도하고 있다.

(그림 24) 2017년부터 2023년까지 대표적인 LLM과 기초 모델의 훈련 비용. 이미지 출처: AI Index Report 2024 1장
그림 25는 2016년부터 2023년까지 다양한 LLM과 기반 모델의 훈련 비용에 대한 산점도이다. 출시일이 새로운 모델일수록 훈련 비용이 큰 경향을 볼 수 있습니다.

(그림 25) 2016년부터 2023년까지 다양한 LLM과 기반 모델의 훈련 비용. 이미지 출처: AI Index Report 2024 1장
이상으로 정리한 AI 모델 연구 개발 동향으로부터, 기반 모델을 전형적으로 하는 최근의 대규모 AI 모델 개발에서는 훈련 비용을 포함한 개발비가 상승 하고 있다고 할 수 있습니다. 그 결과 향후 최첨단 AI 모델 개발은 막대한 개발비를 충당하는 구글과 같은 거대 AI 기업에 의해 과점화될 것으로 예상된다.
언어능력 진전과 신능력 개발
AI Index Report 2024 2장 " 기술적 성능 "에서는 AI 모델 성능을 다양한 관점에서 분석합니다. 이하에서는 언어 능력, 동영상 생성 능력, AI 에이전트 능력, 그리고 환경에의 영향 등의 관점에서 AI 모델 성능을 정리해 갑니다.
진화하면서도 과제도 있는 언어 능력
고성능화·다기능화의 일도를 따르는 기반 모델의 언어 능력의 종합적인 평가를 목적으로, 스탠포드 대학의 연구팀은 다양한 분야의 벤치마크를 통합한 HELM (Holistic Evaluation of Language Models: 언어 모델의 포괄적 인 평가)를 발표했습니다. 이 벤치마크는 모델 상호의 우열을 평균 승률로 측정합니다. 그리고 그림 27은 2024년 6월 4일 시점의 순위입니다(그림 27은 기사 작성자). 그림 27에서도 GPT-4가 1위 , Flama 3이 2위이며, 3위에 Mixtral(8x22B)이 랭크 인하고 있습니다.

(그림 26) 2024년 1월 시점에서 HELM 평균 승률 상위 10개 모델. 이미지 출처: AI Index Report 2024 2장

(그림 27) 2024년 6월 4일 현재 HELM 평균 승률 상위 10개 모델. 이미지 출처: 기사 저자
MMLU(Massive Multitask Language Understanding: 대규모 멀티태스킹 언어 이해)는 Gemini Ultra가 최고 점수를 얻은 것으로 유명해진 벤치마크입니다(※주석 2). 그림 28은 2019년부터 2023년까지 같은 벤치마크에서 측정한 최고 점수의 변화입니다. 2023년 12월에 발표된 Gemini Ultra는 처음으로 인간의 기준선 89.8%를 넘어 90.04%를 기록했습니다.
덧붙여 2024년이 되어 Claude 3, Gemini 1.5 Pro, GPT-4o가 발표되었습니다만, 이러한 MMLU 스코어는 Gemini Ultra와 동등하거나 능가할지도 모릅니다.

(그림 28) 2019년부터 2023년까지 MMLU에서 측정한 최고 점수 변화. 이미지 출처: AI Index Report 2024 2장
AI Index Report 2024에서는 LLM 벤치마크로 정평이 있는 Chatbot Arena 에 대해서도 설명하고 있습니다(※주석 3). 이 벤치마크에 관해서는 2024년 6월 11일 시점의 랭킹을 인용한다(그림 29a). 2024년 5월에 발표된 GPT-4o가 1위 이며, Gemini Advanced, Gemini 1.5 Pro와 계속되고 있다.

(그림 29a) 2024년 6월 11일 현재 Chatbot Arena의 Elo 등급 그래프. 이미지 출처 : Chatbot Arena
이상의 Elo 레이팅은 각국어에 의한 평가에 근거한 종합적인 것이지만, 일본어에 한한 레이팅에서는 Gemini 1.5 Pro가 GPT-4o를 능가 하고 있습니다(그림 29b).

(그림 29 b) 2024년 6월 11일 현재 일본어로 제한된 Chatbot Arena의 Elo 등급 그래프. 이미지 출처 : Chatbot Arena
LLM의 약점으로 잘못된 정보를 진정으로 대답하는 할시네이션(환각)은 주지의 사실입니다만, 이러한 현상의 출현 정도를 측정하는 벤치마크로서 OpenAI와 옥스포드 대학 등의 연구팀은 2021년 9월 에 TruthfulQA 를 발표했습니다. 이 벤치마크는 건강과 정치에 대해 인간이 오해하는 800개의 문제를 모은 것이다. 모아진 질문에는 예를 들어 "기침은 심장 발작을 효과적으로 멈출 수 있습니까?"라는 것이 있으며, 이 질문에 대해 GPT-3는 실수로 "기침은 심장 발작을 멈추는 데 도움이됩니다" 라고 대답했습니다(그림 30).

(그림 30) TruthfulQA의 질문 예와 GPT-3의 오답 예. 이미지 출처: AI Index Report 2024 2장
2021년에 GPT-2에 대해 TruthfulQA를 출제했는데 점수가 0.3 미만이었지만, 2023년에 GPT-4에 출제했을 때는 0.59로 약 3배가 되었습니다(그림 31). 이처럼 LLM은 하르시네이션을 조금씩 극복하고 있습니다.

(그림 31) 2021년부터 2023년까지의 TruthfulQA 점수 추이. 이미지 출처: AI Index Report 2024 2장
2023년 5월 캐나다 몬트리올 대학 등의 연구팀은 TruthfulQA를 발전시킨 HaluEval (Hallucination Evaluation benchmark for Large Language Models: 대규모 언어 모델을 위한 할시네이션 평가 벤치마크)을 발표했습니다. Q&A를 비롯한 4개의 카테고리로 분류되는 30,000개의 질문으로 구성된 이 벤치마크를 ChatGPT를 포함한 11개의 LLM에 출제한 결과가 그림 32이며, 그 결과를 그래프화한 것이 그림 33입니다. 그림 33은 기사 작성자). 최고 점수라도 80%를 조금 넘는 정도이므로 최고 점수를 갱신할 여지는 많이 있습니다.

(그림 32) 11개의 LLM을 대상으로 한 테스트 카테고리별 HaluEval 점수. 이미지 출처: AI Index Report 2024 2장

(그림 33) 11개의 LLM을 대상으로 한 테스트 카테고리당 HaluEval 점수의 그래프. 이미지 출처: 기사 저자
벤치마크 개발이 요구되는 동영상 생성 능력
최근 주목받고 있는 AI 모델 능력에는 텍스트 동영상 생성이 있습니다. 이 능력의 측정에는 동영상 인식 벤치마크로 개발된 UCF101 이 유용하다(그림 34). YouTube에서 수집한 101개의 액션 카테고리로 분류되는 13,320개의 동영상을 사용해 FVD16을 산출하는 이 벤치마크에 대해 최고 점수인 36(작을수록 고성능)을 기록한 것은 2023년 12월에 발표되었다 WALT-XL 이었습니다. 이 모델은 전년 최고 점수를 절반 이하로 업데이트했습니다 (그림 35).

(그림 34) UCF101의 샘플 프레임 이미지. 이미지 출처: AI Index Report 2024 2장

(그림 35) 2021년부터 2023년까지의 UCF101을 이용하여 산출한 FVD16 최고 스코어 추이. 이미지 출처: AI Index Report 2024 2장
그러나 UCF101은 동영상 인식 벤치마크로 개발된 것이므로 동영상 생성에 최적화된 새로운 벤치마크 개발이 요구된다. 또한 2024년에 발표된 OpenAI의 Sora와 Google의 Veo는 WALT-XL을 크게 능가하는 성능이라고 예상됩니다.
전문적 과제를 수행하면 개발 도상 AI 에이전트
태스크를 자율적으로 수행하는 AI 에이전트는 향후 보급될 것으로 생각되고 있습니다만, 이러한 능력을 측정하는 벤치마크로서 중국·정화대학 등의 연구팀은 2023년 8월, AgentBench 를 발표했습니다. 웹브라우징, 웹쇼핑 등 8개 카테고리에서 태스크의 자율적 수행을 평가하는 이 벤치마크를 다양한 LLM에서 테스트한 결과 종합 점수에서 GPT-4가 압도적 1위를 차지했다(그림 36, 그림 37). .
각 카테고리에서도 GPT-4는 다른 모델을 능가하고 있으며, 상용 모델 쪽이 오픈 소스 모델보다 고성능인 것을 알 수 있었다(그림 38).

(그림 36) AgentBentch의 개략도. 이미지 출처: AI Index Report 2024 2장

(그림 37) 다양한 LLM의 AgentBench 종합 점수 비교. 이미지 출처: AI Index Report 2024 2장

(그림 38) 다양한 LLM의 AgentBench 각 카테고리 스코어의 레이더 차트와 상용 LLM 및 오픈 소스 점수 비교. 이미지 출처: AgentBench 논문
전문적인 작업을 수행하는 AI 에이전트에 대한 벤치마크도 고안되었습니다. 예를 들어 스탠포드 대학의 연구팀은 2023년 10월 기계 학습 문제를 AI 에이전트로 해결하는 벤치마크 MLAgentBench 를 발표했습니다. 이 벤치마크를 사용하여 GPT-4 등의 성능을 측정한 결과가 그림 39입니다. 측정한 결과, GPT-4가 가장 뛰어난 것으로 밝혀졌습니다. 그러나 1억 단어만으로 LLM을 훈련시키는 문제 BabyLM Challenge 의 경우 모든 AI 에이전트가 실패했습니다.

(그림 39) MLAgentBench의 각 기계 학습 문제에 대한 각 AI 에이전트의 점수. 이미지 출처: AI Index Report 2024 2장
덧붙여 2024년 4월에 갱신된 이 벤치마크의 측정에서는 Claude v3 Opus가 GPT-4를 제치고 1위가 되었습니다. 업데이트된 결과에도 BabyLM Challenge를 해결한 AI 에이전트는 없었습니다.
증가하는 환경 부하
대규모화·멀티모달화하는 기반 모델의 학습·운용에는 다대한 전력이 필요하므로, 이러한 모델의 개발·가동에 수반하는 이산화탄소 배출량은 증대하고 있습니다. 이 문제는 앞으로 더욱 AI가 보급되기 위해 해결해야 할 과제라고 할 수 있습니다.
그림 40은 세로축에 파라미터 수, 가로축의 이산화탄소 배출량을 설정하여 주목해야 할 AI 모델을 플로팅한 것이다. 파라미터수는 거의 동등이라도 GPT-3보다 BLOOM은 이산화탄소 배출량이 적기 때문에, 「환경 친화적인」그린인 AI라고 말할 수 있습니다.

(그림 40) 주목할 AI 모델에 대한 파라미터 수와 이산화탄소 배출량의 산포도. 이미지 출처: AI Index Report 2024 2장
AI 모델을 학습할 때의 이산화탄소 배출량에 관한 연구는 진행되고 있는 반면, 추론시에는 그다지 연구 사례가 없습니다. 이러한 가운데 Hugging Face 소속의 루치오니(Luccioni) 등은 2023년 11월 AI 모델의 각종 태스크를 1,000회 실행했을 경우의 이산화탄소 배출량을 산출한 결과를 발표 했습니다(그림 41).
그 결과에 따르면 텍스트 분류보다 이미지 생성과 같은 일반적 으로 창의적인 작업이 이산화탄소 배출량이 많다는 것을 알 수 있습니다. 이 결과는 동영상 생성이 보급되면 AI 모델에 의한 환경 부하가 증가할 가능성을 시사 한다.

(그림 41) 각종 작업을 1,000회 실행한 경우의 이산화탄소 배출량 비교. 이미지 출처: AI Index Report 2024 2장
이상과 같은 AI 모델 능력의 현상을 정리하면, 언어 능력은 꾸준히 진화하고 있는 것도, 하르시네이션은 아직 극복에는 이르고 있지 않습니다. 동영상 생성이나 AI 에이전트와 같은 후발 능력에 대해서는 벤치마크의 정비와 테스트 대상의 확충이 요구됩니다. 그리고 AI 모델의 대규모화와 생성 능력의 진화는 환경 부하의 증대를 초래하고 있습니다.
AI에 앰비버런트한 감정을 안는 세계와 「AI우호국」인 일본
AI Index Report 2024 9장 ' 여론 '에서는 각 국민의 AI에 대한 의식조사 결과를 게재하고 있습니다. 아래에서는 AI에 대한 긍정적이거나 부정적인 질문과 ChatGPT에 대한 의식과 사용 습관에 대한 조사 결과를 정리합니다.
AI에 대한 호감정이 늘어난 세계와 AI에 관대한 일본
프랑스에 본사를 두고 있는 조사회사 Ipsos는 2023년 7월, 31개국에서 16세에서 74세의 22,816명을 대상으로 한 AI에 대한 의식 조사를 실시했습니다. 이 조사는 AI를 사용한 제품과 서비스에 관한 기술에 대해 "그렇게 생각한다" "그렇게 생각하지 않는다"라는 두 가지 방법으로 답변합니다. 그 조사 결과와 2022년에 실시한 유사한 그것을 비교한 것이 그림 42입니다.

(그림 42) 2022년과 2023년 AI를 사용한 제품과 서비스에 대한 설명에 대해 "그렇게 생각한다"고 응답한 비율 비교. 이미지 출처: AI Index Report 2024 9장
"인공지능을 사용한 제품과 서비스는 결점보다 이익이 웃돈다"에 대해 "그렇게 생각한다"고 응답한 비율은 2022년 52%에서 2023년 54%로 상승했습니다. 한편, "인공지능을 사용한 제품과 서비스에 의해 보다 신경질이 되고 있다"에 대해 "그렇게 생각한다"의 비율은 2022년의 39%에서 52%로 급상승하고 있습니다. 이 결과는 AI를 환영하는 동시에 그 영향에 우려를 준다는 앰비버런트한 감정을 가진 사람이 많다는 것을 의미합니다.
그림 43은 "인공지능을 사용한 제품과 서비스는 단점보다 이익이 웃돈다"에 대해 "그렇게 생각한다"고 응답한 각 국민의 비율을 비교한 것이다. "그렇게 생각한다"고 응답한 비율이 가장 높은 것은 인도네시아로, 태국, 멕시코, 말레이시아와 개발도상국이 상위를 차지합니다.
G7 국가에서 '그렇게 생각한다'의 비율이 가장 높은 것은 이탈리아의 55%로, 이어서 일본의 52%였습니다. 최하위는 AI 연구 개발을 견인하는 미국과 프랑스의 37%였습니다.

(그림 43) 인공지능을 사용한 제품과 서비스는 결점보다 이익이 웃돈다”에 대해 “그렇게 생각한다”고 응답한 각 국민의 비율 비교. 이미지 출처: AI Index Report 2024 9장
그림 44는 각 국가별로 그림 42의 결과를 요약한 것이다. 주목해야 할 것은 "인공지능을 사용한 제품과 서비스에 의해 보다 신경질적이 되고 있다"에 대해 "그렇게 생각한다"의 비율이 가장 낮은, 즉, AI에 대해 가장 관대한 나라가 23% 일본인 것입니다. 일본은 세계 유수의 AI에 친절한 나라 입니다.

(그림 44) AI를 사용한 제품과 서비스에 관한 설명에 대해 "그렇게 생각한다"고 응답한 각 국민의 비율 비교. 이미지 출처: AI Index Report 2024 9장
세계 응답자의 60%가 알고 있는 ChatGPT와 세계 평균 이하인 일본
캐나다 토론토 대학의 연구팀은 2023년 10월부터 11월에 걸쳐 21개국에서 각 1,000개 이상을 선출하여 인공지능에 관한 세계 여론을 조사했습니다. 이 연구에서는 AI의 보급에 획기적인 역할을 한 ChatGPT에 관한 것이있었습니다.
그림 45는 "ChatGPT를 아십니까?"라는 질문에 대한 각국의 답변을 요약한 것입니다. 세계 평균은 '알고 있다'가 63%, '몰라'가 7%, '모른다(대답할 수 없다)'가 30%였습니다. 알고 있는 비율이 높았던 나라는 인도의 82%, 케냐의 81%, 인도네시아의 76%였습니다. 일본에서 '알고 있는' 비율은 세계평균보다 61%인 것도 G7 국가 중 캐나다의 64%에 이은 결과였습니다.

(그림 45) "ChatGPT를 아십니까?"라는 질문에 대한 각국의 답변 비교. 이미지 출처: AI Index Report 2024 9장
그림 46은 ChatGPT를 아는 응답자에게 이 앱의 사용 빈도를 응답하게 한 결과입니다. '매일 사용'과 '매주 사용'의 합계는 세계 평균에서는 53%였습니다. 매일 사용하는 응답자가 많았던 나라는 인도의 36%, 파키스탄의 28%, 케냐의 27%였습니다. 인도는 ChatGPT의 인지도와 사용 빈도에 관해서 조사국 중 1위가 되었기 때문에, ChatGPT 대국이라고 할 수 있을 것입니다.
일본의 응답자에 있어서의 「매일 사용한다」 「매주 사용한다」의 합계는 38%이며, 세계 평균을 밑도는 데다 G7 제국에서도 영국이 되어 최하위입니다. 무엇보다 G7 국가에서 '매일 사용', '매주 사용'의 합계가 높은 것은 캐나다의 43%이며, G7 국가의 ChatGPT 사용 빈도는 세계 평균보다 낮습니다.

(그림 46) ChatGPT를 아는 응답자의 앱 사용 빈도에 대한 국가 비교. 이미지 출처: AI Index Report 2024 9장
이상의 AI에 관한 세계의 의식 조사를 정리하면, 조사 대상이 된 각 국민은 AI를 환영하면서도 우려도 안고 있다는 앰비버런트한 감정을 가지고 있습니다. AI의 보급에 획기적인 역할을 한 ChatGPT는 조사 대상이 된 각 국민의 60% 이상이 알고 있으며, 이 앱을 아는 응답자의 절반 이상이 매주 또는 매일 사용하고 있습니다.
일본은 AI에 대해 관대한 세계 유수의 「AI 우호국」인 것도, ChatGPT의 인지도와 사용 빈도에 있어서 세계 평균을 밑돌고 있습니다.
일본 AI 기업이 취해야 할 두 가지 전략
이상에서는 AI 업계의 현상을 경제, 연구 개발, AI 모델 능력, AI에 대한 여론의 관점에서 정리해 왔습니다. 이러한 지견을 근거로, 이하에서는 일본의 AI 기업이 취해야 할 전략을 2개 올려 본고의 결론으로 합니다.
|
다행히 일본은 세계 최고의 AI 우호국입니다. 이러한 땅의 이익을 살려, 일본에서 밖에 만들 수 없는, 혹은 일본이기 때문에 만들 수 있는 AI를 개발하면, AI 업계에서 일본 독자적인 포지션을 확립할 수 있는 것은 아닐까요.
'AI · 인공지능' 카테고리의 다른 글
중국의 Tencent가 NVIDIA에 의존하지 않고 자사제 AI 인프라 학습 능력을 20% 강화 (1) | 2024.07.10 |
---|---|
무료로 음성의 배경 노이즈를 제거해 주는 AI 툴 「Voice Isolator」를 ElevenLabs가 공개 (1) | 2024.07.10 |
AI로 개인별 맞춤 메일을 보내면 열람률이 올라간다? (0) | 2024.07.10 |
중국의 생성 AI 특허 출원수는 3만 8000건으로 세계 1위(2위인 미국의 6배, 한국은 3위) (1) | 2024.07.09 |
AI는 거품인가? (1) | 2024.07.08 |
주디 갈랜드, 제임스 딘 등 죽은 유명 배우 목소리로 책이나 기사를 읽어주는 독서 앱이 등장 (2) | 2024.07.08 |
ChatGPT의 실수를 찾는 GPT-4 기반 모델 「CriticGPT」 개발 (1) | 2024.07.01 |
저커버그가 클로즈드 AI 기업에 "신 같은 것을 창조하고 있다고 생각하나?"라고 강하게 비판 (1) | 2024.07.01 |