본문 바로가기
AI · 인공지능/AI 뉴스

Microsoft Research가 생물의학 분야에 특화한 AI「BioGPT」를 개발

by 두우우부 2023. 2. 3.
반응형

 

현대과학은 지금까지 축적된 대량의 과학적 지식 위에 성립되어 있어 방대한 양의 선행 연구로부터 중요한 정보를 끌어내는 것이 매우 중요합니다. 그래서 컴퓨터 과학 연구소인 Microsoft Research의 팀이 방대한 양의 의학 문헌으로 훈련되고 생물 의학 분야의 질문에 대답하는 작업에 특화된 AI "BioGPT"를 개발했습니다.

[2210.10341] BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining
https://arxiv.org/abs/2210.10341

 

BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining

Pre-trained language models have attracted increasing attention in the biomedical domain, inspired by their great success in the general natural language domain. Among the two main branches of pre-trained language models in the general language domain, i.e

arxiv.org


GitHub - microsoft/BioGPT
https://github.com/microsoft/BioGPT

 

GitHub - microsoft/BioGPT

Contribute to microsoft/BioGPT development by creating an account on GitHub.

github.com

 

이전부터 연구자들은 방대한 의학 문헌 중에서 적절한 지견을 효율적으로 이끌어 내기 위해서는 '사전에 훈련된 언어 모델이 유용하지 않을까'라고 생각하고 있었습니다. 그러나 일반 언어 모델을 그대로 생물 의학 분야에 적용했을 때의 정밀도는 충분하지 않았기 때문에, 「의학 문헌으로 언어 모델을 트레이닝한다」라는 기법이 고안되어 지금까지 「BioBERT」나 「PubMedBERT」등 생물 의학 분야에 특화된 사전 훈련된 언어 모델이 개발되었습니다.

 

BioGPT, a domain-specific generative model pre-trained on large-scale biomedical literature, has achieved human parity, outperformed other general and scientific LLMs, and could empower biologists in various scenarios of scientific discovery. Learn more: https://t.co/rWokasnQu1

— Microsoft Research (@MSFTResearch)

 


BioBERT와 PubMedBERT는 구글이 개발한 문맥 이해가 뛰어난 자연언어 처리 모델 "BERT"를 기반으로 했지만, 보다 생성 작업이 뛰어난 OpenAI의 GPT 모델의 생물의학 분야에서의 성능은 아직도 조사된 바가 없다는 것. 따라서 Microsoft Research의 연구팀은 2019년에 발표된 GPT-2를 바탕으로 광범위한 생물의학 문헌으로 훈련한 언어 모델을 개발하기로 했습니다.


연구팀은 생물의학 분야에 특화된 언어 모델을 개발함에 있어서, 생물의학에 관한 학술문헌의 검색엔진 · PubMed의 데이터베이스로부터, 2021년 이전에 발표된 영어 논문을 텍스트 베이스로 수집했습니다. 이에 의해 얻은 타이틀과 요약을 포함한 1,500만 건의 콘텐츠를 데이터 세트로 하여 AI 트레이닝용 GPU의 Nvidia V100 GPU를 8대 사용하여 20만 스텝의 사전 트레이닝을 실시해, 그 후 1대의 Nvidia V100 GPU에서 32 스텝의 미세 조정을 실시했다고 합니다. 다음으로 엔드 투 엔드의 관계 추출이나 텍스트 생성, 질의응답, 문서의 분류 등 태스크용의 3억 7500만의 파라미터를 사용해, 모델을 개량했다고 합니다.

이와 같이 개발된 생물의학 분야에 특화된 AI가 'BioGPT'이며, 생물의학 분야의 질문에 대한 답변이나 엔드 투 엔드의 관계 추출에 있어서, BERT 기반의 과거 모델보다 우수하다고 연구팀은 주장하고 있습니다. 연구팀이 BioGPT에 질문문을 입력하여 생성된 문장의 예가 아래와 같습니다.

Input(입력):
The treatment of COVID-19( 코로나 COVID-19의 치료)

Output BioGPT:
The treatment of COVID-19 with remdesivir (remdesivir for COVID-19) has been approved by the US Food and Drug Administration (FDA) for the treatment of severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) infection in patients with confirmed SARS-CoV-2 infection and is currently being evaluated in clinical trials for the treatment of COVID-19 in patients with confirmed SARS-CoV-2 infection, as well as in patients with suspected or confirmed SARS-CoV-2 infection.

BioGPT의 출력:
렘데시비르에 의한 COVID-19의 치료는 SARS-CoV-2의 감염이 확인된 환자에서 중증 급성 호흡기 증후군 코로나바이러스 2의 치료법으로서 미국 식품의약국(FDA)에 승인되고 있습니다. 현재는 COVID-19의 치료법으로서 SARS-CoV-2의 감염 의심이 확인된 환자에게 투여하고, 임상시험에서 평가를 실시하고 있습니다.


또한 BioGPT는 PubMed가 제공하는 데이터 세트 'PubMedQA'의 벤치마크에서 78.2%의 정확도를 획득하여 인간 전문가의 성능인 78%를 웃돌았습니다. 또, BioGPT를 이용 가능한 최대의 GPT-2 아키텍처에 스케일 업한 「BioGPTLarge」는, 랭킹 1위가 되는 81%의 정밀도를 기록하고 있습니다.

 


BioGPTLarge의 파라미터 수는 15억 개이며, 5,400억 개의 파라미터 수를 가지는 「Flan-PaLM」이나 1,200억 개의 파라미터를 가지는 「Galactica」에 비하면 현저하게 적습니다. AI 관련 웹 미디어인 The Decofer는 이번 결과에 대해 비교적 소규모이면서도 특정 분야에 특화된 언어 모델이 훨씬 더 큰 일반 언어 모델과 충분히 경쟁할 수 있음을 보여준다."라고 말했습니다.

반응형