3개의 요점
✔️ 신종 코로나 바이러스의 의료 이미지 데이터 세트 공개
✔️ 흉부 X선 사진과 그에 따른 메타 데이터 존재
✔️ 이미 Github에 공개
COVID-19 Image Data Collection
written by Joseph Paul Cohen, Paul Morrison, Lan Dao(Submitted on 25 Mar 2020)
Comments : accepted by arXiv
Subjects : Image and Video Processing (eess.IV); Computer Vision and Pattern Recognition (cs.CV ); Machine Learning (cs.LG); Quantitative Methods (q-bio.QM)
무려! 신종 코로나 바이러스에 대한 의료 영상 데이터 세트가 공개되었습니다!
공개된 데이터 세트는 여기입니다.
요약
요즘 신종 코로나 바이러스(이하 COVID-19) 판데믹 중에, 진단의 합리화는 중요합니다. 그리고, 진단 및 치료법을 개발하기 위해서는 데이터가 필수적입니다. 지금까지도 흉부 X선의 대규모 데이터 세트는 존재했지만 COVID-19의 흉부 X선 사진이나 CT 스캔 이미지 데이터 세트는 존재하지 않았습니다.
이 논문은 처음으로 COVID-19의 오픈 이미지 데이터 세트를 소개합니다. 이 데이터 세트는 환자의 비밀을 침해하지 않도록 공적 정보원으로부터 수집하여 작성되었으며, 현재 123개의 정면 X선 사진이 있습니다(라고 논문에 적혀 있지만, 수시로 추가되고 있기 때문에 현재의 데이터량은 더 많을 것입니다).
이 데이터 세트에 의해 COVID-19의 식별이 극적으로 개선될 수 있다고 생각됩니다. 전이 학습을 사용하는 등, 딥러닝 기반으로 훈련하고 테스트하기 위한 중요한 데이터가 될 것으로 생각됩니다.
데이터 세트의 설명
데이터 세트에는 아래와 같은 사진(Figure 1)이 포함되어 있습니다. 이 4장의 사진은 모두 같은 환자(55세 여성)의 이미지입니다. 이렇게 한 사람의 진행 상태를 볼 수 있습니다.
또한 이와 관련된 메타 데이터가 있습니다. 메타 데이터의 내용은 다음과 같습니다.
특성 | 설명 |
Patient ID | 환자의 ID |
Offset | 증상이 시작된 일수. 또는 입원 이후의 일수. ("after a few days" = 5일로 간주) |
Sex | M : 남자, F : 여자, 미기입 |
Age | 나이 |
Finding | 폐렴의 종류 |
Survival | 살아남았는지 여부 |
View | 촬영시 흉부의 방향 |
Modality | X선 사진 또는 CT영상 또는 그 외 기타 |
Date | 이미지가 캡처된 날짜 |
Location | 병원 이름, 도시, 주, 국가 |
Filename | 확장자가 붙은 파일명 |
doi | 연구 논문의 디지털 오브젝트 식별자 (DOI) |
url | 이미지 원본의 Web사이트나 논문의 URL |
License | CC BY-NC-SA 같은 이미지 라이센스. 모르는 경우엔 미기입. |
Clinical notes | 이미지와 환자에 대한 임상 노트 |
other notes | 크레딧 등의 정보 |
또한 2020년 3월 25일 자의 데이터 세트의 통계는 다음과 같습니다. COVID-19에 관한 데이터가 많아서, 상당히 불균형스러운 데이터가 되고 있다는 것을 알 수 있습니다.
연령, 증상 또는 입원 기간, 성별의 히스토그램은 다음과 같이 되어 있습니다. 나이는 고령자의 데이터가 많고, 일수는 5 일 정도, 성별은 남성이 조금 많습니다. Figure 제목이 "각 정면에서의 X선 사진 인구 통계"라고만 쓰여있기 때문에 이것은 COVID-19 이외에도 포함한 모든 데이터에 대한 히스토그램임을 주의할 필요가 있습니다.
용도
논문에 이 데이터 세트의 용도에 대하여 언급되어 있습니다. 주로 아래의 두 가지 연구를 하는 데 사용할 수 있습니다.
1. COVID-19의 진행 예측
2. COVID-19의 방사선 소견이 다른 폐렴과 어떻게 다른가
지금까지의 흉부 X선 이미지 데이터 세트로는 Chest Xray14(Wang et al., 2017) 등이 유명합니다. 그것뿐만 아니라 이 데이터 세트는 폐렴의 유형을 예측할 뿐만 아니라 그 결과를 예측하는 작업으로도 사용할 수 있습니다.
과거에 존재했던 데이터 세트를 이용한 응용의 예를 소개합니다.
중합 효소 연쇄 반응 검사 (RCT 테스트)가 부족한 상황에서 환자의 심사(우선순위를 결정하는 작업)를 하기 위한 도구를 구축하는 데 사용된 사례가 있습니다.
(Satyanarayana 2020; Kelly Geraldine Malone, 2020) 이러한 도구는 생존 확률 등의 환자의 결과를 예측하고 의사가 특정 환자에 대해 사전에 계획하고 관리하는 것을 용이하게 합니다. 또한 의사가 '어느 환자에게 의료 자원을 할당할 것인가'라는 매우 어려운 결정을 해야 하는 상황에서 이러한 도구는 하나의 '저울'이 되어 줄 것입니다. 또한 이러한 도구는 COVID-19의 발병 환자의 진행 상태를 추적할 수 있습니다. COVID-19의 분석으로 질병의 역학을 더 이해하고 치료를 보다 효율적으로 수행하기 위해서 매우 도움이 된다고 생각하고 있습니다.
실험
데이터 세트가 놓여있는 Github 저장소의 README에서 initial results라는 제목으로 간단한 실험 결과가 나와 있습니다. 실험의 내용은 사전 학습된 네트워크 이미지를 입력했을 때의 특징량을 UMAP(차원 압축 기법)을 이용하여 2차원 공간에 그린 것입니다. 결과는 아래 그림과 같습니다. 라벨에 의해 어느 정도 모여지고 있습니다만, 그렇게 깔끔하게 분리되지는 않는 것 같습니다.
마치며
논문에서는 COVID-19의 식별을 극적으로 개선하기 위해 이 데이터 세트가 중요한 기여를 할 것으로 생각하고 있습니다. 꼭 여러분들도 이 데이터 세트를 사용하여 보십시오!
'AI · 인공지능 > AI 칼럼' 카테고리의 다른 글
완전 비지도 학습으로 라벨링과 특징 표현을 모두 스스로 학습하는 'SeLa' (0) | 2020.05.10 |
---|---|
'모르겠다'를 아는 AI, 적은 자원의 환경에서 미학습 도메인을 감지! (0) | 2020.04.20 |
한 줄의 코드로 자동학습! 머신러닝을 자동화하는 AutoML (2) | 2020.04.12 |
AI는 인간의 발견을 손쉽게 발견했다, 진화적 검색 알고리즘 (0) | 2020.04.09 |
구글이 양자 머신러닝 라이브러리 'TensorFlow Quantum'을 공개 (0) | 2020.03.08 |
AI는 판타지 세계에서 롤 플레잉이 가능할까? (0) | 2020.03.07 |
GAN이 생성한 데이터는 무엇? (0) | 2020.03.01 |
AI가 애니메이션을 고화질로 변환, HD는 4K로, 풀HD는 8K로 (0) | 2020.02.19 |