본문 바로가기
트렌드 이슈 · 토픽

Google에서 데이터셋 검색이 가능한 'Dataset Search'를 정식 공개

by 두우우부 2020. 1. 23.
반응형

머신러닝 알고리즘을 구축하는 데 있어서 중요한 것이 '데이터셋'입니다. 알고리즘의 정확도를 높이기 위해서는 더 많은 데이터와 시간이 요구되지만 충분히 큰 데이터셋을 모으거나 찾거나 하는 것은 머신러닝을 실시하는 데 있어 특히 고생하는 포인트입니다. 그런 데이터셋을 온라인으로 검색할 수 있는 'Dataset Search'의 정식판을 Google이 공개하였습니다.

Dataset Search

 

Dataset Search

예시 boston education data또는weather site:noaa.gov

datasetsearch.research.google.com

Discovering millions of datasets on the web

 

Discovering millions of datasets on the web

Dataset Search launches publicly with an index of 25 million datasets, helping scientists, journalists, students, data geeks to find data.

blog.google


시험삼아 "seoul(서울)"이라는 단어를 검색하면...

 


왼쪽 열에는 검색 결과가, 오른쪽 칼럼에는 선택한 검색 결과에 대한 자세한 정보가 표시됩니다. 예를 들어, 검색 결과에서 "Most expensive areas to live Seoul South Korea 2019"를 선택했는데 오른쪽 칼럼은 페이지 링크와 데이터셋의 제공자, 적용 기간, 적용 영역 등이 표시되고 있습니다. 검색결과에 따라서는 작성자, 라이선스, 다운로드 형식, 데이터셋의 기간 및 대상 지역 등의 정보를 함께 보여줍니다.

 

페이지 링크를 클릭하면 데이터셋의 배포 페이지로 이동합니다.

 

데이터셋의 배포 페이지 예시

 

또한 'Dataset Search'는 한국어로도 검색이 가능하지만 검색 결과에 데이터셋이 아닌 단순한 데이터베이스 및 포털 사이트가 표시될 수 있습니다. 예를 들어 '병원'으로 검색해 보았습니다만, 검색 결과 상위를 차지한 것은 데이터베이스와 포털 사이트 링크였습니다.

 


Google의 연구자인 나타샤 노이(natasha noy)씨에 따르면 Dataset Search는 2020년 1월 23일부터 약 1년간 지속해온 베타 테스트를 정식으로 마쳤습니다. 베타 테스트의 피드백으로 Dataset Search의 정식 버전에서는 데이터셋의 업데이트 일자, 다운로드 형식, 라이선스, 무료 사용 가능 여부 등 데이터 필터링 기능을 추가했습니다. 또한 데이터셋이 지리정보에 관련된 경우 Google지도와 연계하여 지도가 표시되기도 합니다.

 

 

노이 씨에 따르면 Dataset Search는 이미 베타 버전이 아닌 정식 버전으로 출시되었지만, 시스템의 개선은 계속해서 진행될 예정이라고 합니다.

반응형