머신러닝 알고리즘을 구축하는 데 있어서 중요한 것이 '데이터셋'입니다. 알고리즘의 정확도를 높이기 위해서는 더 많은 데이터와 시간이 요구되지만 충분히 큰 데이터셋을 모으거나 찾거나 하는 것은 머신러닝을 실시하는 데 있어 특히 고생하는 포인트입니다. 그런 데이터셋을 온라인으로 검색할 수 있는 'Dataset Search'의 정식판을 Google이 공개하였습니다.
Dataset Search
Discovering millions of datasets on the web
시험삼아 "seoul(서울)"이라는 단어를 검색하면...
왼쪽 열에는 검색 결과가, 오른쪽 칼럼에는 선택한 검색 결과에 대한 자세한 정보가 표시됩니다. 예를 들어, 검색 결과에서 "Most expensive areas to live Seoul South Korea 2019"를 선택했는데 오른쪽 칼럼은 페이지 링크와 데이터셋의 제공자, 적용 기간, 적용 영역 등이 표시되고 있습니다. 검색결과에 따라서는 작성자, 라이선스, 다운로드 형식, 데이터셋의 기간 및 대상 지역 등의 정보를 함께 보여줍니다.
페이지 링크를 클릭하면 데이터셋의 배포 페이지로 이동합니다.
또한 'Dataset Search'는 한국어로도 검색이 가능하지만 검색 결과에 데이터셋이 아닌 단순한 데이터베이스 및 포털 사이트가 표시될 수 있습니다. 예를 들어 '병원'으로 검색해 보았습니다만, 검색 결과 상위를 차지한 것은 데이터베이스와 포털 사이트 링크였습니다.
Google의 연구자인 나타샤 노이(natasha noy)씨에 따르면 Dataset Search는 2020년 1월 23일부터 약 1년간 지속해온 베타 테스트를 정식으로 마쳤습니다. 베타 테스트의 피드백으로 Dataset Search의 정식 버전에서는 데이터셋의 업데이트 일자, 다운로드 형식, 라이선스, 무료 사용 가능 여부 등 데이터 필터링 기능을 추가했습니다. 또한 데이터셋이 지리정보에 관련된 경우 Google지도와 연계하여 지도가 표시되기도 합니다.
노이 씨에 따르면 Dataset Search는 이미 베타 버전이 아닌 정식 버전으로 출시되었지만, 시스템의 개선은 계속해서 진행될 예정이라고 합니다.
'트렌드 이슈 · 토픽' 카테고리의 다른 글
신종 코로나 바이러스 유행으로 레스토랑이 받은 타격을 그래프로 (0) | 2020.03.17 |
---|---|
코로나 바이러스가 기하 급수적으로 유행할 가능성을 시사 (0) | 2020.03.10 |
신종 코로나 바이러스의 치사율은 2.3%로 80%이상은 가벼운 증상, 그러나 나이에 따라 크게 차이나는 것으로 밝혀져 (0) | 2020.02.22 |
운동 장애를 가진 딸을 위해 Nintendo Switch용 컨트롤러를 만든 아빠가 딸의 최고의 미소를 얻다 (0) | 2020.02.20 |
두바이에 3D프린터로 만든 세계 최대의 집 완성 (0) | 2020.02.16 |
채혈시 주사 바늘을 다시 찌를 일 없는 '채혈 로봇'이 등장 (0) | 2020.02.09 |
가짜 '좋아요'가 대량 생산되는 뒷면을 폭로, 조사 결과 공개 중 (0) | 2020.01.10 |
방사성 물질을 이용한 양자 난수 생성기 등장 (0) | 2020.01.05 |