본문 바로가기
AI · 인공지능/AI 칼럼

Kaggle 그랜드 마스터에게 들어 봤다

by 두우우부 2021. 3. 3.
반응형

저자인 Parul Pandey 씨는 세계 각지에 거점이 있는 AI 스타트업 H2O.ai의 데이터 사이언스 책임자를 맡고 있습니다. 그는 최근 Medium에 투고한 기사에서 H2O.ai 소속 Kaggle 그랜드 마스터에게 Kaggle의 대처 방법에 대해 인터뷰했습니다.


데이터 과학자인 Philipp Singer 씨는 오스트리아 그라츠 공과 대학에서 박사학위를 받은 후, 자신의 지식을 적용할 기회를 찾고 데이터 과학 업계에 들어갔습니다. 그가 Kaggle을 시작한 것은 단순한 정보 수집이 계기였지만, 우수한 성적을 거두며 Kaggle에 열중했습니다. 그런 그의 Kaggle 작업법 및 Kaggle에서 배운 요점을 정리하면 다음과 같습니다.

 

  • Kaggle의 필승법은 없지만, 다양한 공모전에서 사용할 수 있는 노하우를 정리한 범용 도구 상자를 작성했다.
  • Kaggle 대회에 임할 때는, 유사한 과제에 대한 해결책이나 논문을 조사하면서 모델을 개발한다.
  • Kaggle을 통해 오버 피팅의 영향을 별로 받지 않는 튼튼한 모델의 개발 노하우를 습득할 수 있다.
  • Kaggle 대회에서 사용되는 기술을 팔로우하다 보면 최신 기술을 항상 접한다. 또한, 새로운 기술이 Kaggle에서 계속 사용된다면 그 기술은 튼튼하고 오래 사용 가능하다고 판단할 수 있다.
  • 최신 기술을 유지하려면, Kaggle 외에도 유명 연구자나 개발자들의 twitter 등을 팔로우하는 것이 좋다.

 

Philipp Singer와의 대담 : 그는 데이터 과학자, Kaggle 더블 그랜드 마스터, 컴퓨터과학 박사학위 소지자이다.

 

이 인터뷰는, Kaggle의 그랜드 마스터로서 H2O.ai 에서 활약하고 있는 데이터 과학자들과의 이야기를 소개하고, 그들의 발자취와 인스피레이션을 공유하고 있습니다. 이 인터뷰는 Kaggle 그랜드 마스터가 되기 위해서는 무엇이 필요한지 알고자 하는 사람들의 동기 부여 및 격려를 목적으로 합니다.

 

 

Home - Open Source Leader in AI and ML

H2O.ai is the creator of H2O the leading open source machine learning and artificial intelligence platform trusted by data scientists across 14K enterprises globally. Our vision is to democratize intelligence for everyone with our award winning “AI to do

www.h2o.ai

 

Kaggle의 세계에서 Philipp Singer 씨는 Psi로 널리 알려져 있습니다. 그는 Kaggle 더블 그랜드 마스터이며, H2O.ai의 수석 데이터 과학자입니다. 그는 그라츠 공과대학(1811 년에 설립된 오스트리아 최고의 공과 대학)에서 컴퓨터과학 박사 학위를 우수한 성적으로 취득하고, 소프트웨어 개발 및 경영학 석사과정을 수료했습니다.

 

 

TU Graz

Wir sind eine leistungsorientierte Gemeinschaft und arbeiten in einer offenen und innovationsorientierten Atmosphäre der intellektuellen Freiheit und Verantwortung.

www.tugraz.at

 

Philipp은 Kaggle에서 다수의 승리를 하였고, 여러 번 상위권에 입상하였으며, 유명한 World Wide Web Conference에서 최우수 논문상 등 과학적인 영예를 포함한 여러 실적이 있습니다. 그는 현재 Kaggle의 경쟁에서 세계 3위를 기록하고 있으며, 이러한 실적은 매우 인상적이며, 동시에 Kaggle 참가자들을 고무시키는 일입니다.

 

 

International World Wide Web Conference | International World Wide Web Conference

 

www.www2015.it

 

Philipp의 가장 주목할만한 업적 중 하나는 NFL의 제2회 연례 Big Data Bowl공모(※ 역주 1)에서 동료 H2O.ai 데이터 과학자인 Dmitry Gordeev와 팀을 이뤄 우승한 것입니다. 전 세계에서 모인 2,000명 이상의 데이터 과학자가 Kaggle NFL Big Data Bowl에서 런 플레이 결과를 예측하고 경쟁했습니다. Philipp과 Dmitry Gordeev는 과제에 대하여 독자적인 접근을 하여 5만 달러의 상금을 획득했습니다(※ 역주 2).

 

(※ 역주 1) NFL Big Data Bowl
미국의 프로 미식축구리그인 NFL이 출제한 Kaggle 공모이다. 기간은 2019.10.09 ~ 2020.01.06 동안 개최되어, 상금은 75,000달러(약 8,500만 원)였다. 그 내용은 미식축구의 공격 전술 중 하나인 런 플레이(쿼터백으로부터 볼을 받아 골을 향해 달리는 플레이)의 획득 거리를 예측하는 모델을 개발하는 것이었다. 제공된 미식축구의 시합 데이터에는 공을 보유하고 있는 선수의 필드에서의 위치, 몸의 방향, 이동 속도 등이 포함되어 있었다.
(※ 역주 2)
Philipp와 Dmitry는 제공된 경기에 포함된 특징량을 다음과 같은 세 가지 범주로 나누었다.
1. 공을 보유한 선수의 신체 방향 데이터
2. 볼 보유 선수의 전진을 저지하기 위해 방어하는 상대 팀 선수들의 위치 데이터.
3. 볼 보유 선수를 수비하는 상대팀 선수들을 블록킹 하는 같은 팀 공격 측 선수들의 위치 데이터.
이상의 데이터 그룹에 대해 CNN을 사용하여 특징을 추출하여 예측 모델을 작성했다(아래의 모델 개략도 참고).

 

 

인디애나 폴리스에서 강연 2019~20 Big Data Bowl 우승자 Philipp Singer 씨와 Dmitry Gordeev 씨

 

이 인터뷰에서 자신의 학력, Kaggle에 대한 열정, 그리고 데이터 과학자로서의 일에 대한 사항을 자세히 알 수 있습니다. 다음은 Philipp과의 대화에서 발췌한 것입니다.

 

당신은 컴퓨터과학 박사 학위를 소지하고 있군요. 학술 연구에 집중하는 것이 아니라 직업으로 데이터 과학을 선택한 이유는?

Philipp : 오스트리아 그라츠 공과 대학에서 컴퓨터과학 박사 학위를 취득하고 독일에서 연구원으로 일했습니다. 학술적인 경력 위에 다양한 데이터 과학을 접해, 유명한 학회나 저널에 많은 논문과 기사를 발표했습니다. 그러한 경력의 다음 단계는 교수직이라고 생각했습니다. 실제로 교수직은 매우 매력적이었습니다. 그러나 가르치는 것은 좋아하지만, 더 응용적인 일을 하고 싶다고 생각했습니다. 왜냐하면 학술 연구를 넘어서 자신의 일을 더 임팩트 있게 하고 싶다고 생각했기 때문입니다. 따라서 데이터 사이언스의 일을 하기로 했습니다. 그런 이유로, 박사과정을 정말 즐기게 되었고, 이 시기에 많은 것을 배운 후, 지금은 데이터 과학 및 기계학습의 최전선에 서있습니다. H2O.ai에서 진정한 가치를 만들어내는 역할을 담당하는 것을 기쁘게 생각합니다.

 

 

Philipp 씨의 Kaggle 프로필 화면

 

Kaggle은 어떻게 시작하게 되었나요? 또한 그랜드 마스터가 될 때까지 동기부여는 어떻게 하셨나요?

Philipp : 제가 Kaggle에 가입한 것은 8년 전으로, 박사 학위를 향한 첫걸음을 내딛던 시기였습니다. 가입한 이유는 이 플랫폼의 이야기를 듣고, 확인하고 싶어 졌기 때문입니다. 저는 샘플만 게시해보고, 이후 6년간 Kaggle에 손대지 않았습니다. 2년 전, Dmitry(당시 Kaggle에 등록된 이름은 dott1718, 현재는 직장 동료)와 직장에서의 사이드 프로젝트로 함께 Kaggle의 공모를 시도해보기로 했습니다. 당시 거의 기대하지 않았습니다만, 공모에서 승리해 버려, 이 승리로 인해 완전히 빠져버렸고, 이렇게 제 Kaggle 여정은 시작되었습니다. Kaggle에 대한 저의 어프로치는 항상 동기를 유지하기 위해 새로운 유형의 문제를 해결하는 것이며, 적절하게 해결해야 할 새롭고 흥미로운 문제들이 아직 많습니다. 또한 Kaggle에서 재능 있는 사람들을 만나 함께 일한다거나, 커뮤니티를 보면서 즐기고 있습니다.

 

Kaggle 리더 보드에서 좋은 결과를 남기고 있으며, 최근 진행된 공모전인 NFL의 시작과 미래 - 충격 감지(※ 역주 3)에서 2위를 차지했습니다. 문제를 잘 해결하기 위해 어떤 접근방식을 취하고 있나요?

Philip :: 어떡하면 Kaggle 대회에서 이길 수 있는지를 자주들 물어보시지만, 필승의 범용적인 비전이나 소스는 없다고 생각합니다. Kaggle에서 성공한 많은 경험들과, 알려지지 않은 것들에 대해 배우고싶은 의욕에 기초하고 있습니다. 시간이 지남에 따라, 자신이 해왔던 각 공모전의 구성 요소를 모아 자체적으로 만든 범용 도구 상자를 개발했습니다. 예를 들면 적절한 교차 검증의 설정 방법, 모델에 사용하는 라이브러리, 모델을 적절하게 최적화하는 방법, 성능을 모니터링하는 방법 등의 노하우를 가지고 있습니다. 따라서 최근의 공모에서는 중요한 부분에 집중할 수 있는 시간을 얻게 된 것입니다. 더욱 효율성과 경쟁성을 얻기 위해서, 공모 후에는 항상 워크플로우를 개선하고자 노력하고 있습니다.

 

(※ 역주 3) NFL의 시작과 미래 - 충격 감지는 NFL이 개최한 미식축구를 소재로 한 Kaggle 공모로, 그 내용은 NFL 시합에 관한 이미지 및 동영상에서 선수끼리 충돌할 때 발생하는 충격을 예측한다는 것. 학습 데이터는 경기를 엔드 존에서 촬영한 동영상과 필드를 사이드에서 촬영한 동영상의 쌍을 한 단위로 하여 제안되었습니다.

 

Philipp 씨의 Kaggle에서의 상위 실적 목록

참여 공모전은 어떻게 결정하시나요?

Philipp : 저는 주로 데이터 및 해결해야 할 문제에 대하여 재미있을 것 같은 새로운 유형의 문제나 공모에 임하고 있습니다. 때로는 변화하는 기술을 체험하기 위해 스탠더드 대회에도 도전하고 있습니다.

 

 

Kaggle 문제는 어떻게 접근하는 것이 좋은가요? 커뮤니티와 공유하고 싶은 기계학습 교재(온라인 강좌, 블로그 등)가 있으면 가르쳐주세요.

Philipp : 전 이미 축적된 방법, 도구, 경험의 레퍼토리에 의존하여 눈앞에 있는 문제를 연구하려 합니다. 즉, Kaggle에서 비슷한 문제를 찾아보고 과거의 해결책을 연구하여 관련 논문을 읽거나 하는 것입니다. 문제에 대해 배울 수 있는 가장 좋은 방법은 실제로 노력하고, 그 노력 안에서 배우는 것입니다.

 

 

Philipp씨는 Kaggle 그랜드마스터 연구원으로 H2O.ai 에 소속

 

H2O.ai 데이터 과학자로서 당신의 역할과 일하고 있는 전문분야는 무엇입니까?

Philipp : H2O.ai 에서 제 역할은 매우 다면적입니다. 저는 항상 고객과 마주한 프로젝트에 임하고 있으며, 거기서 제 목표는 데이터 과학의 전문 지식을 사용하여 프로젝트를 지원하는 것입니다. 또한 Kaggle의 그랜드 마스터로 항상 첨단의 경험과 지식을 활용하여 지속적으로 제품을 개선하고 새로운 프로토타입 솔루션을 개발하려고 하고 있습니다. 예로, Driverless AI의 새로운 기능을 제안하고, Wave에서 AI 애플리케이션을 개발하여 새로운 기술과 전체 파이프라인의 데이터 과학 솔루션을 입증하고 있습니다(※ 역주 4).

 

H2O Wave - An open-source Python development framework | H2O.ai

H2O Wave is an open-source Python development framework that makes it fast and easy to develop real-time interactive AI apps with sophisticated visualizations.

www.h2o.ai

 

H2O Driverless AI - Open Source Leader in AI and ML

Open Source Leader in AI and ML - H2O Driverless AI - With Driverless AI, everyone including expert and junior data scientists can develop trusted machine learning models.

www.h2o.ai

(※ 역주 4) Driverless AI는 H2O.ai이 개발 · 제공하는 기계학습 플랫폼. 특징 엔지니어링, 튜닝 등을 효율적으로 수행할 수 있으며, 몇 분에서 몇 시간이면 기계학습을 개발할 수 있습니다. Wave는 회사가 개발 · 제공하는 Python 응용 프로그램 개발 프레임워크로, 대화형 AI 애플리케이션을 빠르게 개발할 수 있습니다.

 

Kaggle에서의 배움을 전문 분야에 응용한 것 중에서 가장 좋았던 것은 무엇입니까?

Philipp : Kaggle에서 배우는 중요한 것 중 하나는 일반화하기 쉽고, 강한 오버 피팅의 영향을 받지 않는 튼튼한 모델을 어떻게 생성하는가 하는 것입니다. 이 노하우를 실천하려면 보이지 않는 개인 데이터를 잘 처리해야 하므로 Kaggle은 매우 중요합니다. 즉, 튼튼한 교차검증에 대해 많은 것을 배우고 특징 분포의 변화나, 데이터의 다른 단면을 고려하는 것이 중요합니다.

 

 

데이터 과학 영역은 빠르게 진화하고 있습니다. 어떻게 최신의 개발에 대응하고 있습니까?

Philipp : 저는 대부분의 경우, 최신의 개발을 유지하기 위해 Kaggle을 사용하고 있습니다. Kaggle은 새로운 기술이 실용적인지, 문제에 응용할 수 있는지, 아니면 무쓸모인지를 골라내는 멋진 필터이기도 합니다. 일반적으로 튼튼한 기술은 생존하며, 부득이한 경우에만 작동하는 한계적 방법은 필터링되어 버립니다. 동시에 저는 twitter나 다른 플랫폼에서 유명한 연구자 및 실무자를 팔로우하여 최신 정보를 얻고 있습니다.

 

 

2020년 1월 9일에 개최된 비엔나 데이터 과학 그룹의 밋업에서 Philipp씨가 강연을 하고 있다

 

당신의 기계학습 전문성을 살리고 싶은 분야나 문제가 있을까요?

Philipp : (자신의 전문 지식을 활용하는데) 특히 고집하지 않습니다. 직장이나 Kaggle에서 만나는 흥미로운 문제들에 계속 놀라고 싶다고 항상 생각하고 있습니다. 그다지 재미없어 보이는 문제를 탐구하는 것도 매우 중요합니다(다양한 문제를 해결하는 것으로서) 문제에 대해 편견 없는 관점을 세우거나 다른 문제에서 얻은 경험을 데이터에 바로 적용할 수 있을 것입니다.

 

 

데이터 과학 및 Kaggle을 시작한 지 ​​얼마 안 된 분이나, 앞으로 데이터 사이언스의 여정을 시작하려는 분들에게 한마디 조언을 부탁드립니다.

Philipp : 손을 더럽히고, 실패를 두려워하지 말고, 항상 새로운 것을 배우는 의욕을 가집시다.

 

 

Philipp 씨의 Kaggle 여정은 매우 주목할만합니다. 그의 헌신과 성과는 이 분야에서 이미 일하고 있는 사람이나 경력을 쌓아 올리고자 하는 사람들에게 영감의 원천이 될 것입니다.


원문 : Meet the Data Scientist who just can not stop winning on Kaggle

 

Meet the Data Scientist who just cannot stop winning on Kaggle.

In conversation with Philipp Singer: A Data Scientist, Kaggle Double Grandmaster, and a Ph.D. in Computer Science.

towardsdatascience.com

 

반응형