반응형 강화학습2 [알기쉬운 AI - 22] 강화학습과 도적 알고리즘 강화 학습과 밴디트(도적) 알고리즘 강화 학습은 감독 학습처럼 '해답'이 주어지는 것이 아니고, 보수를 얻기 위해 스스로 배우고 영리해지는 학습법입니다. 바둑이나장기와 같은 게임에서 압도적인 힘을 보여 주므로, "빙상의 체스"라 부르는 컬링을 예로 들어 설명해 봅시다. 컬링은 4명이 한 팀으로 10 엔드 싸움으로 합계 점수가 많은 쪽이 승리하는 스포츠입니다. 엔드마다 선공과 후공이 있어 후공이 유리한 게임입니다. 엔드에서 이기면 다음 엔드는 선공이 되기 때문에 일부러 무승부로 끝내서 후공을 계속한다거나 선공 때는 1점 차이로 일부러 져서 후공을 얻기도 합니다. 이 스포츠는 어떻게 싸워나갈 것인지 전술적인 면이 큰 경기입니다. 일반적으로 컬링은 코치가 있습니다. 8 엔드에서 선공으로 2점 리드시 취해야 할.. 2020. 3. 18. [알기쉬운 AI - 09] 지도 학습과 비지도 학습이란? 독자 여러분 중에는 지혜로운 선생님께 배우고 싶은 분들도 있고, 독학이 좋은 분들도 계실 겁니다. 머신러닝에도 교사가 있는 경우와 그렇지 않은 경우가 있습니다. 각각 지도 학습과 비지도 학습이라고 하며, 여기서는 이 두 방법론에 대해 이해하고 그 예를 살펴보겠습니다. 1. 지도 학습 그런데, 머신러닝에서 "교사"는 누구입니까? 인간의 경우는 어떨까요? 아이들은 처음 새를 보았을 때, 부모에게 "이것은 새라는 거야"라고 배우고 그것을 반복하다 보면 새를 "새"로 인식할 수 있습니다. 이때 부모가 교사로서 새라는 "라벨"을 줍니다. 기계 학습의 경우도 마찬가지입니다. 예를 들어 이미지 데이터가 수중에 많이 모여 있다고 합시다. 기계는 이것을 읽어 볼 수 있지만 거기에 무엇이 담겨 있는지 알 수 없습니다. 그.. 2019. 12. 7. 이전 1 다음 반응형