Middle :: RL Course by David Silver - Lecture 2: Markov Decision 내멋대로 이해

RL Course by David Silver - Lecture 2: Markov Decision 내멋대로 이해

Artificial Intelligence/Reinforcement Learning 2016. 11. 11. 00:49

https://www.youtube.com/watch?v=lfHX2hHRMVQ

동영상 : RL Course by David Silver - Lecture 2: Markov Decision (DeepMind의 David Silver님 강의)

Reinforcement Learning 에 대해 공부하면서 Dr. David Silver님의 강의를 참조하여 공부하였습니다.

1. 강화 학습이란?

강화학습이란 어떤 환경에서 에이전트가 현재의 상태를 인식하여 어떤 행동을 취한다. 그러면 그 에이전트는 환경으로부터 결과(Reward)를 얻게 된다. 그 결과는 양수와 음수 모두 가능하며, 강화학습의 알고리즘은 그 에이전트가 앞으로 누적될 포상을 최대화 하는 일련의 행동으로 정의되는 정책을 찾는 방법이다.

사람이 게임을 한다고 생각해봅시다. 처음 그게임을 해보게 되면 이 게임은 ~~한 시스템이고 ~~한 조작을 해서 이렇게 조작하면 이길 수 있다. 근데 너의 손은 얼마나 빨리 움직이지? 이렇게 게임을 하지는 않을 것입니다. 아마도 아무것도 모르고 게임을 해보면 어떻게 게임을 하는지 이렇게 조작하면 지고 이렇게하면 이긴다는 것을 학습 할 것입니다.

강화 학습도 이와 같이 agent가 아무것도 모르는 환경에서 경험을 통해 학습하는 것입니다. 간단히 생각해 "컴퓨터니까 다 계산해서 게임하거나 로봇을 움직이거나 하면 안돼?" 라고 생각할 수 있지만 작은 grid world경우에야 모든 것을 계산해 할 수 있지만, 바둑같은 경우 혹은 실제 세상에서는 모든 것을 계산하는것은 불가능 한 일입니다. 하지만 모든 사람이 프로 바둑기사는 될 수는 없어도 하다보면 바둑을 둘 수 있게 됩니다. 인공지능이 사람의 그러한 학습 방법을 모티브 삼아서 학습 하는 것입니다.

강화 학습의 정의를 살펴 보면 "상태", "환경", "행동", "포상" 과 같은 단어들이 등장합니다. 문제를 풀고 싶을 때 가장 먼저 하는 것이 문제의 정의입니다. 실재로 무엇인가를 학습하기 위해서는 그 학습의 바탕이 되는 문제를 정의가 필수적입니다. 실재로 무엇인가를 학습하기 위해서는 그 학습의 바탕이 되는 문제의 정의가 필수적입니다. 강화학습에서는 그 문제는 MDP( Markov Decision Process)로 정의되며 특정Environment에서 Agent(사람으로 치면 뇌)가 그 Environment를 MDP로 이해합니다. 이 MDP라는 것에 대해서 살펴보는 것으로 강화 학습의 공부가 시작합니다.

2. MDP(Markov Decision Process)이란?

MDP를 배우기 전에 Markov하다는 말의 정의와 Markov Chain, Markov Reward Process에 대해 먼저 알아 봅니다. Markov는 러시아 수학자입니다.

Dynamics은 확률분포와 완전히 분리하여 정의 할 수 있습니다.

만약 신호가 Markov property인 경우 다른 한편으로는 환경과 작업이 3.4식과 3.5식이 같은 경우 모든 기록들 이경우에는 환경과 작업은 모두 Markov property를 가지고 있습니다.

첫 식 처럼 처음 어떤 상태로부터 시작해서 현재 상태까지 올 확률이 바로 전상태에서 현재 상태로 올 확률과 같을때 두번째 식처럼 표현 될 수 있고 state는 Markov 하다고 일컬어질 수 있습니다.

게임이라고 생각하면 어떤 상황은 이전 모든 상황에 영향받아 지금 상황이 된것이기 때문에 사실 지금 상황에 이전 상황의 정보가 모두 담겨 있습니다. 우리가 접근 하는 모든 state가 Markov property라 할 수 없지만 그럴 경우 state는 Markov라고 가정하고 강화학습으로 접근합니다.

강화 학습에서는 value라는 어떤 가치가 현재의 state의 함수로 표현되기 때문에 state가 Markov하다는 것은 상당히 중요합니다. 따라서 강화학습에서는 state가 Markov 하다라고 가정하고 실재로도 이렇게 가정했을 경우 문제가 생기지 않습니다.

Screenshot from 2016-07-12 15:12:25.png

위 그림에서 로봇이 세상을 바라보고 이해하는 방식이 MDP가 됩니다. MDP란 Markov Decision Process의 약자로 state, action, state, probability, matrix, reward, discounted factor로 이뤄져 있습니다.

로봇이 있는 위치가 state, 앞뒤로 움직이는게 action 보석은 reward입니다.