독서/기초부터 시작하는 강화학습 신경망 알고리즘 10

7. 시간차 학습의 Prediction과 Control

시간차 학습의 Prediction지금까지 배운 동적계획법과 몬테카를로 방법을 정리하면 그림 2.59와 같다. 동적계획법은 환경에 대한 정보를 알고 있어 상태전이확률 ( P(s'|s,a) )을 이용해 상태가치함수를 학습한다. 반면, 일반적인 경우에는 환경 정보를 알기 어렵기 때문에 몬테카를로 방법처럼 에피소드를 반복하여 상태가치함수를 추정하는 방식이 사용된다.몬테카를로 방법의 한계환경에 대한 정보 없이 학습이 가능하지만, 반드시 에피소드가 끝나야 수익을 계산할 수 있다는 제약이 있다. 즉, 바둑이나 미로 탐색처럼 종료 조건이 있는 문제에는 적합하지만, 생산 라인 최적화나 주식시장처럼 종료되지 않는 문제에는 적용이 어렵다.이러한 한계를 극복하고자 동적계획법과 몬테카를로 방법의 장점을 결합한 시간차 학습(Te..

6. 몬테카를로 Control

몬테카를로 방법의 Control어떤 상태에서 행동을 선택하는 정책에는 여러 종류가 있지만, 대표적으로 다음 세 가지가 있다:무작위로 행동을 선택하는 정책행동가치에 따라 확률적으로 행동을 선택하는 정책행동가치 중 가장 높은 행동을 선택하는 정책이 중 3번은 탐욕정책(greedy policy) 으로, 행동가치가 가장 높은 행동만을 선택한다. 탐욕정책은 행동가치 함수가 충분히 학습된 후에는 효과적이지만, 학습 중에는 국소 최적해(local minimum) 에 빠질 위험이 있다.그림 2.54 탐욕정책의 단점 예시어떤 정책을 따르던 우연히 실선 경로로 먼저 도착지점에 도착했다고 하자. 실선 경로에 있는 상태들은 +1의 보상을 받게 되고, 이로 인해 C 상태에서는 오른쪽으로 가는 행동의 가치가 강화된다. 하지만 실..

5. 몬테카를로 Prediction

몬테카를로 방법을 이용한 상태가치 함수 추정 (Prediction)강화학습에서 상태가치를 구하기 위한 수식은 다음과 같다:V_π(s) = ∑_a π(a|s) ∑_{s'} P(s'|s,a) [r(s,a,s')] + γV_π(s')이 수식을 계산하려면 다음 항목이 필요하다:정책 π(a|s)상태전이확률 P(s'|s,a)보상 r(s,a,s')감가율 γ다음 상태의 가치 V_π(s')특히 상태전이확률을 알 수 없다면 계산이 불가능하다.동적계획법과 실제 환경의 차이동적계획법은 환경의 정보를 완전히 알고 있으며, 결정론적 환경(P(s'|s,a) = 1)을 전제한다. 하지만 실제 환경은 불확실성이 존재한다. 예를 들어, 빙판길에서 앞으로 한 걸음 내딛었을 때 발생할 수 있는 결과는 다음과 같다:P(전진 | 빙판길, 앞으..

4.2 정책 개선, 정책 반복, 그리고 가치 반복

🔁 2장 이론 (4): 정책 개선, 정책 반복, 그리고 가치 반복🧭 정책 개선 (Policy Improvement)정책 개선이란?정책 개선은 현재 정책에 따라 계산된 상태가치 ( V_π(s) ) 를 기반으로,각 상태에서 가장 높은 행동가치 ( Q_π(s,a) ) 를 갖는 행동을 선택해 새로운 정책으로 바꾸는 과정이다. π*(s) = argmaxₐ Q_π(s, a)argmax는 가능한 행동 중 행동가치가 가장 큰 행동을 선택최적의 행동만을 선택한 것이 최적 정책 π*정책이 변경되지 않으면 개선이 완료된 것으로 보고, 반복을 종료🔄 정책 반복 (Policy Iteration)Prediction과 ControlPrediction: 현재 정책 π를 이용해 상태가치 ( V_π )를 계산하는 과정 (정책 평가..

4.1 정책 평가와 반복 정책 평가

📘 2장 이론 (3): 정책 평가와 반복 정책 평가🎯 정책과 최적 정책정책 π: 상태 ( s )에서 행동 ( a )를 선택할 확률 분포최적 정책 ( π^* ): 모든 상태에서 가장 높은 기대 수익을 가져오는 행동만을 선택하는 정책최적 정책이란, 어떤 상태에 있든지 최적의 행동을 이미 알고 있는 상태를 의미한다.최적 정책은 상태가치 함수와 행동가치 함수를 통해 정의된다:V^*(s) = max_π V_π(s) # 식 2.18 (최적 상태가치 함수)Q^*(s,a) = max_π Q_π(s,a) # 식 2.19 (최적 행동가치 함수)( V^*(s) ): 가능한 모든 정책 중에서 상태 ( s )의 기대 수익이 가장 큰 값( Q^*(s,a) ): 가능한 모든 정책 중에서 상태 ( s )에서 행동 ..

3.2 가치함수: 행동 가치 계산

📘 2장 이론 (2): 행동가치 함수 ( Q_π(s, a) )🔍 행동가치란?지금까지는 상태의 가치인 ( V_π(s) )를 계산하는 방법을 살펴봤다. 그러나 실제 강화학습에서는 상태에서 어떤 행동을 선택할 것인지가 핵심이다.즉, 상태 ( s )에서 행동 ( a )를 했을 때 기대되는 수익을 나타내는 행동가치 함수 ( Q_π(s,a) )를 정의한다.🧾 행동가치 함수의 정의정책 π를 따를 때, 상태 ( s )에서 행동 ( a )를 선택했을 때의 기대 수익 ( G_t )는 다음과 같이 정의된다:Q_π(s, a) = E_π[G_t | S_t = s, A_t = a] = E_π[r_{t+1} + γr_{t+2} + γ²r_{t+3} + ... | S_t = s, A_t = a] =..

3.1 가치함수: 상태 가치 계산

📘 2장 이론: 상태가치와 벨만 방정식❓ 에이전트는 어떻게 보상을 최대화하는 행동을 학습할까?에이전트는 각 상태 또는 상태에서 가능한 행동들의 가치를 수치화한 후, 그 중 가장 가치가 높은 선택지를 고르는 방식으로 학습한다.즉, 상태가치(state-value) 또는 행동가치(action-value)를 기준으로 행동을 결정한다.📊 상태가치와 행동가치 (그림 2.19)그림 2.19a는 각 상태의 상태가치(V)를 나타낸다.도착지점에 가까울수록 상태가치가 높다.에이전트는 어디서든 가치가 높은 이웃 상태를 따라 이동하게 된다.그림 2.19b는 각 상태에서 선택할 수 있는 행동들의 가치(Q)를 보여준다.에이전트는 각 상태에서 행동가치가 가장 높은 행동을 선택해 도착지점에 도달한다.이처럼 강화학습은 수익 G를 기..

2.5 환경과 에이전트 준비

🤖 에이전트와 환경의 상호작용강화학습은 에이전트(Agent)와 환경(Environment)의 반복적인 상호작용을 통해 이루어진다.시간 t일 때, 환경은 에이전트에게 현재 상태 S_t를 제공한다.에이전트는 이 상태 정보를 바탕으로 가능한 행동 집합 {a1, a2, a3, a4} 중 하나인 A_t를 선택하고 행동한다.환경은 이 행동에 대한 평가로 보상 r_{t+1}을 전달하고, 새로운 상태 S_{t+1}을 알려준다.🎯 에이전트는 이렇게 받은 보상을 최대화하기 위해, 앞으로 받을 보상의 합 G가 가장 크게 되는 최적 정책(π*)을 학습하게 된다.🧱 미로 환경 정의 ▶ 상태 구성3×3 형태의 미로 환경은 다음과 같은 좌표로 정의된다.s0(0,0) s1(0,1) s2(0,2) s3(1,0) s4(1,..

2. 강화학습의 기본 요소

🔹 환경 (Environment)강화학습에서 에이전트를 둘러싼 모든 외부 시스템을 의미하며, 문제를 해결하고자 하는 대상.환경은 두 가지 유형으로 구분됨:연속 공간: 현실 세계처럼 시간과 공간이 연속적임.이산 공간: 연속 공간을 그리드로 나누어 단순화한 공간. (예: 격자형 미로)보충: 같은 문제라도 공간을 나누는 방식에 따라 해결 난이도가 달라질 수 있음. 복잡한 문제를 쉽게 풀기 위해 환경을 최대한 단순화하는 것이 핵심.🔹 상태 (State, S)에이전트가 인식하는 현재 환경의 정보상태 집합 S: 모든 가능한 상태들의 모음s_t: 시간 t에서의 상태🔹 에이전트 (Agent)학습을 수행하는 주체 (로봇, 소프트웨어 등)환경과 상호작용하며 최적의 행동을 학습함🔹 행동 (Action, A)에이전트가..

1. 인공지능이란?

🔹 인공지능이란?인공적으로 만든 지능을 의미하며,강인공지능(사람처럼 사고)과 약인공지능(특정 문제 해결 특화)으로 구분됨.주요 분야: 전문가 시스템, 데이터 마이닝, 패턴 인식, 로보틱스 등머신러닝은 인공지능의 하위 분야로, 이 책의 중심 주제🔹 머신러닝의 세 가지 유형1. 지도학습 (Supervised Learning)정답이 주어진 데이터(훈련 데이터, (입력, 정답) 쌍으로 구성됨)를 기반으로 학습목표: 새로운 입력에 대해 정답(출력)을 예측학습 후, 테스트 데이터를 이용해 분류·예측 수행예시 알고리즘: 선형회귀, 의사결정나무, 신경망 등2. 비지도학습 (Unsupervised Learning)정답 없이, 데이터 속에서 패턴과 구조를 스스로 발견입력만 존재하며, 분류나 군집 등을 수행대표 알고리즘..