🔹 환경 (Environment)
- 강화학습에서 에이전트를 둘러싼 모든 외부 시스템을 의미하며, 문제를 해결하고자 하는 대상.
 - 환경은 두 가지 유형으로 구분됨:
- 연속 공간: 현실 세계처럼 시간과 공간이 연속적임.
 - 이산 공간: 연속 공간을 그리드로 나누어 단순화한 공간. (예: 격자형 미로)
 
 
보충: 같은 문제라도 공간을 나누는 방식에 따라 해결 난이도가 달라질 수 있음. 복잡한 문제를 쉽게 풀기 위해 환경을 최대한 단순화하는 것이 핵심.
🔹 상태 (State, S)
- 에이전트가 인식하는 현재 환경의 정보
 - 상태 집합 S: 모든 가능한 상태들의 모음
 s_t: 시간 t에서의 상태
🔹 에이전트 (Agent)
- 학습을 수행하는 주체 (로봇, 소프트웨어 등)
 - 환경과 상호작용하며 최적의 행동을 학습함
 
🔹 행동 (Action, A)
- 에이전트가 상태에서 선택할 수 있는 수행 단위
 - 예시: 
A = {a1, a2, a3, a4}→ 상하좌우로 한 칸 이동 
보충: 강화학습은 사전에 정의된 행동 집합 내에서만 선택 가능
(허용 여부는 환경이 판단하고, 불가능한 행동은 보상으로 간접 제어됨)
🔹 상태 전이 확률 (P)
P(s' | s, a): 상태 s에서 행동 a를 했을 때 상태 s'로 전이될 확률. P(s' | s, a)나 P_{ss'}^{a}로 표기- P(s' | s, a) = P_{ss'}^{a} = Pr[S_{t+1} = s' | S_t = s, A_t = a]와 같이 정의됨.
 - 결정론적 환경: 항상 특정 s'로 이동 → 
P = 1 - 확률적 환경: 외부 요인으로 인해 s'가 달라질 수 있음 → 
P < 1 
보충: 다중 에이전트 환경일 경우 확률적 전이 가능성 증가
🔹 보상 (Reward, R)
- 에이전트의 행동에 대해 환경이 주는 즉각적인 수치적 평가
 r(s, a, s') = E[r_{t+1} | s, a, s']
→ 보상은 다음 상태로 이동한 이후에 주어짐- S_t에서 받는 보상이 r_t가 아니고 r_{t+1}인 이유는 상태 s에서 상태 s'로 에이전트가 이동하고 난 후에야 환경으로부터 에이전트의 행동을 평가받고, 보상을 받기 때문이다.
 
그림 2.9 에이전트의 이동과 보상 예제
그림 2.9는 에이전트의 이동과 보상을 백업 다이어그램으로 표현한 그림이다.
- 백업 다이어그램: 상태와 상태에서 정의된 행동, 행동에 연결된 다음 상태의 관계를 나타낸 그림.
- 강화학습 알고리즘을 설명하는 데 주로 사용됨.
 - 정상 상태는 속이 빈 원으로, 행동은 검은 점으로 표시
 - 마지막 상태는 네모로 표시
 
 
보충: 절댓값보다는 비율이 중요
🔹 수익 (Return, G)
- 시간 t부터 누적되는 할인 보상의 총합
 G_t = r_{t+1} + γr_{t+2} + γ²r_{t+3} + ...- 감가율(γ):
- γ ≈ 0: 현재 보상 중시
 - γ ≈ 1: 미래 보상까지 고려
 
 - 목적: 무한 보상을 방지하고 미래 가치 반영
 
🔹 정책 (Policy, π)
- 상태에서 행동을 선택하는 행동 전략
π(a | s) = Pr[A_t = a | S_t = s]
 - 강화학습의 핵심 목표는 최적 정책(π*) 찾기
- π*는 기대 수익 G를 최대화하는 정책
 
 
보충:
- 학습이 끝나면 정책은 각 상태에서 행동 선택의 확률 분포로 표현됨
 - 항상 확정적일 필요는 없음 (확률 기반 선택 가능)
 
🔹 에피소드 (Episode)
- 강화학습에서 하나의 시도 혹은 경험 단위
- 시작 상태 → 종료 상태(성공/실패)까지
 
 - 두 가지 유형:
- Episodic task: 끝이 있음 (게임, 미로 등)
 - Continuous task: 끝이 없음 (주식, 로봇 등)
 
 
🔹 마르코프 의사결정과정 (MDP)
- 강화학습 문제를 수학적으로 표현하는 틀
MDP = <S, A, P, R, γ> - 각 요소:
- S: 상태 집합
 - A: 행동 집합
 - P: 상태 전이 확률
 - R: 보상 함수
 - γ: 감가율 (0 ≤ γ ≤ 1)
 
 
보충:
- 강화학습은 MDP로 정의될 수 있는 문제에만 적용 가능
 - MDP로 정의하지 못하는 문제는 다른 접근법 필요
 
🔹 예시: 미로 문제의 MDP 정의
| s0(출발) | s1 | s2 |
| s3 | s4 | s5 |
| s6 | s7 | s8(도착)|
- 목적: 
s0에서 출발해s8에 도착 - S = {s0, ..., s8}
 - A = {a1: ↑, a2: →, a3: ↓, a4: ←}
 - P(s' | s,a) = 1 (결정론적)
 - R = {+1: 도착, -1: 이동, -3: 미로 밖 이동}
 - γ = 0.9
 
'독서 > 기초부터 시작하는 강화학습 신경망 알고리즘' 카테고리의 다른 글
| 4.1 정책 평가와 반복 정책 평가 (0) | 2025.03.31 | 
|---|---|
| 3.2 가치함수: 행동 가치 계산 (0) | 2025.03.31 | 
| 3.1 가치함수: 상태 가치 계산 (0) | 2025.03.29 | 
| 2.5 환경과 에이전트 준비 (0) | 2025.03.28 | 
| 1. 인공지능이란? (0) | 2025.03.28 |