독서/기초부터 시작하는 강화학습 신경망 알고리즘

2. 강화학습의 기본 요소

studylida 2025. 3. 28. 02:16

🔹 환경 (Environment)

  • 강화학습에서 에이전트를 둘러싼 모든 외부 시스템을 의미하며, 문제를 해결하고자 하는 대상.
  • 환경은 두 가지 유형으로 구분됨:
    • 연속 공간: 현실 세계처럼 시간과 공간이 연속적임.
    • 이산 공간: 연속 공간을 그리드로 나누어 단순화한 공간. (예: 격자형 미로)

보충: 같은 문제라도 공간을 나누는 방식에 따라 해결 난이도가 달라질 수 있음. 복잡한 문제를 쉽게 풀기 위해 환경을 최대한 단순화하는 것이 핵심.


🔹 상태 (State, S)

  • 에이전트가 인식하는 현재 환경의 정보
  • 상태 집합 S: 모든 가능한 상태들의 모음
  • s_t: 시간 t에서의 상태

🔹 에이전트 (Agent)

  • 학습을 수행하는 주체 (로봇, 소프트웨어 등)
  • 환경과 상호작용하며 최적의 행동을 학습함

🔹 행동 (Action, A)

  • 에이전트가 상태에서 선택할 수 있는 수행 단위
  • 예시: A = {a1, a2, a3, a4} → 상하좌우로 한 칸 이동

보충: 강화학습은 사전에 정의된 행동 집합 내에서만 선택 가능
(허용 여부는 환경이 판단하고, 불가능한 행동은 보상으로 간접 제어됨)


🔹 상태 전이 확률 (P)

  • P(s' | s, a) : 상태 s에서 행동 a를 했을 때 상태 s'로 전이될 확률. P(s' | s, a)나 P_{ss'}^{a}로 표기
  • P(s' | s, a) = P_{ss'}^{a} = Pr[S_{t+1} = s' | S_t = s, A_t = a]와 같이 정의됨.
  • 결정론적 환경: 항상 특정 s'로 이동 → P = 1
  • 확률적 환경: 외부 요인으로 인해 s'가 달라질 수 있음 → P < 1

보충: 다중 에이전트 환경일 경우 확률적 전이 가능성 증가


🔹 보상 (Reward, R)

  • 에이전트의 행동에 대해 환경이 주는 즉각적인 수치적 평가
  • r(s, a, s') = E[r_{t+1} | s, a, s']
    → 보상은 다음 상태로 이동한 이후에 주어짐
    • S_t에서 받는 보상이 r_t가 아니고 r_{t+1}인 이유는 상태 s에서 상태 s'로 에이전트가 이동하고 난 후에야 환경으로부터 에이전트의 행동을 평가받고, 보상을 받기 때문이다.

그림 2.9 에이전트의 이동과 보상 예제

그림 2.9는 에이전트의 이동과 보상을 백업 다이어그램으로 표현한 그림이다.

  • 백업 다이어그램: 상태와 상태에서 정의된 행동, 행동에 연결된 다음 상태의 관계를 나타낸 그림.
    • 강화학습 알고리즘을 설명하는 데 주로 사용됨.
    • 정상 상태는 속이 빈 원으로, 행동은 검은 점으로 표시
    • 마지막 상태는 네모로 표시

보충: 절댓값보다는 비율이 중요


🔹 수익 (Return, G)

  • 시간 t부터 누적되는 할인 보상의 총합
  • G_t = r_{t+1} + γr_{t+2} + γ²r_{t+3} + ...
  • 감가율(γ):
    • γ ≈ 0: 현재 보상 중시
    • γ ≈ 1: 미래 보상까지 고려
  • 목적: 무한 보상을 방지하고 미래 가치 반영

🔹 정책 (Policy, π)

  • 상태에서 행동을 선택하는 행동 전략
    • π(a | s) = Pr[A_t = a | S_t = s]
  • 강화학습의 핵심 목표는 최적 정책(π*) 찾기
    • π*는 기대 수익 G를 최대화하는 정책

보충:

  • 학습이 끝나면 정책은 각 상태에서 행동 선택의 확률 분포로 표현됨
  • 항상 확정적일 필요는 없음 (확률 기반 선택 가능)

🔹 에피소드 (Episode)

  • 강화학습에서 하나의 시도 혹은 경험 단위
    • 시작 상태 → 종료 상태(성공/실패)까지
  • 두 가지 유형:
    • Episodic task: 끝이 있음 (게임, 미로 등)
    • Continuous task: 끝이 없음 (주식, 로봇 등)

🔹 마르코프 의사결정과정 (MDP)

  • 강화학습 문제를 수학적으로 표현하는 틀
    MDP = <S, A, P, R, γ>
  • 각 요소:
    • S: 상태 집합
    • A: 행동 집합
    • P: 상태 전이 확률
    • R: 보상 함수
    • γ: 감가율 (0 ≤ γ ≤ 1)

보충:

  • 강화학습은 MDP로 정의될 수 있는 문제에만 적용 가능
  • MDP로 정의하지 못하는 문제는 다른 접근법 필요

🔹 예시: 미로 문제의 MDP 정의

| s0(출발) | s1 | s2 |
| s3 | s4 | s5 |
| s6 | s7 | s8(도착)|

  • 목적: s0에서 출발해 s8에 도착
  • S = {s0, ..., s8}
  • A = {a1: ↑, a2: →, a3: ↓, a4: ←}
  • P(s' | s,a) = 1 (결정론적)
  • R = {+1: 도착, -1: 이동, -3: 미로 밖 이동}
  • γ = 0.9