2. 강화학습의 기본 요소

독서/기초부터 시작하는 강화학습 신경망 알고리즘

2. 강화학습의 기본 요소

studylida 2025. 3. 28. 02:16

🔹 환경 (Environment)

강화학습에서 에이전트를 둘러싼 모든 외부 시스템을 의미하며, 문제를 해결하고자 하는 대상.
환경은 두 가지 유형으로 구분됨:
- 연속 공간: 현실 세계처럼 시간과 공간이 연속적임.
- 이산 공간: 연속 공간을 그리드로 나누어 단순화한 공간. (예: 격자형 미로)

보충: 같은 문제라도 공간을 나누는 방식에 따라 해결 난이도가 달라질 수 있음. 복잡한 문제를 쉽게 풀기 위해 환경을 최대한 단순화하는 것이 핵심.

🔹 상태 (State, S)

에이전트가 인식하는 현재 환경의 정보
상태 집합 S: 모든 가능한 상태들의 모음
s_t: 시간 t에서의 상태

🔹 에이전트 (Agent)

학습을 수행하는 주체 (로봇, 소프트웨어 등)
환경과 상호작용하며 최적의 행동을 학습함

🔹 행동 (Action, A)

에이전트가 상태에서 선택할 수 있는 수행 단위
예시: A = {a1, a2, a3, a4} → 상하좌우로 한 칸 이동

보충: 강화학습은 사전에 정의된 행동 집합 내에서만 선택 가능
(허용 여부는 환경이 판단하고, 불가능한 행동은 보상으로 간접 제어됨)

🔹 상태 전이 확률 (P)

P(s' | s, a) : 상태 s에서 행동 a를 했을 때 상태 s'로 전이될 확률. P(s' | s, a)나 P_{ss'}^{a}로 표기
P(s' | s, a) = P_{ss'}^{a} = Pr[S_{t+1} = s' | S_t = s, A_t = a]와 같이 정의됨.
결정론적 환경: 항상 특정 s'로 이동 → P = 1
확률적 환경: 외부 요인으로 인해 s'가 달라질 수 있음 → P < 1

보충: 다중 에이전트 환경일 경우 확률적 전이 가능성 증가

🔹 보상 (Reward, R)

에이전트의 행동에 대해 환경이 주는 즉각적인 수치적 평가
r(s, a, s') = E[r_{t+1} | s, a, s']
→ 보상은 다음 상태로 이동한 이후에 주어짐
- S_t에서 받는 보상이 r_t가 아니고 r_{t+1}인 이유는 상태 s에서 상태 s'로 에이전트가 이동하고 난 후에야 환경으로부터 에이전트의 행동을 평가받고, 보상을 받기 때문이다.

그림 2.9 에이전트의 이동과 보상 예제

그림 2.9는 에이전트의 이동과 보상을 백업 다이어그램으로 표현한 그림이다.

백업 다이어그램: 상태와 상태에서 정의된 행동, 행동에 연결된 다음 상태의 관계를 나타낸 그림.
- 강화학습 알고리즘을 설명하는 데 주로 사용됨.
- 정상 상태는 속이 빈 원으로, 행동은 검은 점으로 표시
- 마지막 상태는 네모로 표시

보충: 절댓값보다는 비율이 중요

🔹 수익 (Return, G)

시간 t부터 누적되는 할인 보상의 총합
G_t = r_{t+1} + γr_{t+2} + γ²r_{t+3} + ...
감가율(γ):
- γ ≈ 0: 현재 보상 중시
- γ ≈ 1: 미래 보상까지 고려
목적: 무한 보상을 방지하고 미래 가치 반영

🔹 정책 (Policy, π)

상태에서 행동을 선택하는 행동 전략
- π(a | s) = Pr[A_t = a | S_t = s]
강화학습의 핵심 목표는 최적 정책(π*) 찾기
- π*는 기대 수익 G를 최대화하는 정책

보충:

학습이 끝나면 정책은 각 상태에서 행동 선택의 확률 분포로 표현됨
항상 확정적일 필요는 없음 (확률 기반 선택 가능)

🔹 에피소드 (Episode)

강화학습에서 하나의 시도 혹은 경험 단위
- 시작 상태 → 종료 상태(성공/실패)까지
두 가지 유형:
- Episodic task: 끝이 있음 (게임, 미로 등)
- Continuous task: 끝이 없음 (주식, 로봇 등)

🔹 마르코프 의사결정과정 (MDP)

강화학습 문제를 수학적으로 표현하는 틀
```
MDP = <S, A, P, R, γ>
```
각 요소:
- S: 상태 집합
- A: 행동 집합
- P: 상태 전이 확률
- R: 보상 함수
- γ: 감가율 (0 ≤ γ ≤ 1)

보충:

강화학습은 MDP로 정의될 수 있는 문제에만 적용 가능
MDP로 정의하지 못하는 문제는 다른 접근법 필요

🔹 예시: 미로 문제의 MDP 정의

| s0(출발) | s1 | s2 |
| s3 | s4 | s5 |
| s6 | s7 | s8(도착)|

목적: s0에서 출발해 s8에 도착
S = {s0, ..., s8}
A = {a1: ↑, a2: →, a3: ↓, a4: ←}
P(s' | s,a) = 1 (결정론적)
R = {+1: 도착, -1: 이동, -3: 미로 밖 이동}
γ = 0.9

'독서 > 기초부터 시작하는 강화학습 신경망 알고리즘' 카테고리의 다른 글

4.1 정책 평가와 반복 정책 평가 (0)	2025.03.31
3.2 가치함수: 행동 가치 계산 (0)	2025.03.31
3.1 가치함수: 상태 가치 계산 (0)	2025.03.29
2.5 환경과 에이전트 준비 (0)	2025.03.28
1. 인공지능이란? (0)	2025.03.28

현재글2. 강화학습의 기본 요소

studylida

로드 밸런서, 모놀리, 인터페이스, 마이크로서비스, 주식, 연결, 게시글 작성 규칙, API 게이트웨이, 네트워크, 어드레싱, MAC 주소 필터링, 작성 규칙, 프로그래밍, 리얼티인컴, cpp, SPTL, fill_n, OSI 참조 모델, IEMG, INDA,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

studylida

2. 강화학습의 기본 요소

🔹 환경 (Environment)

🔹 상태 (State, S)

🔹 에이전트 (Agent)

🔹 행동 (Action, A)

🔹 상태 전이 확률 (P)

🔹 보상 (Reward, R)

🔹 수익 (Return, G)

🔹 정책 (Policy, π)

🔹 에피소드 (Episode)

🔹 마르코프 의사결정과정 (MDP)

🔹 예시: 미로 문제의 MDP 정의

'독서 > 기초부터 시작하는 강화학습 신경망 알고리즘' 카테고리의 다른 글

'독서/기초부터 시작하는 강화학습 신경망 알고리즘'의 다른글

티스토리툴바

2. 강화학습의 기본 요소

🔹 환경 (Environment)

🔹 상태 (State, S)

🔹 에이전트 (Agent)

🔹 행동 (Action, A)

🔹 상태 전이 확률 (P)

🔹 보상 (Reward, R)

🔹 수익 (Return, G)

🔹 정책 (Policy, π)

🔹 에피소드 (Episode)

🔹 마르코프 의사결정과정 (MDP)

🔹 예시: 미로 문제의 MDP 정의

'독서 > 기초부터 시작하는 강화학습 신경망 알고리즘' 카테고리의 다른 글

'독서/기초부터 시작하는 강화학습 신경망 알고리즘'의 다른글

관련글

티스토리툴바