'2025/04/01 글 목록

2025/04/01 1

🔁 2장 이론 (4): 정책 개선, 정책 반복, 그리고 가치 반복🧭 정책 개선 (Policy Improvement)정책 개선이란?정책 개선은 현재 정책에 따라 계산된 상태가치 ( V_π(s) ) 를 기반으로,각 상태에서 가장 높은 행동가치 ( Q_π(s,a) ) 를 갖는 행동을 선택해 새로운 정책으로 바꾸는 과정이다. π*(s) = argmaxₐ Q_π(s, a)argmax는 가능한 행동 중 행동가치가 가장 큰 행동을 선택최적의 행동만을 선택한 것이 최적 정책 π*정책이 변경되지 않으면 개선이 완료된 것으로 보고, 반복을 종료🔄 정책 반복 (Policy Iteration)Prediction과 ControlPrediction: 현재 정책 π를 이용해 상태가치 ( V_π )를 계산하는 과정 (정책 평가..

독서/기초부터 시작하는 강화학습 신경망 알고리즘 2025.04.01

studylida

리얼티인컴, SPTL, fill_n, cpp, IEMG, 작성 규칙, 연결, 인터페이스, API 게이트웨이, 게시글 작성 규칙, 모놀리, 어드레싱, 주식, 네트워크, 프로그래밍, 로드 밸런서, 마이크로서비스, INDA, MAC 주소 필터링, OSI 참조 모델,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

studylida

2025/04/01 1

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역